这是命令 bp_genbank2gff3p 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3
概要
bp_genbank2gff3.pl [选项] 文件名
# 处理一个包含 GenBank 平面文件的目录
perl bp_genbank2gff3.pl --dir 文件路径 --zip
# 处理单个文件,忽略显式外显子和内含子
perl bp_genbank2gff3.pl --filter 外显子 --filter 内含子 file.gbk.gz
# 处理文件列表
perl bp_genbank2gff3.pl *gbk.gz
# 使用 Chado GFF 模型 (-noCDS) 处理来自 URL 的数据,并通过管道传输到数据库加载器
卷曲 ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata
选项:
--noinfer -r 不推断外显子/mRNA 子特征
--conf -i 包含用户首选项的管理配置文件的路径
用于 Genbank 条目(必须是 YAML 格式)
(如果 --manual 在没有 --ini 的情况下传递,用户将被提示
如果保存了任何手动输入,则创建文件)
--sofile -l 用于要素类型映射的 so.obo 文件的路径
(--sofile live 会下载最新的在线修订版)
--manual -m 尝试猜测正确的 SO 术语时,如果超过
一个选项与主要标签匹配,转换器将
等待用户输入选择正确的
(仅适用于 --sofile)
--dir -d genbank 平面文件列表的路径
--outdir -o 写入 GFF 文件的位置(对于管道可以是“stdout”或“-”)
--zip -z 使用 gzip 压缩 GFF3 输出文件
--summary -s 打印每个 contig 中特征的摘要
--filter -x 要忽略的 genbank 特征类型
--split -y 拆分输出以分离 GFF 和 fasta 文件
每个基因库记录
--nolump -n 每个参考序列的单独文件
(默认是将所有记录合并为一个
每个输入文件的输出文件)
--ethresh -e unflattener 的错误阈值
将此设置为高 (>2) 以忽略所有 unflattener 错误
--[no]CDS -c 保留CDS-外显子,或转换为替代基因-RNA-蛋白质-外显子
模型。 --CDS 是默认值。 使用 --CDS 保持默认的 GFF 基因模型,
使用 --noCDS 转换为 grpe。
--format -f 输入格式(SeqIO 类型):GenBank、Swiss 或 Uniprot、EMBL 工作
(默认为 GenBank)
--GFF_VERSION 3 是默认的,2 和 2.5 以及其他 Bio::Tools::GFF 版本可用
--quiet 不要谈论正在处理的内容
--typesource SO 源序列类型(例如染色体;区域;重叠群)
--help -h 显示此消息
商品描述
这个脚本使用 Bio::SeqFeature::Tools::Unflattener 和 Bio::Tools::GFF 来转换
GenBank 平面文件到 GFF3,并映射了基因包含层次结构以实现最佳显示
浏览。
假设输入文件是 refseq contigs 的 gzip 压缩 GenBank 平面文件。 文件
可能包含多个 GenBank 记录。 可以是单个文件或整个目录
处理。 默认情况下,DNA 序列嵌入在 GFF 中,但它可以保存到
使用 --split(-y) 选项分离 fasta 文件。
如果输入文件包含多条记录,默认行为是转储所有 GFF 和
序列到同名文件(附加 .gff)。 使用 'nolump' 选项将
为每个 genbank 记录创建一个单独的文件。 使用 'split' 选项将创建
为每个 genbank 记录单独的 GFF 和 Fasta 文件。
笔记
'分裂' 和 '无块' 生产 许多 档
如果输入文件包含许多 GenBank 记录(例如,染色体
用于构建鼠标基因组的文件),如果
'split' 或 'nolump' 选项被选中。 如果您的文件列表大于 6000,请使用
bp_bulk_load_gff.pl 或 bp_fast_load_gff.pl 中的 --long_list 选项用于加载 gff 和/
或 fasta 文件。
设计的 以RefSeq
此脚本专为 RefSeq 基因组序列条目而设计。 它可能适用于第三方
注释,但这尚未经过测试。 但见下文,Uniprot/Swissprot 有效,EMBL
如果您不介意某些基因模型不平坦错误 (dgg),则可能还有 EMBL/Ensembl。
玻璃钢 基因 型号
唐吉尔伯特(Don Gilbert)根据需要制作适合加载到 GMOD Chado 的 GFF3
数据库。 我认为大多数更改都适合一般用途。 一个主要的chado-
具体的添加是
--[no]cds2protein 标志
我最喜欢的 GFF 是默认将上述设置为 ON(使用 --nocds2prot 禁用)对于
一般使用它可能应该关闭,启用 --cds2prot。
这将使用替代但有用的 Gene 模型编写 GFF,而不是共识模型
对于 GFF3
[基因> mRNA>(外显子,CDS,UTR)]
这个替代是
基因 > mRNA > 多肽 > 外显子
意味着具有 dna 碱基的唯一特征是外显子。 其他人只指定位置
基因组上的范围。 外显子当然是 mRNA 和蛋白质/肽的产物。
蛋白质/多肽特征是一个重要的特征,具有所有的注释
GenBank CDS 特征、蛋白质 ID、翻译、GO 术语、其他蛋白质的 Dbxref。
UTR、内含子、CDS-外显子都是从内部/外部的主要外显子碱基推断出来的
适当的更高的特征范围。 其他特殊基因模型特征保持不变。
包括一些其他的改进和错误修正,次要但有用
* IO 管道现在可以工作:
卷曲 ftp://ncbigenome/... | bp_genbank2gff3 --in 标准输入 --out 标准输出 | gff2chado ...
* GenBank 主要记录字段被添加到源特征,例如生物体、日期、
并且使用 sourcetype,通常是基因组的染色体。
* ncRNA 的基因模型处理,添加了假基因。
* GFF 标头更清晰,信息更丰富。
--GFF_VERSION 标志允许选择 v2 以及默认的 v3
* GFF ##FASTA 包含得到改进,并且
CDS 翻译序列被移动到 FASTA 记录。
* FT -> GFF 属性映射得到改进。
* --SeqIO 输入格式的格式选择(GenBank 默认)。
Uniprot/Swissprot 和 EMBL 工作并产生有用的 GFF。
* SeqFeature::Tools::TypeMapper 有一些 FT -> SOFA 添加
和更灵活的使用。
ALL
是 这些 增加 想要的?
* 按分类单元过滤输入记录(例如,只保留有机体=xxx 或分类单元级别 = classYYY
*处理Entrezgene,其他非序列SeqIO结构(真的应该改变
那些生成一致注释标签的解析器)。
相关 错误修正/测试
这些来自 Bioperl 邮件的项目已经过测试(样本数据产生错误),并发现
更正:
来自:艾德格林eva.mpg.de>
主题:关于新人类 RefSeq 的 genbank2gff3.pl
日期:2006-03-13 21:22:26 GMT
-- 未指明的错误(示例数据现在有效)。
来自:埃里克·贾斯特Northwestern.edu>
主题:genbank2gff3.pl
日期:2007-01-26 17:08:49 GMT
-- 修复了 genbank2gff3 中用于多记录处理的错误
此错误针对难以处理的 /trans_splice 基因,以及 unflattner/genbank2
不
来自:乍得·马萨拉dieselwurks.com>
主题:genbank2gff3.PLS 和 unflatenner - 顺序不一致?
日期:2005-07-15 19:51:48 GMT
使用 onworks.net 服务在线使用 bp_genbank2gff3p