bp_genbank2gff3p - 云端在线

在 OnWorks 免费托管服务提供商中通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器运行 bp_genbank2gff3p

这是命令 bp_genbank2gff3p 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3

概要

bp_genbank2gff3.pl [选项] 文件名

# 处理一个包含 GenBank 平面文件的目录
perl bp_genbank2gff3.pl --dir 文件路径 --zip

# 处理单个文件，忽略显式外显子和内含子
perl bp_genbank2gff3.pl --filter 外显子 --filter 内含子 file.gbk.gz

# 处理文件列表
perl bp_genbank2gff3.pl *gbk.gz

# 使用 Chado GFF 模型 (-noCDS) 处理来自 URL 的数据，并通过管道传输到数据库加载器
卷曲 ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata

选项：
--noinfer -r 不推断外显子/mRNA 子特征
--conf -i 包含用户首选项的管理配置文件的路径
用于 Genbank 条目（必须是 YAML 格式）
（如果 --manual 在没有 --ini 的情况下传递，用户将被提示
如果保存了任何手动输入，则创建文件）
--sofile -l 用于要素类型映射的 so.obo 文件的路径
（--sofile live 会下载最新的在线修订版）
--manual -m 尝试猜测正确的 SO 术语时，如果超过
一个选项与主要标签匹配，转换器将
等待用户输入选择正确的
（仅适用于 --sofile）
--dir -d genbank 平面文件列表的路径
--outdir -o 写入 GFF 文件的位置（对于管道可以是“stdout”或“-”）
--zip -z 使用 gzip 压缩 GFF3 输出文件
--summary -s 打印每个 contig 中特征的摘要
--filter -x 要忽略的 genbank 特征类型
--split -y 拆分输出以分离 GFF 和 fasta 文件
每个基因库记录
--nolump -n 每个参考序列的单独文件
（默认是将所有记录合并为一个
每个输入文件的输出文件）
--ethresh -e unflattener 的错误阈值
将此设置为高 (>2) 以忽略所有 unflattener 错误
--[no]CDS -c 保留CDS-外显子，或转换为替代基因-RNA-蛋白质-外显子
模型。 --CDS 是默认值。使用 --CDS 保持默认的 GFF 基因模型，
使用 --noCDS 转换为 grpe。
--format -f 输入格式（SeqIO 类型）：GenBank、Swiss 或 Uniprot、EMBL 工作
（默认为 GenBank）
--GFF_VERSION 3 是默认的，2 和 2.5 以及其他 Bio::Tools::GFF 版本可用
--quiet 不要谈论正在处理的内容
--typesource SO 源序列类型（例如染色体；区域；重叠群）
--help -h 显示此消息

商品描述

这个脚本使用 Bio::SeqFeature::Tools::Unflattener 和 Bio::Tools::GFF 来转换
GenBank 平面文件到 GFF3，并映射了基因包含层次结构以实现最佳显示
浏览。

假设输入文件是 refseq contigs 的 gzip 压缩 GenBank 平面文件。文件
可能包含多个 GenBank 记录。可以是单个文件或整个目录
处理。默认情况下，DNA 序列嵌入在 GFF 中，但它可以保存到
使用 --split(-y) 选项分离 fasta 文件。

如果输入文件包含多条记录，默认行为是转储所有 GFF 和
序列到同名文件（附加 .gff）。使用 'nolump' 选项将
为每个 genbank 记录创建一个单独的文件。使用 'split' 选项将创建
为每个 genbank 记录单独的 GFF 和 Fasta 文件。

笔记
'分裂' 和 '无块' 生产许多档

如果输入文件包含许多 GenBank 记录（例如，染色体
用于构建鼠标基因组的文件），如果
'split' 或 'nolump' 选项被选中。如果您的文件列表大于 6000，请使用
bp_bulk_load_gff.pl 或 bp_fast_load_gff.pl 中的 --long_list 选项用于加载 gff 和/
或 fasta 文件。

设计的以RefSeq

此脚本专为 RefSeq 基因组序列条目而设计。它可能适用于第三方
注释，但这尚未经过测试。但见下文，Uniprot/Swissprot 有效，EMBL
如果您不介意某些基因模型不平坦错误 (dgg)，则可能还有 EMBL/Ensembl。

玻璃钢基因型号

唐吉尔伯特（Don Gilbert）根据需要制作适合加载到 GMOD Chado 的 GFF3
数据库。我认为大多数更改都适合一般用途。一个主要的chado-
具体的添加是
--[no]cds2protein 标志

我最喜欢的 GFF 是默认将上述设置为 ON（使用 --nocds2prot 禁用）对于
一般使用它可能应该关闭，启用 --cds2prot。

这将使用替代但有用的 Gene 模型编写 GFF，而不是共识模型
对于 GFF3

[基因> mRNA>（外显子，CDS，UTR）]

这个替代是

基因 > mRNA > 多肽 > 外显子

意味着具有 dna 碱基的唯一特征是外显子。其他人只指定位置
基因组上的范围。外显子当然是 mRNA 和蛋白质/肽的产物。

蛋白质/多肽特征是一个重要的特征，具有所有的注释
GenBank CDS 特征、蛋白质 ID、翻译、GO 术语、其他蛋白质的 Dbxref。

UTR、内含子、CDS-外显子都是从内部/外部的主要外显子碱基推断出来的
适当的更高的特征范围。其他特殊基因模型特征保持不变。

包括一些其他的改进和错误修正，次要但有用

* IO 管道现在可以工作：
卷曲 ftp://ncbigenome/... | bp_genbank2gff3 --in 标准输入 --out 标准输出 | gff2chado ...

* GenBank 主要记录字段被添加到源特征，例如生物体、日期、
并且使用 sourcetype，通常是基因组的染色体。

* ncRNA 的基因模型处理，添加了假基因。

* GFF 标头更清晰，信息更丰富。
--GFF_VERSION 标志允许选择 v2 以及默认的 v3

* GFF ##FASTA 包含得到改进，并且
CDS 翻译序列被移动到 FASTA 记录。

* FT -> GFF 属性映射得到改进。

* --SeqIO 输入格式的格式选择（GenBank 默认）。
Uniprot/Swissprot 和 EMBL 工作并产生有用的 GFF。

* SeqFeature::Tools::TypeMapper 有一些 FT -> SOFA 添加
和更灵活的使用。

ALL

是这些增加 想要的？
* 按分类单元过滤输入记录（例如，只保留有机体=xxx 或分类单元级别 = classYYY
*处理Entrezgene，其他非序列SeqIO结构（真的应该改变
那些生成一致注释标签的解析器）。

相关 错误修正/测试
这些来自 Bioperl 邮件的项目已经过测试（样本数据产生错误），并发现
更正：

来自：艾德格林eva.mpg.de>
主题：关于新人类 RefSeq 的 genbank2gff3.pl
日期：2006-03-13 21:22:26 GMT
-- 未指明的错误（示例数据现在有效）。

来自：埃里克·贾斯特Northwestern.edu>
主题：genbank2gff3.pl
日期：2007-01-26 17:08:49 GMT
-- 修复了 genbank2gff3 中用于多记录处理的错误

此错误针对难以处理的 /trans_splice 基因，以及 unflattner/genbank2
不

来自：乍得·马萨拉dieselwurks.com>
主题：genbank2gff3.PLS 和 unflatenner - 顺序不一致？
日期：2005-07-15 19:51:48 GMT

使用 onworks.net 服务在线使用 bp_genbank2gff3p