英语法语西班牙文

OnWorks 网站图标

bp_genbank2gff3p - 云端在线

在 OnWorks 免费托管服务提供商中通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器运行 bp_genbank2gff3p

这是命令 bp_genbank2gff3p 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3

概要


bp_genbank2gff3.pl [选项] 文件名

# 处理一个包含 GenBank 平面文件的目录
perl bp_genbank2gff3.pl --dir 文件路径 --zip

# 处理单个文件,忽略显式外显子和内含子
perl bp_genbank2gff3.pl --filter 外显子 --filter 内含子 file.gbk.gz

# 处理文件列表
perl bp_genbank2gff3.pl *gbk.gz

# 使用 Chado GFF 模型 (-noCDS) 处理来自 URL 的数据,并通过管道传输到数据库加载器
卷曲 ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata

选项:
--noinfer -r 不推断外显子/mRNA 子特征
--conf -i 包含用户首选项的管理配置文件的路径
用于 Genbank 条目(必须是 YAML 格式)
(如果 --manual 在没有 --ini 的情况下传递,用户将被提示
如果保存了任何手动输入,则创建文件)
--sofile -l 用于要素类型映射的 so.obo 文件的路径
(--sofile live 会下载最新的在线修订版)
--manual -m 尝试猜测正确的 SO 术语时,如果超过
一个选项与主要标签匹配,转换器将
等待用户输入选择正确的
(仅适用于 --sofile)
--dir -d genbank 平面文件列表的路径
--outdir -o 写入 GFF 文件的位置(对于管道可以是“stdout”或“-”)
--zip -z 使用 gzip 压缩 GFF3 输出文件
--summary -s 打印每个 contig 中特征的摘要
--filter -x 要忽略的 genbank 特征类型
--split -y 拆分输出以分离 GFF 和 fasta 文件
每个基因库记录
--nolump -n 每个参考序列的单独文件
(默认是将所有记录合并为一个
每个输入文件的输出文件)
--ethresh -e unflattener 的错误阈值
将此设置为高 (>2) 以忽略所有 unflattener 错误
--[no]CDS -c 保留CDS-外显子,或转换为替代基因-RNA-蛋白质-外显子
模型。 --CDS 是默认值。 使用 --CDS 保持默认的 GFF 基因模型,
使用 --noCDS 转换为 grpe。
--format -f 输入格式(SeqIO 类型):GenBank、Swiss 或 Uniprot、EMBL 工作
(默认为 GenBank)
--GFF_VERSION 3 是默认的,2 和 2.5 以及其他 Bio::Tools::GFF 版本可用
--quiet 不要谈论正在处理的内容
--typesource SO 源序列类型(例如染色体;区域;重叠群)
--help -h 显示此消息

商品描述


这个脚本使用 Bio::SeqFeature::Tools::Unflattener 和 Bio::Tools::GFF 来转换
GenBank 平面文件到 GFF3,并映射了基因包含层次结构以实现最佳显示
浏览。

假设输入文件是 refseq contigs 的 gzip 压缩 GenBank 平面文件。 文件
可能包含多个 GenBank 记录。 可以是单个文件或整个目录
处理。 默认情况下,DNA 序列嵌入在 GFF 中,但它可以保存到
使用 --split(-y) 选项分离 fasta 文件。

如果输入文件包含多条记录,默认行为是转储所有 GFF 和
序列到同名文件(附加 .gff)。 使用 'nolump' 选项将
为每个 genbank 记录创建一个单独的文件。 使用 'split' 选项将创建
为每个 genbank 记录单独的 GFF 和 Fasta 文件。

笔记
'分裂' '无块' 生产 许多

如果输入文件包含许多 GenBank 记录(例如,染色体
用于构建鼠标基因组的文件),如果
'split' 或 'nolump' 选项被选中。 如果您的文件列表大于 6000,请使用
bp_bulk_load_gff.pl 或 bp_fast_load_gff.pl 中的 --long_list 选项用于加载 gff 和/
或 fasta 文件。

设计的 以RefSeq

此脚本专为 RefSeq 基因组序列条目而设计。 它可能适用于第三方
注释,但这尚未经过测试。 但见下文,Uniprot/Swissprot 有效,EMBL
如果您不介意某些基因模型不平坦错误 (dgg),则可能还有 EMBL/Ensembl。

玻璃钢 基因 型号

唐吉尔伯特(Don Gilbert)根据需要制作适合加载到 GMOD Chado 的 GFF3
数据库。 我认为大多数更改都适合一般用途。 一个主要的chado-
具体的添加是
--[no]cds2protein 标志

我最喜欢的 GFF 是默认将上述设置为 ON(使用 --nocds2prot 禁用)对于
一般使用它可能应该关闭,启用 --cds2prot。

这将使用替代但有用的 Gene 模型编写 GFF,而不是共识模型
对于 GFF3

[基因> mRNA>(外显子,CDS,UTR)]

这个替代是

基因 > mRNA > 多肽 > 外显子

意味着具有 dna 碱基的唯一特征是外显子。 其他人只指定位置
基因组上的范围。 外显子当然是 mRNA 和蛋白质/肽的产物。

蛋白质/多肽特征是一个重要的特征,具有所有的注释
GenBank CDS 特征、蛋白质 ID、翻译、GO 术语、其他蛋白质的 Dbxref。

UTR、内含子、CDS-外显子都是从内部/外部的主要外显子碱基推断出来的
适当的更高的特征范围。 其他特殊基因模型特征保持不变。

包括一些其他的改进和错误修正,次要但有用

* IO 管道现在可以工作:
卷曲 ftp://ncbigenome/... | bp_genbank2gff3 --in 标准输入 --out 标准输出 | gff2chado ...

* GenBank 主要记录字段被添加到源特征,例如生物体、日期、
并且使用 sourcetype,通常是基因组的染色体。

* ncRNA 的基因模型处理,添加了假基因。

* GFF 标头更清晰,信息更丰富。
--GFF_VERSION 标志允许选择 v2 以及默认的 v3

* GFF ##FASTA 包含得到改进,并且
CDS 翻译序列被移动到 FASTA 记录。

* FT -> GFF 属性映射得到改进。

* --SeqIO 输入格式的格式选择(GenBank 默认)。
Uniprot/Swissprot 和 EMBL 工作并产生有用的 GFF。

* SeqFeature::Tools::TypeMapper 有一些 FT -> SOFA 添加
和更灵活的使用。

ALL


这些 增加 想要的?
* 按分类单元过滤输入记录(例如,只保留有机体=xxx 或分类单元级别 = classYYY
*处理Entrezgene,其他非序列SeqIO结构(真的应该改变
那些生成一致注释标签的解析器)。

相关 错误修正/测试
这些来自 Bioperl 邮件的项目已经过测试(样本数据产生错误),并发现
更正:

来自:艾德格林eva.mpg.de>
主题:关于新人类 RefSeq 的 genbank2gff3.pl
日期:2006-03-13 21:22:26 GMT
-- 未指明的错误(示例数据现在有效)。

来自:埃里克·贾斯特Northwestern.edu>
主题:genbank2gff3.pl
日期:2007-01-26 17:08:49 GMT
-- 修复了 genbank2gff3 中用于多记录处理的错误

此错误针对难以处理的 /trans_splice 基因,以及 unflattner/genbank2


来自:乍得·马萨拉dieselwurks.com>
主题:genbank2gff3.PLS 和 unflatenner - 顺序不一致?
日期:2005-07-15 19:51:48 GMT

使用 onworks.net 服务在线使用 bp_genbank2gff3p


免费服务器和工作站

下载 Windows 和 Linux 应用程序

  • 1
    AstrOrz播放器
    AstrOrz播放器
    AstrOrz Player 是一款免费的媒体播放器
    软件,部分基于 WMP 和 VLC。 这
    播放器采用极简风格,带有
    十多个主题色,还可以
    B ...
    下载 AstrOrzPlayer
  • 2
    电影启动器
    电影启动器
    Kodi Movistar+ TV 是 XBMC/ 的 ADDON
    Kodi 许可分配器
    IPTV服务解码器
    Movistar Integrado en uno de los
    媒体中心马...
    下载 movistartv
  • 3
    代码::块
    代码::块
    Code::Blocks 是一个免费的、开源的、
    跨平台 C、C++ 和 Fortran IDE
    专为满足最苛刻的需求而打造
    它的用户。 它的设计非常
    扩展...
    下载代码::Blocks
  • 4
    之中
    之中
    中间或高级 Minecraft 界面
    和数据/结构跟踪是一种工具
    显示 Minecraft 的概览
    世界,而无需实际创造它。 它
    能够 ...
    下载烟雨
  • 5
    系统2
    系统2
    MSYS2 是一组工具和
    图书馆为您提供
    易于使用的建筑环境,
    安装和运行本机 Windows
    软件。 它连...
    下载 MSYS2
  • 6
    libjpeg-turbo
    libjpeg-turbo
    libjpeg-turbo 是一个 JPEG 图像编解码器
    使用 SIMD 指令(MMX、SSE2、
    NEON、AltiVec)加速基线
    JPEG 压缩和解压
    x86、x8...
    下载 libjpeg-turbo
  • 更多 ”

Linux 命令

Ad