bp_genbank2gff3p - Online en la nube

Ejecute bp_genbank2gff3p en el proveedor de alojamiento gratuito de OnWorks a través de Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando bp_genbank2gff3p que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

Ejecutar en Ubuntu Ejecutar en Fedora Ejecutar en Windows Sim Ejecutar en MACOS Sim

PROGRAMA:

NOMBRE

bp_genbank2gff3.pl - Genbank-> gbrowse-friendly GFF3

SINOPSIS

bp_genbank2gff3.pl [opciones] nombre (s) de archivo

# procesar un directorio que contenga archivos planos de GenBank
perl bp_genbank2gff3.pl --dir ruta_de_archivos --zip

# procesar un solo archivo, ignorar exones e intrones explícitos
perl bp_genbank2gff3.pl --filtro exón --filtro intrón archivo.gbk.gz

# procesar una lista de archivos
perl bp_genbank2gff3.pl * gbk.gz

# procesar datos desde la URL, con el modelo Chado GFF (-noCDS) y canalizar al cargador de la base de datos
rizo ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -en entrada estándar -salida salida estándar \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organismo de datos

Opciones:
--noinfer -r no infiere subfunciones de exón / ARNm
--conf -i ruta al archivo de configuración de conservación que contiene las preferencias del usuario
para entradas de Genbank (debe ser formato YAML)
(si se pasa --manual sin --ini, se le pedirá al usuario que
crear el archivo si se guarda alguna entrada manual)
--sofile -l ruta al archivo so.obo que se utilizará para el mapeo de tipos de características
(--sofile live descargará la última revisión en línea)
--manual -m al intentar adivinar el término SO adecuado, si hay más de
una opción coincide con la etiqueta principal, el convertidor
espere la entrada del usuario para elegir la correcta
(solo funciona con --sofile)
--dir -d ruta a una lista de archivos planos genbank
--outdir -o ubicación para escribir archivos GFF (puede ser 'stdout' o '-' para tubería)
--zip -z comprime archivos de salida GFF3 con gzip
--summary -s imprime un resumen de las características en cada contig
--filter -x tipo (s) de característica de genbank para ignorar
--split -y divide la salida para separar archivos GFF y fasta para
cada registro de genbank
--nolump -n archivo separado para cada secuencia de referencia
(el valor predeterminado es agrupar todos los registros en uno
archivo de salida para cada archivo de entrada)
--ethresh -e umbral de error para unflattener
establezca este valor alto (> 2) para ignorar todos los errores de no aplanar
- [no] CDS -c Conserva los exones de CDS o conviértelos en un gen-ARN-proteína-exón alternativo
modelo. --CDS es el predeterminado. Utilice --CDS para mantener el modelo genético GFF predeterminado,
use --noCDS para convertir a grpe.
--format -f Formato de entrada (tipos SeqIO): GenBank, Swiss o Uniprot, trabajo EMBL
(GenBank es predeterminado)
--GFF_VERSION 3 es el predeterminado, 2 y 2.5 y otras versiones de Bio :: Tools :: GFF disponibles
Tranquilo, no hables de lo que se está procesando.
- tipo de secuencia SO de fuente para la fuente (por ejemplo, cromosoma; región; contig)
--help -h muestra este mensaje

DESCRIPCIÓN

Este script usa Bio :: SeqFeature :: Tools :: Unflattener y Bio :: Tools :: GFF para convertir
Archivos planos GenBank a GFF3 con jerarquías de contención de genes mapeadas para una visualización óptima en
gbrowse

Se supone que los archivos de entrada son archivos planos GenBank con gzip para refseq contigs. Los archivos
puede contener varios registros de GenBank. Se puede utilizar un solo archivo o un directorio completo.
procesado. De forma predeterminada, la secuencia de ADN está incrustada en el GFF pero se puede guardar en
separe el archivo fasta con la opción --split (-y).

Si un archivo de entrada contiene varios registros, el comportamiento predeterminado es volcar todos los GFF y
secuencia a un archivo del mismo nombre (con .gff agregado). El uso de la opción 'nolump'
cree un archivo separado para cada registro de genbank. El uso de la opción 'dividir' creará
archivos GFF y Fasta separados para cada registro de genbank.

Notas
'separar' y 'nolump' producir muchos archivos

En los casos en que los archivos de entrada contienen muchos registros de GenBank (por ejemplo, el cromosoma
archivos para la compilación del genoma del ratón), se producirá una gran cantidad de archivos de salida si
se seleccionan las opciones 'split' o 'nolump'. Si tiene listas de archivos> 6000, utilice
la opción --long_list en bp_bulk_load_gff.pl o bp_fast_load_gff.pl para cargar el gff y /
o archivos fasta.

Diseñado for SecRef

Este script está diseñado para entradas de secuencias genómicas de RefSeq. Puede funcionar para terceros
anotaciones, pero esto no ha sido probado. Pero vea a continuación, Uniprot / Swissprot funciona, EMBL
y posiblemente EMBL / Ensembl si no le importan algunos errores de desincrustación del modelo genético (dgg).

GRPE Gene Modelo

Don Gilbert resolvió esto con la necesidad de producir GFF3 adecuado para cargar en GMOD Chado
bases de datos. Creo que la mayoría de los cambios son adecuados para uso general. Un chado principal
La adición específica es la
- [no] indicador cds2protein

Mi GFF favorito es configurar el anterior como ENCENDIDO de forma predeterminada (deshabilitar con --nocds2prot)
para uso general, probablemente debería estar APAGADO, habilitado con --cds2prot.

Esto escribe GFF con un modelo genético alternativo, pero útil, en lugar del modelo de consenso
para GFF3

[gen> ARNm> (exón, CDS, UTR)]

Esta alternativa es

gen> ARNm> polipéptido> exón

significa que la única característica con bases de adn es el exón. Los demás especifican solo la ubicación
rangos en un genoma. Exon, por supuesto, es un hijo de ARNm y proteína / péptido.

La característica de proteína / polipéptido es importante, ya que tiene todas las anotaciones del
Característica GenBank CDS, ID de proteína, traducción, términos GO, Dbxrefs a otras proteínas.

Las UTR, los intrones y los exones de CDS se infieren a partir de las bases de los exones primarios dentro / fuera
rangos de características superiores apropiados. Otras características especiales del modelo genético siguen siendo las mismas.

Se incluyen varias otras mejoras y correcciones de errores, menores pero útiles

* Las tuberías IO ahora funcionan:
rizo ftp: // ncbigenomes /... | bp_genbank2gff3 --en stdin --out stdout | gff2chado ...

* Los campos de registro principal de GenBank se agregan a la función de origen, por ejemplo, organismo, fecha,
y se usa el tipo de fuente, comúnmente cromosoma para genomas.

* Manejo de modelos de genes para ncRNA, se agregan pseudogenes.

* El encabezado GFF es más limpio, más informativo.
- El indicador GFF_VERSION permite elegir entre la versión 2 y la versión 3 predeterminada

* Se mejora la inclusión de GFF ## FASTA, y
La secuencia de traducción de CDS se traslada a los registros FASTA.

* FT -> Se mejora el mapeo de atributos GFF.

* - elección de formato de los formatos de entrada SeqIO (GenBank predeterminado).
Uniprot / Swissprot y EMBL funcionan y producen GFF útiles.

* SeqFeature :: Tools :: TypeMapper tiene algunas adiciones FT -> SOFA
y un uso más flexible.

TODO

¿Esta these Adiciones ¿deseado?
* filtrar los registros de entrada por taxón (por ejemplo, mantener solo el organismo = xxx o el nivel de taxa = classYYY
* manejar Entrezgene, otras estructuras SeqIO sin secuencia (realmente debería cambiar
esos analizadores para producir etiquetas de anotación consistentes).

Relacionado: correcciones de errores / pruebas
Estos elementos del correo de Bioperl se probaron (datos de muestra que generan errores) y se encontraron
corregido:

De: Ed Green eva.mpg.de>
Asunto: genbank2gff3.pl sobre la nueva RefSeq humana
Fecha: 2006-03-13 21:22:26 GMT
- errores no especificados (los datos de muestra funcionan ahora).

De: Eric Just northwestern.edu>
Asunto: genbank2gff3.pl
Fecha: 2007-01-26 17:08:49 GMT
- error corregido en genbank2gff3 para el manejo de múltiples registros

Este error es para un gen / trans_splice que es difícil de manejar y unflattner / genbank2
no se

De: Chad Matsalla dieselwurks.com>
Asunto: genbank2gff3.PLS y el unflatenner - ¿Orden inconsistente?
Fecha: 2005-07-15 19:51:48 GMT

Utilice bp_genbank2gff3p en línea utilizando los servicios de onworks.net