bp_genbank2gff3p - Онлайн в облаке

Запустите bp_genbank2gff3p в провайдере бесплатного хостинга OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

Это команда bp_genbank2gff3p, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

Запускаем в Ubuntu Запускаем в Fedora Запустить в Windows Sim Запускаем в MACOS Sim

ПРОГРАММА:

ИМЯ

bp_genbank2gff3.pl - Genbank-> gbrowse-friendly GFF3

СИНТАКСИС

bp_genbank2gff3.pl [параметры] имена файлов

# обрабатываем каталог, содержащий плоские файлы GenBank
perl bp_genbank2gff3.pl --dir путь_к_файлам --zip

# обрабатываем отдельный файл, игнорируем явные экзоны и интроны
perl bp_genbank2gff3.pl --filter экзон --filter интрон file.gbk.gz

# обрабатываем список файлов
perl bp_genbank2gff3.pl * gbk.gz

# обрабатывать данные из URL с помощью модели Chado GFF (-noCDS) и передавать их в загрузчик базы данных
виться ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata

Опции:
--noinfer -r не выводить субфункции экзона / мРНК
--conf -i путь к файлу конфигурации курирования, который содержит пользовательские настройки
для записей Genbank (должен быть в формате YAML)
(если --manual передано без --ini, пользователю будет предложено
создайте файл, если сохранен какой-либо ручной ввод)
--sofile -l путь к файлу so.obo, который будет использоваться для сопоставления типов объектов
(--sofile live загрузит последнюю онлайн-версию)
--manual -m при попытке угадать правильный член SO, если больше, чем
один вариант соответствует основному тегу, конвертер будет
дождитесь ввода пользователя, чтобы выбрать правильный
(работает только с --sofile)
--dir -d путь к списку плоских файлов генбанка
--outdir -o расположение для записи файлов GFF (может быть 'stdout' или '-' для канала)
--zip -z сжимать выходные файлы GFF3 с помощью gzip
--summary -s распечатать сводку функций в каждом контиге
--filter -x тип (ы) возможностей genbank игнорировать
--split -y разделить вывод для разделения файлов GFF и fasta для
каждая запись генбанка
--nolump -n отдельный файл для каждой ссылочной последовательности
(по умолчанию все записи объединяются в одну
выходной файл для каждого входного файла)
--ethresh -e порог ошибки для unflattener
установите это значение (> 2), чтобы игнорировать все ошибки unflattener
- [no] CDS -c Сохранять CDS-экзоны или преобразовывать в альтернативный ген-РНК-белок-экзон
модель. --CDS по умолчанию. Используйте --CDS, чтобы сохранить модель гена GFF по умолчанию,
используйте --noCDS для преобразования в grpe.
--format -f Формат ввода (типы SeqIO): GenBank, Swiss или Uniprot, работа с EMBL
(GenBank по умолчанию)
--GFF_VERSION 3 по умолчанию, 2 и 2.5 и другие версии Bio :: Tools :: GFF доступны
--quiet не говорите о том, что обрабатывается
--typesource Тип последовательности SO для источника (например, хромосома; область; контиг)
--help -h отобразить это сообщение

ОПИСАНИЕ

Этот скрипт использует Bio :: SeqFeature :: Tools :: Unflattener и Bio :: Tools :: GFF для преобразования
Плоские файлы GenBank в GFF3 с иерархиями включения генов, отображенными для оптимального отображения в
гпросмотреть.

Предполагается, что входные файлы представляют собой сжатые gzip-файлы GenBank для контигов refseq. Файлы
может содержать несколько записей GenBank. Либо отдельный файл, либо весь каталог могут быть
обработанный. По умолчанию последовательность ДНК встроена в GFF, но ее можно сохранить в
отдельный файл fasta с параметром --split (-y).

Если входной файл содержит несколько записей, по умолчанию сбрасываются все GFF и
последовательность в файл с тем же именем (с добавлением .gff). Использование опции 'nolump' приведет к
создать отдельный файл для каждой записи генбанка. Использование опции «разделить» создаст
отдельные файлы GFF и Fasta для каждой записи генбанка.

Заметки
'расколоть' и 'nolump' производит многих файлов

В случаях, когда входные файлы содержат много записей GenBank (например, хромосома
файлы для сборки генома мыши), будет создано очень большое количество выходных файлов, если
выбраны варианты «разделить» или «без куска». Если у вас есть списки файлов> 6000, используйте
параметр --long_list в bp_bulk_load_gff.pl или bp_fast_load_gff.pl для загрузки gff и /
или файлы fasta.

Разработано для RefSeq

Этот скрипт разработан для записей геномной последовательности RefSeq. Это может работать для третьей стороны
аннотации, но это не было проверено. Но см. Ниже, Uniprot / Swissprot работает, EMBL
и, возможно, EMBL / Ensembl, если вы не возражаете против некоторых ошибок несглаживания генной модели (dgg).

GRPE Ген Модель

Дон Гилберт работал над этим, чтобы создать GFF3, пригодный для загрузки в GMOD Чадо.
базы данных. Я считаю, что большинство изменений подходят для общего использования. Один главный чадо-
конкретным дополнением является
- [no] флаг cds2protein

Мой любимый GFF - установить по умолчанию вышеупомянутое значение ON (отключить с помощью --nocds2prot).
при обычном использовании он, вероятно, должен быть ВЫКЛЮЧЕН, включен с помощью --cds2prot.

Это записывает GFF с альтернативной, но полезной моделью гена вместо модели консенсуса.
для GFF3

[ген> мРНК> (экзон, CDS, UTR)]

Эта альтернатива

ген> мРНК> полипептид> экзон

означает, что единственной особенностью оснований ДНК является экзон. Остальные указывают только местоположение
колеблется в геноме. Exon, конечно же, является потомком мРНК и белка / пептида.

Характеристика белка / полипептида является важной, поскольку в ней есть все аннотации
Функция CDS GenBank, идентификатор белка, перевод, термины GO, Dbxrefs для других белков.

UTR, интроны, CDS-экзоны - все выводится из оснований первичных экзонов внутри / снаружи
соответствующие более высокие диапазоны функций. Остальные особенности генной модели остаются прежними.

Включено несколько других улучшений и исправлений, незначительных, но полезных.

* Каналы ввода-вывода теперь работают:
виться ftp: // ncbigenomes /... | bp_genbank2gff3 --in stdin --out stdout | гфф2чадо...

* Основные поля записи GenBank добавляются к исходной функции, например, организм, дата,
и используется исходный тип, обычно хромосома для геномов.

* Добавлена обработка модели генов для нкРНК, псевдогены.

* Заголовок GFF чище, информативнее.
Флаг --GFF_VERSION позволяет выбрать v2, а также v3 по умолчанию

* GFF ## FASTA улучшено включение, и
Последовательность трансляции CDS перемещена в записи FASTA.

* FT -> Сопоставление атрибутов GFF улучшено.

* - выбор формата входных форматов SeqIO (по умолчанию GenBank).
Uniprot / Swissprot и EMBL работают и создают полезные GFF.

* SeqFeature :: Tools :: TypeMapper имеет несколько дополнений FT -> SOFA
и более гибкое использование.

TODO

Находятся эти дополнениями желанный?
* фильтровать входные записи по таксону (например, сохранять только организм = xxx или уровень таксона = classYYY
* обрабатывать Entrezgene, другие непоследовательные структуры SeqIO (действительно следует изменить
эти парсеры для создания согласованных тегов аннотации).

Похожие страницы: исправления / тесты
Эти элементы из почты Bioperl были протестированы (образцы ошибок генерирования данных) и обнаружены
исправлено:

От: Эд Грин eva.mpg.de>
Тема: genbank2gff3.pl на новом человеческом RefSeq
Дата: 2006 марта 03 г., 13:21:22 по Гринвичу
- неуказанные ошибки (примерные данные сейчас работают).

От: Эрик Джаст northwestern.edu>
Тема: genbank2gff3.pl
Дата: 2007 марта 01 г., 26:17:08 по Гринвичу
- исправлена ошибка в genbank2gff3 для обработки нескольких записей

Это ошибка для гена / trans_splice, с которым трудно справиться, и unflattner / genbank2.
не

Откуда: Чад Матсалла dieselwurks.com>
Тема: genbank2gff3.PLS и unflatenner - Несогласованный порядок?
Дата: 2005 марта 07 г., 15:19:51 по Гринвичу

Используйте bp_genbank2gff3p онлайн с помощью сервисов onworks.net