Это команда bp_genbank2gff3p, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
bp_genbank2gff3.pl - Genbank-> gbrowse-friendly GFF3
СИНТАКСИС
bp_genbank2gff3.pl [параметры] имена файлов
# обрабатываем каталог, содержащий плоские файлы GenBank
perl bp_genbank2gff3.pl --dir путь_к_файлам --zip
# обрабатываем отдельный файл, игнорируем явные экзоны и интроны
perl bp_genbank2gff3.pl --filter экзон --filter интрон file.gbk.gz
# обрабатываем список файлов
perl bp_genbank2gff3.pl * gbk.gz
# обрабатывать данные из URL с помощью модели Chado GFF (-noCDS) и передавать их в загрузчик базы данных
виться ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata
Опции:
--noinfer -r не выводить субфункции экзона / мРНК
--conf -i путь к файлу конфигурации курирования, который содержит пользовательские настройки
для записей Genbank (должен быть в формате YAML)
(если --manual передано без --ini, пользователю будет предложено
создайте файл, если сохранен какой-либо ручной ввод)
--sofile -l путь к файлу so.obo, который будет использоваться для сопоставления типов объектов
(--sofile live загрузит последнюю онлайн-версию)
--manual -m при попытке угадать правильный член SO, если больше, чем
один вариант соответствует основному тегу, конвертер будет
дождитесь ввода пользователя, чтобы выбрать правильный
(работает только с --sofile)
--dir -d путь к списку плоских файлов генбанка
--outdir -o расположение для записи файлов GFF (может быть 'stdout' или '-' для канала)
--zip -z сжимать выходные файлы GFF3 с помощью gzip
--summary -s распечатать сводку функций в каждом контиге
--filter -x тип (ы) возможностей genbank игнорировать
--split -y разделить вывод для разделения файлов GFF и fasta для
каждая запись генбанка
--nolump -n отдельный файл для каждой ссылочной последовательности
(по умолчанию все записи объединяются в одну
выходной файл для каждого входного файла)
--ethresh -e порог ошибки для unflattener
установите это значение (> 2), чтобы игнорировать все ошибки unflattener
- [no] CDS -c Сохранять CDS-экзоны или преобразовывать в альтернативный ген-РНК-белок-экзон
модель. --CDS по умолчанию. Используйте --CDS, чтобы сохранить модель гена GFF по умолчанию,
используйте --noCDS для преобразования в grpe.
--format -f Формат ввода (типы SeqIO): GenBank, Swiss или Uniprot, работа с EMBL
(GenBank по умолчанию)
--GFF_VERSION 3 по умолчанию, 2 и 2.5 и другие версии Bio :: Tools :: GFF доступны
--quiet не говорите о том, что обрабатывается
--typesource Тип последовательности SO для источника (например, хромосома; область; контиг)
--help -h отобразить это сообщение
ОПИСАНИЕ
Этот скрипт использует Bio :: SeqFeature :: Tools :: Unflattener и Bio :: Tools :: GFF для преобразования
Плоские файлы GenBank в GFF3 с иерархиями включения генов, отображенными для оптимального отображения в
гпросмотреть.
Предполагается, что входные файлы представляют собой сжатые gzip-файлы GenBank для контигов refseq. Файлы
может содержать несколько записей GenBank. Либо отдельный файл, либо весь каталог могут быть
обработанный. По умолчанию последовательность ДНК встроена в GFF, но ее можно сохранить в
отдельный файл fasta с параметром --split (-y).
Если входной файл содержит несколько записей, по умолчанию сбрасываются все GFF и
последовательность в файл с тем же именем (с добавлением .gff). Использование опции 'nolump' приведет к
создать отдельный файл для каждой записи генбанка. Использование опции «разделить» создаст
отдельные файлы GFF и Fasta для каждой записи генбанка.
Заметки
'расколоть' и 'nolump' производит многих файлов
В случаях, когда входные файлы содержат много записей GenBank (например, хромосома
файлы для сборки генома мыши), будет создано очень большое количество выходных файлов, если
выбраны варианты «разделить» или «без куска». Если у вас есть списки файлов> 6000, используйте
параметр --long_list в bp_bulk_load_gff.pl или bp_fast_load_gff.pl для загрузки gff и /
или файлы fasta.
Разработано для RefSeq
Этот скрипт разработан для записей геномной последовательности RefSeq. Это может работать для третьей стороны
аннотации, но это не было проверено. Но см. Ниже, Uniprot / Swissprot работает, EMBL
и, возможно, EMBL / Ensembl, если вы не возражаете против некоторых ошибок несглаживания генной модели (dgg).
GRPE Ген Модель
Дон Гилберт работал над этим, чтобы создать GFF3, пригодный для загрузки в GMOD Чадо.
базы данных. Я считаю, что большинство изменений подходят для общего использования. Один главный чадо-
конкретным дополнением является
- [no] флаг cds2protein
Мой любимый GFF - установить по умолчанию вышеупомянутое значение ON (отключить с помощью --nocds2prot).
при обычном использовании он, вероятно, должен быть ВЫКЛЮЧЕН, включен с помощью --cds2prot.
Это записывает GFF с альтернативной, но полезной моделью гена вместо модели консенсуса.
для GFF3
[ген> мРНК> (экзон, CDS, UTR)]
Эта альтернатива
ген> мРНК> полипептид> экзон
означает, что единственной особенностью оснований ДНК является экзон. Остальные указывают только местоположение
колеблется в геноме. Exon, конечно же, является потомком мРНК и белка / пептида.
Характеристика белка / полипептида является важной, поскольку в ней есть все аннотации
Функция CDS GenBank, идентификатор белка, перевод, термины GO, Dbxrefs для других белков.
UTR, интроны, CDS-экзоны - все выводится из оснований первичных экзонов внутри / снаружи
соответствующие более высокие диапазоны функций. Остальные особенности генной модели остаются прежними.
Включено несколько других улучшений и исправлений, незначительных, но полезных.
* Каналы ввода-вывода теперь работают:
виться ftp: // ncbigenomes /... | bp_genbank2gff3 --in stdin --out stdout | гфф2чадо...
* Основные поля записи GenBank добавляются к исходной функции, например, организм, дата,
и используется исходный тип, обычно хромосома для геномов.
* Добавлена обработка модели генов для нкРНК, псевдогены.
* Заголовок GFF чище, информативнее.
Флаг --GFF_VERSION позволяет выбрать v2, а также v3 по умолчанию
* GFF ## FASTA улучшено включение, и
Последовательность трансляции CDS перемещена в записи FASTA.
* FT -> Сопоставление атрибутов GFF улучшено.
* - выбор формата входных форматов SeqIO (по умолчанию GenBank).
Uniprot / Swissprot и EMBL работают и создают полезные GFF.
* SeqFeature :: Tools :: TypeMapper имеет несколько дополнений FT -> SOFA
и более гибкое использование.
TODO
Находятся эти дополнениями желанный?
* фильтровать входные записи по таксону (например, сохранять только организм = xxx или уровень таксона = classYYY
* обрабатывать Entrezgene, другие непоследовательные структуры SeqIO (действительно следует изменить
эти парсеры для создания согласованных тегов аннотации).
Похожие страницы: исправления / тесты
Эти элементы из почты Bioperl были протестированы (образцы ошибок генерирования данных) и обнаружены
исправлено:
От: Эд Грин eva.mpg.de>
Тема: genbank2gff3.pl на новом человеческом RefSeq
Дата: 2006 марта 03 г., 13:21:22 по Гринвичу
- неуказанные ошибки (примерные данные сейчас работают).
От: Эрик Джаст northwestern.edu>
Тема: genbank2gff3.pl
Дата: 2007 марта 01 г., 26:17:08 по Гринвичу
- исправлена ошибка в genbank2gff3 для обработки нескольких записей
Это ошибка для гена / trans_splice, с которым трудно справиться, и unflattner / genbank2.
не
Откуда: Чад Матсалла dieselwurks.com>
Тема: genbank2gff3.PLS и unflatenner - Несогласованный порядок?
Дата: 2005 марта 07 г., 15:19:51 по Гринвичу
Используйте bp_genbank2gff3p онлайн с помощью сервисов onworks.net