Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen bp_genbank2gff3p komutudur.
Program:
ADI
bp_genbank2gff3.pl -- Genbank->gtarama dostu GFF3
SİNOPSİS
bp_genbank2gff3.pl [seçenekler] dosya adları
# GenBank düz dosyalarını içeren bir dizini işle
perl bp_genbank2gff3.pl --dir_dosyaların yolu --zip
# tek bir dosyayı işleyin, açık eksonları ve intronları yok sayın
perl bp_genbank2gff3.pl --filtre ekson --filtre intron dosyası.gbk.gz
# bir dosya listesini işle
perl bp_genbank2gff3.pl *gbk.gz
# Chado GFF modeliyle (-noCDS) URL'den veri işleme ve veri tabanı yükleyiciye yönlendirme
kıvırmak ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata
Seçenekler:
--noinfer -r ekson/mRNA alt özelliklerini çıkarmaz
--conf -i kullanıcı tercihlerini içeren küratörlük yapılandırma dosyasının yolu
Genbank girişleri için (YAML formatında olmalıdır)
( --manual --ini olmadan geçirilirse, kullanıcıdan
herhangi bir manuel giriş kaydedilmişse dosyayı oluşturun)
--sofile -l özellik türü eşlemesi için kullanılacak so.obo dosyasının yolu
(--sofile live en son çevrimiçi revizyonu indirecektir)
--manual -m uygun SO terimini tahmin etmeye çalışırken, eğer birden fazlaysa
bir seçenek birincil etiketle eşleşir, dönüştürücü
Kullanıcı girişinin doğru olanı seçmesini bekleyin
(yalnızca --sofile ile çalışır)
--dir -d genbank düz dosyaları listesinin yolu
--outdir -o GFF dosyalarının yazılacağı konum (boru için 'stdout' veya '-' olabilir)
--zip -z GFF3 çıktı dosyalarını gzip ile sıkıştırır
--summary -s her contig'deki özelliklerin bir özetini yazdırır
--filter -x genbank özellik türleri yoksayılacak
--split -y çıktıyı GFF ve fasta dosyalarını ayırmak için böler
her bir gen bankası kaydı
--nolump -n her referans dizisi için ayrı dosya
(varsayılan, tüm kayıtları tek bir dosyada toplamaktır.
her girdi dosyası için çıktı dosyası)
--ethresh -e düzleştirici için hata eşiği
tüm düzleştirici hatalarını yoksaymak için bunu yüksek (>2) ayarlayın
--[no]CDS -c CDS-eksonlarını koruyun veya alternatif gen-RNA-protein-eksonuna dönüştürün
modeli. --CDS varsayılandır. Varsayılan GFF gen modelini korumak için --CDS kullanın,
grpe'ye dönüştürmek için --noCDS kullanın.
--format -f Giriş formatı (SeqIO türleri): GenBank, Swiss veya Uniprot, EMBL çalışması
(GenBank varsayılandır)
--GFF_VERSION 3 varsayılan, 2 ve 2.5 ve diğer Bio::Tools::GFF sürümleri mevcut
--quiet işlenmekte olan hakkında konuşma
--typesource SO dizi tipi kaynak için (örn. kromozom; bölge; contig)
--help -h bu mesajı göster
TANIM
Bu komut dosyası, dönüştürmek için Bio::SeqFeature::Tools::Unflattener ve Bio::Tools::GFF kullanır
GenBank düz dosyaları, en uygun görüntüleme için eşlenen gen tutma hiyerarşileri ile GFF3'e
gtara.
Giriş dosyalarının refseq contig için gzip'lenmiş GenBank düz dosyaları olduğu varsayılır. Dosyalar
birden fazla GenBank kaydı içerebilir. Tek bir dosya veya tüm bir dizin olabilir
işlenmiş. Varsayılan olarak, DNA dizisi GFF'ye gömülüdür ancak GFF'ye kaydedilebilir.
--split(-y) seçeneği ile fasta dosyasını ayırın.
Bir girdi dosyası birden fazla kayıt içeriyorsa, varsayılan davranış, tüm GFF'leri boşaltmak ve
aynı ada sahip bir dosyaya (.gff eklenmiş olarak) sıralayın. 'nolump' seçeneğini kullanmak
her bir gen bankası kaydı için ayrı bir dosya oluşturun. 'Böl' seçeneğini kullanmak,
her bir gen bankası kaydı için ayrı GFF ve Fasta dosyaları.
notlar
'bölmek' ve 'nolump' üretmek çok Dosyaları
Girdi dosyalarının birçok GenBank kaydı içerdiği durumlarda (örneğin, kromozom
fare genomu oluşturma için dosyalar), eğer çok fazla sayıda çıktı dosyası üretilecektir:
'split' veya 'nolump' seçenekleri seçilir. > 6000 dosya listeniz varsa,
gff'yi yüklemek için bp_bulk_load_gff.pl veya bp_fast_load_gff.pl içindeki --long_list seçeneği ve/
veya fasta dosyaları.
tasarlanmış için RefSeq
Bu komut dosyası, RefSeq genomik dizi girişleri için tasarlanmıştır. Üçüncü şahıslar için çalışabilir
ek açıklamalar ancak bu test edilmedi. Ancak aşağıya bakın, Uniprot/Swissprot çalışır, EMBL
ve bazı gen modeli düzleştirici hatalarına aldırmazsanız (dgg) muhtemelen EMBL/Ensembl.
GRPE Gen Model
Don Gilbert, GMOD Chado'ya yüklemeye uygun GFF3 üretme ihtiyaçlarıyla bunun üzerinde çalıştı.
veritabanları. Genel kullanım için uygun olduğuna inandığım değişikliklerin çoğu. Bir ana chado-
özel ekleme şudur
--[no]cds2protein işareti
En sevdiğim GFF, yukarıdakileri varsayılan olarak AÇIK olarak ayarlamaktır (--nocds2prot ile devre dışı bırakın)
genel kullanım muhtemelen KAPALI olmalı, --cds2prot ile etkinleştirilmelidir.
Bu, GFF'yi fikir birliği modeli yerine alternatif, ancak kullanışlı bir Gene modeliyle yazar.
GFF3 için
[ gen > mRNA> (ekson,CDS,UTR) ]
Bu alternatif
gen > mRNA > polipeptit > ekson
dna bazları olan tek özelliğin ekson olduğu anlamına gelir. Diğerleri sadece konumu belirtir
bir genom üzerinde uzanır. Ekson elbette mRNA ve protein/peptidin bir çocuğudur.
Protein/polipeptit özelliği, tüm açıklamaları içeren önemli bir özelliktir.
GenBank CDS özelliği, protein kimliği, çeviri, GO terimleri, diğer proteinlere Dbxrefs.
UTR'ler, intronlar, CDS-eksonlarının tümü, iç/dış birincil ekson bazlarından çıkarılır.
uygun daha yüksek özellik aralıkları. Diğer özel gen modeli özellikleri aynı kalır.
Küçük ama kullanışlı birkaç başka iyileştirme ve hata düzeltmesi dahil edilmiştir
* IO boruları artık çalışıyor:
kıvırmak ftp://ncbigenomlar/... | bp_genbank2gff3 --in stdin --out stdout | gff2chado...
* GenBank ana kayıt alanları kaynak özelliğine eklendi, örn. organizma, tarih,
ve genellikle genomlar için kromozom olan kaynak tipi kullanılır.
* ncRNA için Gen Modeli işleme, psödogenler eklendi.
* GFF başlığı daha temiz, daha bilgilendirici.
--GFF_VERSION bayrağı, varsayılan v2'ün yanı sıra v3 seçimine izin verir
* GFF ##FASTA dahil etme geliştirildi ve
CDS çeviri dizisi FASTA kayıtlarına taşınır.
* FT -> GFF öznitelik eşlemesi geliştirildi.
* --SeqIO giriş biçimlerinin format seçimi (GenBank varsayılanı).
Uniprot/Swissprot ve EMBL çalışır ve faydalı GFF üretir.
* SeqFeature::Tools::TypeMapper'da birkaç FT -> SOFA eklemesi var
ve daha esnek kullanım.
YAPILACAKLAR
Mı bunlar ilave İstenen?
* giriş kayıtlarını taksona göre filtreleyin (örn. sadece organizmayı koru=xxx veya takson seviyesi = classYYY
* Entrezgene, sıra dışı diğer SeqIO yapılarını ele alın (gerçekten değişmeli
Bu ayrıştırıcıların tutarlı açıklama etiketleri üretmesi).
İlgili bağlantılar hata düzeltmeleri/testler
Bioperl postasındaki bu öğeler test edildi (örnek veri üreten hatalar) ve bulundu
düzeltildi:
Gönderen: Ed Green eva.mpg.de>
Konu: yeni insan RefSeq üzerinde genbank2gff3.pl
Tarih: 2006-03-13 21:22:26 GMT
-- belirtilmemiş hatalar (örnek veriler şimdi çalışıyor).
Gönderen: Eric Just kuzeybatı.edu>
Konu: genbank2gff3.pl
Tarih: 2007-01-26 17:08:49 GMT
-- çoklu kayıt işleme için genbank2gff3'te hata düzeltildi
Bu hata, işlenmesi zor bir /trans_splice geni ve unflattner/genbank2 içindir.
etmez
Gönderen: Çad Matsalla dizelwurks.com>
Konu: genbank2gff3.PLS ve düzleştirici - Tutarsız sıralama?
Tarih: 2005-07-15 19:51:48 GMT
onworks.net hizmetlerini kullanarak bp_genbank2gff3p'yi çevrimiçi kullanın