هذا هو الأمر bp_genbank2gff3p الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
bp_genbank2gff3.pl - Genbank-> gbrowse-friendly GFF3
موجز
bp_genbank2gff3.pl [خيارات] اسم (أسماء) الملف
# معالجة دليل يحتوي على ملفات مسطحة GenBank
بيرل bp_genbank2gff3.pl --dir path_to_files --zip
# معالجة ملف واحد ، وتجاهل exons و introns الصريحين
perl bp_genbank2gff3.pl --filter exon - تصفية intron file.gbk.gz
# معالجة قائمة الملفات
بيرل bp_genbank2gff3.pl * gbk.gz
# معالجة البيانات من URL ، باستخدام نموذج Chado GFF (-noCDS) ، والأنابيب إلى أداة تحميل قاعدة البيانات
حليقة ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS-in stdin-out stdout \
| بيرل gmod_bulk_load_gff3.pl -dbname mychado -كائن حي من البيانات
خيارات:
- noinfer -r لا تستنتج الميزات الفرعية exon / mRNA
--conf -i مسار لملف تكوين التنظيم الذي يحتوي على تفضيلات المستخدم
لإدخالات Genbank (يجب أن يكون بتنسيق YAML)
(إذا تم تمرير --manual بدون --ini ، فسيُطلب من المستخدم
إنشاء الملف إذا تم حفظ أي إدخال يدوي)
--sofile -l المسار إلى ملف so.obo لاستخدامه في تعيين نوع الميزة
(- سيتم تنزيل الملف الشخصي المباشر أحدث نسخة عبر الإنترنت)
- يدوي - م عند محاولة تخمين مصطلح SO المناسب ، إذا كان أكثر من
خيار واحد يطابق العلامة الأساسية ، سوف المحول
انتظر إدخال المستخدم لاختيار الإدخال الصحيح
(يعمل فقط مع --الملف الشخصي)
--dir -d path إلى قائمة ملفات genbank المسطحة
- موقع خارجي -o لكتابة ملفات GFF (يمكن أن يكون "stdout" أو "-" للأنابيب)
--zip -z ضغط ملفات الإخراج GFF3 باستخدام gzip
--summary - طباعة ملخص الميزات في كل كونتيج
- تصفية -x نوع (أنواع) ميزة genbank لتجاهلها
- تقسيم الإخراج إلى فصل ملفات GFF و fasta لـ
كل سجل genbank
--nolump -n ملف منفصل لكل تسلسل مرجعي
(الافتراضي هو تجميع كل السجلات معًا في واحد
ملف الإخراج لكل ملف إدخال)
- حد الخطأ المحدث لفك التسطيح
اضبط هذا المستوى العالي (> 2) لتجاهل جميع أخطاء عدم التسوية
- [لا] CDS -c الاحتفاظ بـ CDS-exons ، أو التحويل إلى جين بديل-RNA-protein-exon
نموذج. --CDS هو الافتراضي. استخدم --CDS للاحتفاظ بنموذج جين GFF الافتراضي ،
استخدم --noCDS للتحويل إلى grpe.
--format -f تنسيق الإدخال (أنواع SeqIO): GenBank أو Swiss أو Uniprot ، EMBL work
(GenBank هو الافتراضي)
--GFF_VERSION 3 هو الإعداد الافتراضي ، 2 و 2.5 وتتوفر إصدارات Bio :: Tools :: GFF الأخرى
- لا تتحدث بهدوء عما تتم معالجته
- نوع تسلسل SO للمصدر (مثل الكروموسوم ؛ المنطقة ؛ كونتيج)
--مساعدة -h في عرض هذه الرسالة
الوصف
يستخدم هذا البرنامج النصي Bio :: SeqFeature :: Tools :: Unflattener و Bio :: Tools :: GFF للتحويل
ملفات GenBank المسطحة إلى GFF3 مع التسلسلات الهرمية لاحتواء الجينات المعينة للعرض الأمثل بتنسيق
com.gbrowse.
يُفترض أن تكون ملفات الإدخال عبارة عن ملفات مسطحة GenBank مضغوطة من أجل refseq contigs. الملفات
قد تحتوي على سجلات GenBank متعددة. يمكن أن يكون إما ملف واحد أو دليل كامل
معالجتها. بشكل افتراضي ، يتم تضمين تسلسل الحمض النووي في GFF ولكن يمكن حفظه فيه
فصل ملف fasta باستخدام الخيار --split (-y).
إذا كان ملف الإدخال يحتوي على سجلات متعددة ، فإن السلوك الافتراضي هو تفريغ كل ملفات GFF و
تسلسل لملف يحمل نفس الاسم (مع إلحاق .gff). باستخدام خيار "nolump" سوف
إنشاء ملف منفصل لكل سجل genbank. سيؤدي استخدام خيار "التقسيم" إلى إنشاء ملفات
منفصلة ملفات GFF و Fasta لكل سجل genbank.
ملاحظة
'ينقسم' "نولومب" إنتاج كثير ملفات
في الحالات التي تحتوي فيها ملفات الإدخال على العديد من سجلات GenBank (على سبيل المثال ، الكروموسوم
لإنشاء جينوم الماوس) ، سيتم إنتاج عدد كبير جدًا من ملفات الإخراج إذا كان
يتم تحديد خيارات "التقسيم" أو "عدم التفريغ". إذا كانت لديك قوائم بالملفات> 6000 ، فاستخدم
الخيار --long_list في bp_bulk_load_gff.pl أو bp_fast_load_gff.pl لتحميل gff و /
أو ملفات fasta.
مصمم لـ المرجع
تم تصميم هذا البرنامج النصي لإدخالات التسلسل الجيني RefSeq. قد تعمل مع طرف ثالث
التعليقات التوضيحية ولكن هذا لم يتم اختباره. لكن انظر أدناه ، يعمل Uniprot / Swissprot ، EMBL
وربما EMBL / Ensembl إذا كنت لا تمانع في بعض أخطاء unflattener في النموذج الجيني (dgg).
GRPE جينة الموديل
عمل دون جيلبرت على هذا مع الاحتياجات لإنتاج GFF3 المناسب للتحميل إلى GMOD Chado
قواعد بيانات. أعتقد أن معظم التغييرات مناسبة للاستخدام العام. شادو رئيسي واحد-
إضافة محددة هي
- [لا] علم cds2protein
GFF المفضل لدي هو تعيين ما سبق على أنه ON افتراضيًا (تعطيل مع --nocds2prot) من أجل
الاستخدام العام ربما يجب إيقاف تشغيله ، مع تمكين --cds2prot.
هذا يكتب GFF بنموذج جين بديل ولكنه مفيد ، بدلاً من نموذج الإجماع
لـ GFF3
[جين> مرنا> (إكسون ، CDS ، UTR)]
هذا البديل
الجين> مرنا> عديد ببتيد> إكسون
يعني أن الميزة الوحيدة مع قواعد الحمض النووي هي exon. يحدد الآخرون الموقع فقط
نطاقات على الجينوم. Exon بالطبع هو طفل من mRNA والبروتين / الببتيد.
تعد ميزة البروتين / متعدد الببتيد ميزة مهمة ، حيث تحتوي على جميع التعليقات التوضيحية الخاصة بـ
ميزة GenBank CDS ، ومعرف البروتين ، والترجمة ، ومصطلحات GO ، و Dbxrefs لبروتينات أخرى.
يتم الاستدلال على UTRs و introns و CDS-exons من قواعد exon الأولية داخل / خارج
نطاقات الميزات الأعلى المناسبة. تظل ميزات نموذج الجينات الخاصة الأخرى كما هي.
تم تضمين العديد من التحسينات وإصلاحات الأخطاء الأخرى ، البسيطة ولكنها مفيدة
* أنابيب الإدخال والإخراج تعمل الآن:
حليقة بروتوكول نقل الملفات: // ncbigenomes /... | bp_genbank2gff3 - في ستدين - خارج stdout | يااااااااااا ...
* تمت إضافة حقول السجل الرئيسية GenBank إلى ميزة المصدر ، مثل الكائن الحي والتاريخ و
ويستخدم النوع المصدر ، عادة كروموسوم الجينوم.
* معالجة النموذج الجيني لـ ncRNA ، تضاف الجينات الكاذبة.
* رأس GFF أنظف وأكثر إفادة.
- تسمح علامة GFF_VERSION باختيار الإصدار 2 وكذلك الافتراضي v3
* تم تحسين إدراج GFF ## FASTA ، و
يتم نقل تسلسل ترجمة CDS إلى سجلات FASTA.
* FT -> تم تحسين تعيين سمة GFF.
* - اختيار تنسيق تنسيقات إدخال SeqIO (افتراضي GenBank).
تعمل Uniprot / Swissprot و EMBL وتنتج GFF مفيدًا.
* SeqFeature :: Tools :: TypeMapper لديه عدد قليل من FT -> إضافات SOFA
واستخدام أكثر مرونة.
ALL
هل هؤلاء إضافات مرغوب؟
* تصفية سجلات الإدخال حسب التصنيف (على سبيل المثال الاحتفاظ بالكائن الحي فقط = xxx أو مستوى التصنيف = classYYY
* التعامل مع Entrezgene ، وغيرها من هياكل SeqIO غير المتسلسلة (يجب أن تتغير بالفعل
هؤلاء المحللين لإنتاج علامات تعليقات توضيحية متسقة).
مقالات ذات صلة إصلاحات الأخطاء / الاختبارات
تم اختبار هذه العناصر من بريد Bioperl (عينة من أخطاء توليد البيانات) ، وتم العثور عليها
تصحيح:
من: إد جرين eva.mpg.de>
الموضوع: genbank2gff3.pl على المرجع البشري الجديد
التاريخ: 2006-03-13 21:22:26 بتوقيت جرينتش
- أخطاء غير محددة (نموذج البيانات يعمل الآن).
من: إريك جست شمال غرب edu>
الموضوع: genbank2gff3.pl
التاريخ: 2007-01-26 17:08:49 بتوقيت جرينتش
- علة ثابتة في genbank2gff3 للتعامل مع السجلات المتعددة
هذا الخطأ متعلق بجين / trans_splice الذي يصعب التعامل معه ، و unflattner / genbank2
لا
من: تشاد ماتسالا dieselwurks.com>
الموضوع: genbank2gff3.PLS و unflatenner - ترتيب غير متسق؟
التاريخ: 2005-07-15 19:51:48 بتوقيت جرينتش
استخدم bp_genbank2gff3p عبر الإنترنت باستخدام خدمات onworks.net