هذا هو الأمر tigr-long-orfs الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
long-orfs - البحث عن / تسجيل الجينات المحتملة في ملف الجينوم باستخدام نموذج الاحتمالية في ICM-
ملف
موجز
تيجر طويل أورغس [ملف الجينوم والخيارات]
الوصف
يأخذ برنامج long-orfs ملف تسلسل (بتنسيق FASTA) ويخرج قائمة طويلة
"الجينات المحتملة" فيه والتي لا تتداخل كثيرًا. من خلال "الجين المحتمل" أعني
جزء من orf من كودون البدء الأول إلى كود الإيقاف في النهاية.
تحدد الأسطر القليلة الأولى من الإخراج إعدادات المعلمات المختلفة في البرنامج:
الحد الأدنى لطول الجين هو طول أصغر جزء يعتبر جينًا. ال
يقاس الطول من القاعدة الأولى لكودون البدء إلى القاعدة الأخيرة * قبل *
وقف الكودون. يمكن تحديد هذه القيمة عند تشغيل البرنامج مع الخيار -g.
افتراضيًا ، سيقوم البرنامج الآن (أبريل 2003) بحساب الطول الأمثل لذلك
المعلمة ، حيث "الأمثل" هي القيمة التي تنتج أكبر عدد من ORFs الطويلة ،
وبالتالي زيادة كمية البيانات المستخدمة للتدريب.
الحد الأدنى لطول التداخل هو الحد الأدنى لعدد القواعد المتداخلة بين جينين
هذا يعتبر مشكلة. يتم تجاهل التداخلات الأقصر من ذلك.
الحد الأدنى لنسبة التداخل هو حد أدنى آخر على عدد القواعد المتداخلة
تعتبر مشكلة. يتم تجاهل التداخلات الأقصر من هذه النسبة المئوية * لكلا الجينين.
الجزء التالي من المخرجات عبارة عن قائمة بالجينات المحتملة:
العمود 1 هو رقم معرف لأغراض مرجعية. يتم تعيينه بالتتابع بدءا
مع 1 لكل الجينات طويلة المدى. إذا تم القضاء على الجينات المتداخلة ، فإن الفجوات في
سوف تحدث الأرقام. يتم تحديد بادئة المعرف في ID_PREFIX الثابت.
العمود 2 هو موضع القاعدة الأولى لكودون البدء الأول في orf. حالياً
أستخدم atg و gtg ككودونات البداية. يتم تغيير هذا بسهولة في وظيفة Is_Start ().
العمود 3 هو موضع آخر قاعدة * قبل * رمز الإيقاف. وقف الكودونات هي تا ،
العلامة و tga. لاحظ أنه بالنسبة لل orfs في إطارات القراءة العكسية لها موضع البداية
أعلى من الموضع النهائي. الترتيب الذي يتم سرد الأورفس به بترتيب تصاعدي
بواسطة Max {OrfStart، End} ، أي أعلى موضع مرقم في orf ، باستثناء orfs
هذا "التفاف" حول نهاية التسلسل.
عندما يتداخل جينان لهما أرقام تعريفية بكمية كافية على الأقل (على النحو المحدد بواسطة
Min_Olap و Min_Olap_Percent) ، يتم حذفهما ولا يظهران في الإخراج.
الإخراج النهائي للبرنامج (يتم إرساله إلى ملف الأخطاء القياسي حتى لا يظهر
عندما يتم إعادة توجيه الإخراج إلى ملف) هو طول أطول orf تم العثور عليه.
تحديد رموز البداية والإيقاف المختلفة:
لتحديد مجموعات مختلفة من أكواد البدء والإيقاف ، قم بتعديل ملف gene.h.
على وجه التحديد ، الوظائف:
Is_Forward_Start Is_Reverse_Start Is_Start Is_Forward_Stop Is_Reverse_Stop
Is_Stop
تستخدم لتحديد ما يتم استخدامه لبدء وإيقاف الكودونات.
يقوم Is_Start و Is_Stop بإجراء مقارنات بسيطة بين السلاسل لتحديد الأنماط المستخدمة.
لإضافة نمط جديد ، ما عليك سوى إضافة المقارنة له. لإزالة نمط ، قم بالتعليق أو
احذف المقارنة لها.
تستخدم الوظائف الأربع الأخرى مقارنة صغيرة لتحديد أنماط البدء والإيقاف. هم
تمثل الكودون كنمط من 12 بتة ، مع 4 بتات لكل قاعدة ، وبتة واحدة لكل منها
القيمة المحتملة للأساسيات ، T ، G ، C أو A. هكذا نمط البت 0010 0101 1100
يمثل النمط الأساسي [C] [A أو G] [G أو T]. عن طريق القيام بعمليات البت (& | ~) و
المقارنات ، يمكن اختبار الأنماط الأكثر تعقيدًا التي تتضمن قراءات غامضة
بكفاءة. يمكن اختبار الأنماط البسيطة كما في الكود الحالي.
على سبيل المثال ، لإدخال كودون بدء إضافي لـ CAT يتطلب 3 تغييرات: 1. السطر ||
(Codon & 0x218) == يجب إدخال Codon في Is_Forward_Start ، نظرًا لأن 0x218 = 0010
0001 1000 يمثل CAT. 2. الخط || (Codon & 0x184) == يجب إدخال Codon في
Is_Reverse_Start ، نظرًا لأن 0x184 = 0001 1000 0100 يمثل ATG ، وهو عكس-
تكملة CAT. بالتناوب ، يمكن استخدام #define ثابت ATG_MASK. 3. ال
خط || strncmp (S، "cat"، 3) == 0 يجب إدخالها في Is_Start.
OPTIONS
-g n تعيين الحد الأدنى لطول الجين إلى n. الافتراضي هو حساب القيمة المثلى
تلقائيا. لا تغير هذا إلا إذا كنت تعرف ما تفعله.
-l اعتبار الجينوم خطيًا (وليس دائريًا) ، أي لا تسمح للجينات "بالتفاف"
حول "نهاية الجينوم. يعمل هذا الخيار على كل من المصباح واللمعان الطويل
. السلوك الافتراضي هو اعتبار الجينوم دائريًا.
-o n اضبط الحد الأقصى لطول التداخل على n. يسمح بالتداخلات أقصر من هذا.
(الافتراضي هو 0 نقطة أساس.)
-p n قم بتعيين الحد الأقصى لنسبة التداخل على n٪. تتداخل أقصر من هذه النسبة المئوية من
* كلا السلاسل * يتم تجاهلها. (الافتراضي هو 10٪.)
استخدم tigr-long-orfs عبر الإنترنت باستخدام خدمات onworks.net