यह कमांड hmmscan है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
hmmscan - प्रोटीन प्रोफ़ाइल डेटाबेस के विरुद्ध प्रोटीन अनुक्रम खोजें
SYNOPSIS
हम्मस्कैन [विकल्प]
वर्णन
हम्मस्कैन प्रोटीन प्रोफाइल के संग्रह के विरुद्ध प्रोटीन अनुक्रम खोजने के लिए उपयोग किया जाता है। के लिए
प्रत्येक क्रम में , लक्ष्य डेटाबेस को खोजने के लिए उस क्वेरी अनुक्रम का उपयोग करें
में प्रोफाइल , और सबसे महत्वपूर्ण प्रोफ़ाइलों की आउटपुट रैंक वाली सूचियाँ
अनुक्रम से मेल खाता है।
RSI एक से अधिक क्वेरी अनुक्रम हो सकते हैं। यह FASTA प्रारूप में हो सकता है, या
कई अन्य सामान्य अनुक्रम फ़ाइल स्वरूप (जेनबैंक, एम्बेल, और यूनिप्रोट, अन्य के बीच), या
संरेखण फ़ाइल स्वरूपों में (स्टॉकहोम, संरेखित फास्टा, और अन्य)। देखें --qformat विकल्प
पूरी सूची के लिए।
RSI का उपयोग करके प्रेस करने की आवश्यकता है हम्मप्रेस इसके साथ खोजा जा सकता है हम्मस्कैन.
यह चार बाइनरी फ़ाइलें बनाता है, प्रत्यय .h3{fimp}।
पूछताछ हो सकता है '-' (एक डैश कैरेक्टर), जिस स्थिति में क्वेरी अनुक्रम हैं
a . से पढ़ें फ़ाइल के बजाय पाइप। NS a . से पढ़ा नहीं जा सकता
स्ट्रीम, क्योंकि इसके द्वारा उत्पन्न उन चार सहायक बाइनरी फाइलों की आवश्यकता होती है
हम्मप्रेस.
आउटपुट स्वरूप मानव-पठनीय होने के लिए डिज़ाइन किया गया है, लेकिन अक्सर इतना बड़ा होता है कि
इसे पढ़ना अव्यावहारिक है, और इसे पार्स करना एक दर्द है। NS --tbloout और --डॉमटब्लाउट विकल्पों
सरल सारणीबद्ध प्रारूपों में आउटपुट सहेजें जो संक्षिप्त और पार्स करने में आसान हों। NS -o विकल्प
मुख्य आउटपुट को पुनर्निर्देशित करने की अनुमति देता है, जिसमें इसे /dev/null में फेंकना भी शामिल है।
विकल्प
-h मदद; कमांड लाइन उपयोग और सभी उपलब्ध विकल्पों का एक संक्षिप्त अनुस्मारक प्रिंट करें।
विकल्प के लिए नियंत्रित आउटपुट
-o मुख्य मानव-पठनीय आउटपुट को फ़ाइल में निर्देशित करें डिफ़ॉल्ट स्टडआउट के बजाय।
--tbloout
प्रति-लक्ष्य आउटपुट को सारांशित करते हुए एक साधारण सारणीबद्ध (स्पेस-सीमांकित) फ़ाइल सहेजें,
प्रत्येक समजात लक्ष्य मॉडल में एक डेटा लाइन पाई गई।
--डॉमटब्लाउट
प्रति-डोमेन आउटपुट को सारांशित करते हुए एक साधारण सारणीबद्ध (स्पेस-सीमांकित) फ़ाइल सहेजें,
प्रत्येक के लिए एक क्वेरी अनुक्रम में पाए गए समजात डोमेन प्रति एक डेटा लाइन के साथ
सजातीय मॉडल।
--pfamtblout
प्रत्येक को सारांशित करते हुए एक विशेष रूप से संक्षिप्त सारणीबद्ध (स्पेस-सीमांकित) फ़ाइल सहेजें-
लक्ष्य आउटपुट, प्रति समजातीय लक्ष्य मॉडल में एक डेटा लाइन पाई गई।
--एसीसी मुख्य आउटपुट में नामों के बजाय एक्सेस का उपयोग करें, जहां प्रोफाइल के लिए उपलब्ध हो
और/या अनुक्रम।
--नोअली
मुख्य आउटपुट से संरेखण अनुभाग को छोड़ दें। यह आउटपुट को बहुत कम कर सकता है
मात्रा।
--notextw
मुख्य आउटपुट में प्रत्येक पंक्ति की लंबाई को सीमित करें। डिफ़ॉल्ट 120 . की सीमा है
प्रति पंक्ति वर्ण, जो टर्मिनलों पर आउटपुट को स्पष्ट रूप से प्रदर्शित करने में मदद करता है और
संपादकों में, लेकिन लक्ष्य प्रोफ़ाइल विवरण पंक्तियों को छोटा कर सकता है।
--textw
मुख्य आउटपुट की लाइन लंबाई सीमा को सेट करें प्रति पंक्ति वर्ण। डिफ़ॉल्ट है
120.
विकल्प के लिए रिपोर्टिंग थ्रेसहोल्ड
रिपोर्टिंग थ्रेशोल्ड नियंत्रित करता है कि कौन से हिट आउटपुट फाइलों में रिपोर्ट किए जाते हैं (मुख्य आउटपुट,
--tbloout, तथा --डॉमटब्लाउट).
-E प्रति-लक्ष्य आउटपुट में, <= के ई-मान के साथ लक्ष्य प्रोफाइल की रिपोर्ट करें ।
डिफ़ॉल्ट 10.0 है, जिसका अर्थ है कि औसतन लगभग 10 झूठी सकारात्मक रिपोर्ट की जाएगी
प्रति प्रश्न, ताकि आप शोर के शीर्ष को देख सकें और अपने लिए तय कर सकें कि क्या यह है
वास्तव में शोर।
-T ई-वैल्यू पर प्रति-प्रोफ़ाइल आउटपुट थ्रेशोल्ड करने के बजाय, लक्ष्य की रिपोर्ट करें
>= के बिट स्कोर वाली प्रोफ़ाइल .
--डोमई
प्रति-डोमेन आउटपुट में, लक्ष्य प्रोफ़ाइल के लिए जो पहले से ही प्रति को संतुष्ट कर चुके हैं-
प्रोफ़ाइल रिपोर्टिंग सीमा, सशर्त ई-मान के साथ अलग-अलग डोमेन की रिपोर्ट करें
का <= . डिफ़ॉल्ट 10.0 है। एक सशर्त ई-मान का अर्थ है अपेक्षित संख्या
उनमें से छोटे खोज स्थान में अतिरिक्त झूठे सकारात्मक डोमेन के
तुलनाएँ जो पहले से ही प्रति-प्रोफ़ाइल रिपोर्टिंग सीमा को संतुष्ट करती हैं (और इस प्रकार
कम से कम एक समजात डोमेन पहले से ही होना चाहिए)।
--डोमटी
ई-वैल्यू पर प्रति-डोमेन आउटपुट थ्रेशोल्ड करने के बजाय, इसके बजाय डोमेन की रिपोर्ट करें a
बिट स्कोर>= .
विकल्प के लिए समावेशन थ्रेसहोल्ड
समावेशन थ्रेशोल्ड रिपोर्टिंग थ्रेशोल्ड की तुलना में अधिक सख्त हैं। समावेशन सीमा नियंत्रण
कौन से हिट को आउटपुट संरेखण में शामिल करने के लिए पर्याप्त विश्वसनीय माना जाता है या a
बाद में खोज दौर। में हम्मस्कैन, जिसमें कोई संरेखण आउटपुट नहीं है (जैसे
हम्मसर्च or fmmer) न ही कोई पुनरावृत्तीय खोज चरण (जैसे जैकहमेर), समावेशन सीमाएँ
बहुत कम प्रभाव पड़ता है. वे केवल उन डोमेन को प्रभावित करते हैं जिन्हें महत्वपूर्ण (!) या के रूप में चिह्नित किया जाता है
डोमेन आउटपुट में संदिग्ध (?)।
--incई
<= . के ई-मान का उपयोग करें प्रति-लक्षित समावेशन सीमा के रूप में। डिफ़ॉल्ट है
0.01, जिसका अर्थ है कि औसतन, प्रत्येक में लगभग 1 झूठी सकारात्मक की उम्मीद की जाएगी
विभिन्न क्वेरी अनुक्रमों के साथ 100 खोजें।
--incT
समावेशन सीमा निर्धारित करने के लिए ई-मानों का उपयोग करने के बजाय, थोड़ा सा उपयोग करें
>= . का स्कोर प्रति-लक्ष्य समावेशन सीमा के रूप में। इसका उपयोग करना असामान्य होगा
बिट स्कोर थ्रेशोल्ड के साथ हम्मस्कैन, क्योंकि आप एक भी अंक की उम्मीद नहीं करते हैं
विभिन्न प्रोफाइलों के लिए काम करने की सीमा; अलग-अलग प्रोफाइल में थोड़ा सा है
विभिन्न अपेक्षित स्कोर वितरण।
--incdomE
<= . के सशर्त ई-मान का उपयोग करें प्रति-डोमेन समावेशन सीमा के रूप में, in
ऐसे लक्ष्य जो पहले ही समग्र प्रति-लक्षित समावेशन सीमा को पूरा कर चुके हैं।
डिफ़ॉल्ट 0.01 है।
--incdom टी
ई-वैल्यू का उपयोग करने के बजाय, >= के बिट स्कोर का उपयोग करें प्रति डोमेन के रूप में
समावेशन सीमा. साथ ही --incT ऊपर, एकल बिट का उपयोग करना असामान्य होगा
स्कोर सीमा में हम्मस्कैन.
विकल्प के लिए मॉडल-विशिष्ट स्कोर थ्रेशोल्डिंग
क्यूरेटेड प्रोफाइल डेटाबेस प्रत्येक प्रोफाइल के लिए विशिष्ट बिट स्कोर थ्रेसहोल्ड परिभाषित कर सकते हैं,
अकेले सांख्यिकीय महत्व के आधार पर किसी भी सीमा का अधिक्रमण करना।
इन विकल्पों का उपयोग करने के लिए, प्रोफ़ाइल में उपयुक्त (GA, TC, और/या NC) होना चाहिए
वैकल्पिक स्कोर थ्रेशोल्ड एनोटेशन; यह द्वारा उठाया जाता है हम्मबिल्ड स्टॉकहोम प्रारूप से
संरेखण फ़ाइलें. प्रत्येक थ्रेशोल्डिंग विकल्प में दो स्कोर होते हैं: प्रति-अनुक्रम सीमा
और प्रति-डोमेन सीमा ये ऐसे कार्य करते हैं जैसे -T --incT --डोमटी
--incdom टी प्रत्येक मॉडल के क्यूरेटेड थ्रेसहोल्ड का उपयोग करके विशेष रूप से लागू किया गया है।
--कट_गा
प्रति-अनुक्रम (GA1) और प्रति-सेट करने के लिए मॉडल में GA (एकत्रित) बिट स्कोर का उपयोग करें
डोमेन (GA2) रिपोर्टिंग और समावेशन सीमाएँ। जीए सीमाएँ आम तौर पर होती हैं
पारिवारिक सदस्यता को परिभाषित करने वाली विश्वसनीय क्यूरेटेड सीमाएँ मानी जाती हैं; के लिए
उदाहरण के लिए, Pfam में, ये सीमाएँ परिभाषित करती हैं कि Pfam Full में क्या शामिल किया जाता है
Pfam बीज मॉडल के साथ खोजों पर आधारित संरेखण।
--कट_एनसी
प्रति-अनुक्रम सेट करने के लिए मॉडल में एनसी (शोर कटऑफ) बिट स्कोर थ्रेशोल्ड का उपयोग करें
(एनसी1) और प्रति-डोमेन (एनसी2) रिपोर्टिंग और समावेशन सीमाएँ। एनसी सीमाएँ हैं
आम तौर पर उच्चतम स्कोरिंग ज्ञात गलत सकारात्मक का स्कोर माना जाता है।
--कट_टीसी
प्रति-अनुक्रम सेट करने के लिए मॉडल में एनसी (विश्वसनीय कटऑफ) बिट स्कोर थ्रेशोल्ड का उपयोग करें
(TC1) और प्रति-डोमेन (TC2) रिपोर्टिंग और समावेशन सीमाएँ। टीसी सीमाएँ हैं
आम तौर पर इसे सबसे कम स्कोर वाला ज्ञात वास्तविक सकारात्मक स्कोर माना जाता है
सभी ज्ञात झूठी सकारात्मकताओं से ऊपर है।
नियंत्रण OF THE त्वरण पाइप लाइन
HMMER3 खोजों को तीन-चरण फ़िल्टर पाइपलाइन में त्वरित किया जाता है: MSV फ़िल्टर, the
Viterbi फ़िल्टर, और फ़ॉरवर्ड फ़िल्टर। पहला फ़िल्टर सबसे तेज़ और सबसे अधिक
अनुमानित; अंतिम पूर्ण फॉरवर्ड स्कोरिंग एल्गोरिथम है। एक पूर्वाग्रह फ़िल्टर भी है
MSV और Viterbi के बीच का चरण। लक्ष्य जो त्वरण पाइपलाइन में सभी चरणों को पार करते हैं
फिर पोस्टप्रोसेसिंग के अधीन किया जाता है - डोमेन पहचान और स्कोरिंग का उपयोग करके
फॉरवर्ड/बैकवर्ड एल्गोरिथम।
फ़िल्टर थ्रेशोल्ड को बदलने से केवल लक्ष्य हटा दिए जाते हैं या विचार किए जाते हैं; बदलना
फ़िल्टर थ्रेशोल्ड बिट स्कोर, ई-मान या संरेखण को नहीं बदलता है, जो सभी हैं
पूरी तरह से पोस्टप्रोसेसिंग में निर्धारित।
--मैक्स बायस फ़िल्टर सहित सभी फ़िल्टर बंद करें, और पूरा फ़ॉरवर्ड/बैकवर्ड चलाएँ
प्रत्येक लक्ष्य पर पोस्टप्रोसेसिंग। इससे संवेदनशीलता कुछ हद तक, बड़े पैमाने पर बढ़ जाती है
गति में लागत.
--F1
MSV फ़िल्टर चरण के लिए P-मान थ्रेशोल्ड सेट करें। डिफ़ॉल्ट 0.02 है, जिसका अर्थ है
उच्चतम स्कोरिंग गैर-समरूप लक्ष्यों का लगभग 2% पास होने की उम्मीद है
फ़िल्टर।
--F2
Viterbi फ़िल्टर चरण के लिए P-मान थ्रेशोल्ड सेट करें। डिफ़ॉल्ट 0.001 है।
--F3
फ़ॉरवर्ड फ़िल्टर चरण के लिए P-मान थ्रेशोल्ड सेट करें। डिफ़ॉल्ट 1e-5 है।
--नोबियास
बायस फिल्टर को बंद कर दें। यह कुछ हद तक संवेदनशीलता बढ़ाता है, लेकिन एक पर आ सकता है
गति में उच्च लागत, विशेष रूप से यदि क्वेरी में पक्षपाती अवशेष संरचना है (जैसे
एक दोहराव अनुक्रम क्षेत्र, या यदि यह बड़े क्षेत्रों के साथ एक झिल्ली प्रोटीन है
हाइड्रोफोबिसिटी)। पूर्वाग्रह फ़िल्टर के बिना, बहुत से अनुक्रम फ़िल्टर को पास कर सकते हैं
पक्षपातपूर्ण प्रश्नों के साथ, अपेक्षित प्रदर्शन की तुलना में धीमी गति के लिए अग्रणी
कम्प्यूटेशनल रूप से गहन फॉरवर्ड/बैकवर्ड एल्गोरिदम एक असामान्य रूप से भारी कंधे
भार।
अन्य विकल्प
--नॉनुल2
पक्षपाती रचना के लिए null2 स्कोर सुधार बंद करें।
-Z दावा करें कि आपकी खोजों में लक्ष्यों की कुल संख्या है , उद्देश्यों के लिये
लक्ष्य की वास्तविक संख्या के बजाय प्रति-अनुक्रम ई-मूल्य गणनाओं का
देखा।
--डोमजेड
दावा करें कि आपकी खोजों में लक्ष्यों की कुल संख्या है , उद्देश्यों के लिये
लक्ष्य की संख्या के बजाय प्रति-डोमेन सशर्त ई-मान गणनाओं का
जो रिपोर्टिंग सीमा को पार कर गया है।
--बीज
यादृच्छिक संख्या बीज को पर सेट करें . पोस्टप्रोसेसिंग में कुछ चरणों के लिए मोंटे . की आवश्यकता होती है
कार्लो सिमुलेशन। तयशुदा बीज (42) का उपयोग करने के लिए डिफ़ॉल्ट है, ताकि परिणाम हो
बिल्कुल प्रतिलिपि प्रस्तुत करने योग्य। कोई अन्य धनात्मक पूर्णांक भिन्न देगा (लेकिन यह भी
प्रतिलिपि प्रस्तुत करने योग्य) परिणाम। 0 का विकल्प मनमाने ढंग से चुने गए बीज का उपयोग करता है।
--qformat
दावा करें कि क्वेरी अनुक्रम फ़ाइल प्रारूप में है . स्वीकृत प्रारूपों में शामिल हैं
व्रत, प्रतीक चिन्ह, GenBank, डीडीबीजे, यूनिप्रोट, स्टॉकहोल्म, पीएफएएम, a2m, तथा दादा.
--सी पी यू
समानांतर कार्यकर्ता थ्रेड्स की संख्या को सेट करें . डिफ़ॉल्ट रूप से, HMMER इसे इस पर सेट करता है
यह आपकी मशीन में सीपीयू कोर की संख्या का पता लगाता है - यानी, यह अधिकतम करने की कोशिश करता है
आपके उपलब्ध प्रोसेसर कोर का उपयोग। स्थापना की संख्या से अधिक
उपलब्ध कोर बहुत कम हैं यदि कोई मूल्य है, लेकिन आप इसे किसी चीज़ पर सेट करना चाह सकते हैं
कम। आप एक पर्यावरण चर सेट करके भी इस संख्या को नियंत्रित कर सकते हैं,
एचएमएमईआर_एनसीपीयू.
यह विकल्प केवल तभी उपलब्ध होता है जब HMMER को POSIX थ्रेड्स समर्थन के साथ संकलित किया गया हो।
यह डिफ़ॉल्ट है, लेकिन हो सकता है कि इसे आपकी साइट या मशीन के लिए बंद कर दिया गया हो
कुछ कारण।
--स्टाल
MPI मास्टर/वर्कर संस्करण को डीबग करने के लिए: प्रारंभ करने के बाद रोकें, सक्षम करने के लिए
डिबगर्स को चल रहे मास्टर और वर्कर (ओं) प्रक्रियाओं में संलग्न करने के लिए डेवलपर। भेजना
विराम जारी करने के लिए SIGCONT संकेत। (जीडीबी के तहत: (GDB) संकेत सिगकॉन्ट)
(केवल तभी उपलब्ध है जब वैकल्पिक MPI समर्थन संकलन-समय पर सक्षम किया गया था।)
--एमपीआई MPI मास्टर/वर्कर मोड में चलाएँ, का उपयोग कर mpirun.
(केवल तभी उपलब्ध है जब वैकल्पिक MPI समर्थन संकलन-समय पर सक्षम किया गया था।)
onworks.net सेवाओं का उपयोग करके ऑनलाइन hmmscan का उपयोग करें