एनसीबीआई-सेग - क्लाउड में ऑनलाइन

यह कमांड ncbi-seg है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर में से एक का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।

कार्यक्रम:

नाम


एनसीबीआई-सेग - स्थानीय जटिलता के आधार पर खंड अनुक्रम

SYNOPSIS


एनसीबीआई-सेग अनुक्रम [ डब्ल्यू ] [ K(1)] [ K(2) ] [-x ] [विकल्प ]

वर्णन


ncbi-seg निम्न-जटिलता और उच्च- के विपरीत खंडों में अनुक्रमों को विभाजित करता है
जटिलता। एल्गोरिथ्म द्वारा परिभाषित कम-जटिलता खंड "सरल अनुक्रम" का प्रतिनिधित्व करते हैं
या "रचनात्मक रूप से पक्षपाती क्षेत्र"।

स्थानीय रूप से अनुकूलित कम-जटिलता वाले खंड कड़ेपन के परिभाषित स्तरों पर निर्मित होते हैं,
स्थानीय संरचनागत जटिलता की औपचारिक परिभाषाओं पर आधारित (वूटन और फेडरहेन, 1993)।
खंड की लंबाई और प्रति अनुक्रम खंडों की संख्या स्वचालित रूप से निर्धारित होती है
एल्गोरिथ्म द्वारा।

इनपुट एक FASTA- स्वरूपित अनुक्रम फ़ाइल है, या एक डेटाबेस फ़ाइल है जिसमें कई FASTA-
स्वरूपित अनुक्रम। एनसीबीआई-सेग को अमीनो एसिड अनुक्रमों के लिए ट्यून किया गया है। न्यूक्लियोटाइड के लिए
अनुक्रम, नीचे पैरामीटर सेट के उदाहरण देखें।

कम-जटिलता वाले खंडों की खोज की कठोरता तीन उपयोगकर्ता द्वारा निर्धारित की जाती है-
परिभाषित पैरामीटर, ट्रिगर विंडो की लंबाई [ W ], ट्रिगर जटिलता [ K(1)] और विस्तार
जटिलता [ K(2)] (पैरामीटर के तहत नीचे देखें)। प्रदान की गई चूक के लिए उपयुक्त हैं
डेटाबेस खोज क्वेरी अनुक्रमों की कम-जटिलता मास्किंग [-x विकल्प आवश्यक, देखें
नीचे]।

OUTPUTS और आवेदन


(1) पठनीय खंड अनुक्रम [डिफ़ॉल्ट]। विषम जटिलता के क्षेत्र हैं
"पेड़ प्रारूप" में प्रदर्शित। उदाहरण देखें।

(2) कम-जटिलता मास्किंग (देखें अल्त्शुल एट अल, 1994)। एक नकाबपोश FASTA-स्वरूपित का उत्पादन करें
फ़ाइल, डेटाबेस खोज प्रोग्राम जैसे BLAST or . के लिए क्वेरी अनुक्रम के रूप में इनपुट के लिए तैयार है
फास्टा। कम जटिलता वाले क्षेत्रों में अमीनो एसिड को "x" वर्णों से बदल दिया जाता है [-x
विकल्प]। उदाहरण देखें।

(3) डेटाबेस निर्माण। कम-जटिलता वाली FASTA-स्वरूपित फ़ाइलें तैयार करें
खंड [-l विकल्प], या उच्च-जटिलता खंड [-h विकल्प], या दोनों [-a विकल्प]। प्रत्येक
खंड एक सूचनात्मक हेडर लाइन के साथ एक अलग अनुक्रम प्रविष्टि है।

कलन विधि


SEG एल्गोरिथ्म में दो चरण होते हैं। सबसे पहले, के अनुमानित कच्चे खंडों की पहचान
कम जटिलता; दूसरा स्थानीय अनुकूलन।

पहले चरण में, कम-जटिलता की खोज की कठोरता और संकल्प
खंड डब्ल्यू द्वारा निर्धारित किया जाता है, K(1) और K(2) पैरामीटर। सभी ट्रिगर विंडो हैं
परिभाषित, ओवरलैपिंग विंडो सहित, लंबाई W और जटिलता से कम या बराबर
K(1). यहां "जटिलता" को वूटन और फेडरहेन (3) के समीकरण (1993) द्वारा परिभाषित किया गया है। प्रत्येक
ट्रिगर विंडो को तब एक्सटेंशन के साथ विलय करके दोनों दिशाओं में एक कॉन्टेग में विस्तारित किया जाता है
खिड़कियाँ, जो लंबाई W की अतिव्यापी खिड़कियाँ हैं और जटिलता से कम या उसके बराबर है
K(2). प्रत्येक अंजीर एक कच्चा खंड है।

दूसरे चरण में, प्रत्येक कच्चे खंड को एकल इष्टतम कम-जटिलता में घटा दिया जाता है
खंड, जो संपूर्ण कच्चा खंड हो सकता है लेकिन आमतौर पर बाद में होता है। इष्टतम
बाद की संभावना का सबसे कम मूल्य है P(0) (समीकरण (5) वूटन और
फेडरहेन, 1993)।

पैरामीटर


अनुक्रम फ़ाइल नाम के बाद ये तीन संख्यात्मक पैरामीटर अनिवार्य क्रम में हैं।

ट्रिगर विंडो की लंबाई [W]। शून्य से बड़ा एक पूर्णांक [डिफ़ॉल्ट 12]।

ट्रिगर जटिलता। [के1]। बिट्स की इकाइयों में ट्रिगर विंडो की अधिकतम जटिलता।
K1 शून्य के बराबर या उससे बड़ा होना चाहिए। अधिकतम मान 4.322 है (लॉग [आधार 2] 20) for
अमीनो एसिड अनुक्रम [डिफ़ॉल्ट 2.2]।

विस्तार जटिलता [K2]। की इकाइयों में एक विस्तार विंडो की अधिकतम जटिलता
बिट्स। केवल K1 से अधिक मान ट्रिगर विंडो को विस्तारित करने में प्रभावी होते हैं। की सीमा
संभावित मान K1 [डिफ़ॉल्ट 2.5] के लिए है।

विकल्प


निम्नलिखित विकल्पों को W, K1 और के बाद कमांड लाइन में किसी भी क्रम में रखा जा सकता है
K2 पैरामीटर:

-ए FASTA-स्वरूपित फ़ाइल में निम्न-जटिलता और उच्च-जटिलता दोनों खंडों का आउटपुट, जैसा कि
हेडर लाइनों के साथ अलग प्रविष्टियों का एक सेट।

-सी [अक्षर-प्रति-पंक्ति]
आउटपुट की प्रति पंक्ति अनुक्रम वर्णों की संख्या [डिफ़ॉल्ट 60]। अन्य पात्र, जैसे
अवशेष संख्या के रूप में, अतिरिक्त हैं।

-h FASTA-स्वरूपित फ़ाइल में केवल उच्च-जटिलता वाले खंडों को आउटपुट के रूप में सेट करें
हेडर लाइनों के साथ अलग प्रविष्टियाँ।

-l FASTA-स्वरूपित फ़ाइल में केवल निम्न-जटिलता वाले खंडों को आउटपुट के रूप में सेट करें
हेडर लाइनों के साथ अलग प्रविष्टियाँ।

-एम [लंबाई]
उच्च-जटिलता वाले खंड के लिए अवशेषों में न्यूनतम लंबाई [डिफ़ॉल्ट 0]। छोटा
खंडों को आसन्न कम-जटिलता वाले खंडों के साथ मिला दिया गया है।

-o सभी ओवरलैपिंग, स्वतंत्र रूप से ट्रिगर कम-जटिलता वाले खंड दिखाएं [ये हैं
डिफ़ॉल्ट रूप से विलय]।

-q सहायता के लिए चिह्नों के साथ क्रमांकित ब्लॉक में अनुक्रम के साथ एक आउटपुट स्वरूप तैयार करें
अवशेषों की गिनती निम्न-जटिलता और उच्च-जटिलता खंड निम्न- और . में हैं
क्रमशः अपर-केस वर्ण।

-टी [लंबाई]
"अधिकतम ट्रिम लंबाई" पैरामीटर [डिफ़ॉल्ट 100]। यह खोज स्थान को नियंत्रित करता है (और
खोज समय) कच्चे खंडों के अनुकूलन के दौरान (ऊपर एल्गोरिथम देखें)। द्वारा
डिफ़ॉल्ट, बाद के 100 या अधिक अवशेष कच्चे खंड से कम छोड़े जाते हैं
खोज से। अधिक व्यापक खोज देने के लिए इस पैरामीटर को बढ़ाया जा सकता है यदि
कच्चे खंड 100 अवशेषों से अधिक लंबे होते हैं।

-x अमीनो एसिड अनुक्रमों के लिए मास्किंग विकल्प। प्रत्येक इनपुट अनुक्रम को a . द्वारा दर्शाया जाता है
FASTA-प्रारूप में एकल आउटपुट अनुक्रम कम-जटिलता वाले क्षेत्रों के साथ स्ट्रिंग्स द्वारा प्रतिस्थापित किया गया
"एक्स" वर्णों की।

उदाहरण OF पैरामीटर सेट


डिफ़ॉल्ट पैरामीटर 'एनसीबीआई-सेग अनुक्रम' ('एनसीबीआई-सेग अनुक्रम 12' के बराबर) द्वारा दिए गए हैं
2.2 2.5')। ये पैरामीटर कई अमीनों के कम जटिलता वाले मास्किंग के लिए उपयुक्त हैं
एसिड अनुक्रम [-x विकल्प के साथ]।

डेटाबेस-डेटाबेस तुलना:
जब नकाबपोश अनुक्रम होते हैं तो अधिक कड़े (निचले) जटिलता पैरामीटर उपयुक्त होते हैं
नकाबपोश दृश्यों के साथ तुलना। उदाहरण के लिए, दो की तुलना करने वाली ब्लास्ट या फास्टा खोजों के लिए
अमीनो एसिड अनुक्रम डेटाबेस, निम्नलिखित मास्किंग दोनों डेटाबेस पर लागू किया जा सकता है:

एनसीबीआई-सेग डेटाबेस 12 1.8 2.0 -x

homopolymer विश्लेषण:
लंबाई के सभी होमोपोलिमेरिक अनुक्रमों की जांच करने के लिए (उदाहरण के लिए) 7 या अधिक:

एनसीबीआई-सेग अनुक्रम 7 0 0

गैर गोलाकार क्षेत्रों of प्रोटीन क्रम:
कई लंबे गैर-गोलाकार डोमेन का निदान लंबी विंडो लंबाई में किया जा सकता है, आमतौर पर:

एनसीबीआई-सेग अनुक्रम 45 3.4 3.75

कुछ छोटे गैर-गोलाकार डोमेन के लिए, निम्नलिखित सेट उपयुक्त है:

एनसीबीआई-सेग अनुक्रम 25 3.0 3.3

न्यूक्लियोटाइड क्रम:
जटिलता मापदंडों का अधिकतम मूल्य 2 है (लॉग [आधार 2] 4)। मास्किंग के लिए,
निम्नलिखित अमीनो एसिड के लिए डिफ़ॉल्ट मापदंडों के प्रभाव में लगभग बराबर है
क्रम:

एनसीबीआई-सेग अनुक्रम.एनए 21 1.4 1.6

उदाहरण


FASTA प्रारूप में 'prion' नाम की एक फ़ाइल निम्नलिखित है:

>PRIO_HUMAN प्रमुख प्रियन प्रोटीन प्रीक्यूसर
MANLGCWMLVLFVATWSDLGLCKKRPKGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGWGQPHGGGGWGQPHGGGWGQPHGGGGGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA
वीवीजीजीएलजीजीवाईएमएलजीएसएएमएसआरपीआईआईएचएफजीएसडीवाईईडीवाईरेनएमएचआरवाईपीएनक्यूवीवाईवाईआरपीएमडीईएसएनक्यूएनएनएफवीएचडीसीवी
NITIKQHTVTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ILISFLIFLIVG

कमांड लाइन:

एनसीबीआई-सेग /usr/share/doc/ncbi-seg/examples/prion.fa

नीचे मानक आउटपुट देता है

>PRIO_HUMAN प्रमुख प्रियन प्रोटीन प्रीक्यूसर

1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
WNTGGSRYPGQGSPGNRY
ppqggggwgqphggggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 टीएसक्यूडब्लूएनकेपीएसकेपीकेटीएनएमकेएचएम
आगागवग्ग्लग्गीएमएलजीएसएएम 113-135
136-187 आरपीआईआईएचएफजीएसडीड्राईरेनएमएचआरआईपीएनक्यूवीवाईआरपी
MDEYSNQNNFVHDCVNITIKQH
tvtttkgenftet 188-201
202-236 DVKMMERVVEQMCITQYERESQAYYQRGSS
एमवीएलएफएस
एसपीपीविलिसफ्लिफलिव 237-252
253-253 जी

निम्न-जटिलता अनुक्रम बाईं ओर (निचले मामले) और उच्च-जटिलता अनुक्रम हैं
दाईं ओर (ऊपरी केस) हैं। सभी अनुक्रम खंड बाएं से दाएं पढ़ते हैं और उनके
अनुक्रम में क्रम ऊपर से नीचे तक है, जैसा कि अवशेष के केंद्रीय स्तंभ द्वारा दिखाया गया है
संख्या.

कमांड लाइन:

एनसीबीआई-सेग /usr/share/doc/ncbi-seg/examples/prion.fa -x

निम्नलिखित FASTA-स्वरूपित फ़ाइल देता है: -

>PRIO_HUMAN प्रमुख प्रियन प्रोटीन प्रीक्यूसर
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxTHSQWNKPSKPKTNMKHMxxxxxx
xxxxxxxxxxxxxxxRPIIHFGSdyedryyrenMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxxxxxxxxxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
xxxxxxxxxxxxG

onworks.net सेवाओं का उपयोग करके ncbi-seg ऑनलाइन का उपयोग करें



नवीनतम Linux और Windows ऑनलाइन प्रोग्राम