این دستور cmbuild است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.
برنامه:
نام
cmbuild - ساخت مدل(های) کوواریانس از توالی چندگانه RNA مشروح ساختاری
تراز(های)
خلاصه
cmbuild [گزینه ها]
شرح
برای هر تراز چند دنباله در یک مدل کوواریانس بسازید و آن را ذخیره کنید
یک فایل جدید .
فایل تراز باید در قالب استکهلم یا SELEX باشد و باید دارای اجماع باشد
حاشیه نویسی ساختار ثانویه cmbuild از ساختار اجماع برای تعیین
معماری CM
ممکن است '-' (خط تیره) باشد، که به معنای خواندن این ورودی از است stdin به جای یک فایل
برای استفاده از '-'، باید فرمت فایل تراز را نیز مشخص کنید -- اطلاعات , همانطور که در
-- اطلاعات استکهلم (به دلیل محدودیت فعلی در اجرای ما، فایل MSA
قالبها را نمیتوان در جریان ورودی غیرقابل بازگشت شناسایی کرد.)
ممکن است "-" نباشد (stdout) زیرا ارسال فایل CM به stdout تضاد خواهد داشت
با خروجی متن دیگر برنامه.
علاوه بر نوشتن CM(های) به ، cmbuild همچنین برای هر کدام یک خط خروجی می دهد
مدل ایجاد شده برای stdout. هر خط دارای فیلدهای زیر است: "aln": نمایه the
تراز مورد استفاده برای ساخت CM. "idx": شاخص CM در ; "نام":
نام CM؛ "nseq": تعداد دنباله هایی در تراز مورد استفاده برای ساخت CM.
"eff_nseq": تعداد موثر توالی های مورد استفاده برای ساخت مدل. «الن»: طول
تراز مورد استفاده برای ساخت CM؛ "clen": تعداد ستون ها از تراز
به عنوان ستون های اجماع (تطبیق) تعریف شده است. "bps": تعداد جفتهای پایه در CM. "bifs":
تعداد انشعاب ها در CM؛ "rel entropy: CM": کل آنتروپی نسبی از
مدل تقسیم بر تعداد ستون های اجماع. «رجل آنتروپی: HMM»: کل نسبی
آنتروپی مدل بدون توجه به ساختار ثانویه تقسیم بر تعداد اجماع
ستون ها. "توضیح": توصیف مدل/همترازی.
OPTIONS
-h کمک؛ یک یادآوری مختصر از استفاده از خط فرمان و گزینه های موجود چاپ کنید.
-n CM جدید را نام ببرید . پیش فرض استفاده از نام تراز است (اگر یکی باشد
در حال حاضر در ) یا در صورت عدم موفقیت، نام آن . If
شامل بیش از یک تراز، -n کار نمی کند، و هر تراز
باید نامی در آن مشروح شود (مانند شرح استکهلم #=GF ID).
-F اجازه دادن رونویسی شود بدون این گزینه، اگر قبلا
وجود دارد ، cmbuild با خطا خارج می شود
-o خروجی خلاصه را به فایل هدایت کنید ، به جای آن stdout.
-O پس از ساخت هر مدل، ترازهای منبع مشروح شده را مجدداً در یک فایل ذخیره کنید
در قالب استکهلم توالی ها با وزن توالی نسبی حاشیه نویسی می شوند
اختصاص داده شدند. ترازها نیز با یک خط حاشیه نویسی مرجع حاشیه نویسی می شوند
نشان می دهد که کدام ستون ها به عنوان اجماع اختصاص داده شده اند. اگر همسویی منبع داشت
حاشیه نویسی مرجع ("#=GC RF") با اجماع باقی مانده جایگزین می شود
مدل برای ستون های اجماع و '.' برای درج ستون ها، مگر اینکه -- دست
از گزینه برای تعیین مواضع اجماع استفاده شد که در این صورت خواهد بود
بدون تغییر
-- devhelp راهنمای چاپ، مانند -h , اما گزینه های تخصصی را نیز شامل می شود که چنین نیستند
نمایش داده شده با -h . انتظار نمی رود که این گزینه های متخصص برای این موضوع مرتبط باشند
اکثریت قریب به اتفاق کاربران و بنابراین در صفحه راهنما توضیح داده نشده است. تنها
منابع برای درک آنچه که آنها واقعاً انجام می دهند، مختصر یک خطی هستند
توضیحات خروجی زمانی که -- devhelp فعال است و کد منبع
OPTIONS کنترل MODEL ساخت و ساز
این گزینه ها نحوه تعریف ستون های اجماع در یک تراز را کنترل می کنند.
--سریع ستون های اجماع را به طور خودکار به عنوان ستون هایی که دارای کسری >= هستند تعریف کنید symfrac of
باقی مانده ها در مقابل شکاف ها. (برای مشاهده به زیر مراجعه کنید --symfrac گزینه.) این است
به طور پیش فرض
-- دست برای تعیین اینکه کدام یک از حاشیه نویسی مختصات مرجع (#=خط GC RF، در استکهلم) استفاده کنید
ستون ها اجماع هستند و درج شده اند. هر کاراکتر بدون شکاف نشان دهنده a است
ستون اجماع (به عنوان مثال، ستون های اجماع را با "x" علامت گذاری کنید و ستون ها را درج کنید
با ".".) این گزینه فراخوانی شد --RF در نسخه های قبلی Infernal (0.1
از طریق 1.0.2).
--symfrac
آستانه کسری باقیمانده را که برای تعریف ستون اجماع لازم است تعریف کنید
استفاده نکردن -- دست. پیش فرض 0.5 است. کسر نماد در هر ستون است
پس از در نظر گرفتن وزن توالی نسبی محاسبه می شود. تنظیم این به
0.0 به این معنی است که هر ستون تراز به عنوان اجماع اختصاص داده می شود، که ممکن است باشد
در برخی موارد مفید است. تنظیم آن روی 1.0 به این معنی است که فقط ستون هایی که 0 شکاف دارند
به عنوان اجماع تعیین خواهد شد. این گزینه جایگزین --gapthresh انتخاب
از نسخه های قبلی Infernal (0.1 تا 1.0.2)، با برابر با (1.0 -
). به عنوان مثال برای بازتولید رفتار برای یک فرمان از cmbuild --gapthresh 0.8
در نسخه قبلی استفاده کنید cmbuild --symfrac 0.2 با این نسخه
-- Noss از حاشیه نویسی ساختار ثانویه، در صورت وجود، در و یک CM با
جفت پایه صفر این مدل شبیه HMM و پروفایل خواهد بود cmsearch و
cmscan برنامه ها از الگوریتم های HMM که سریعتر از CM هستند برای این کار استفاده خواهند کرد
مدل. علاوه بر این، یک مدل جفت پایه صفر نیازی به کالیبره شدن ندارد cm کالیبره کنید
قبل از دویدن cmsearch با آن. -- Noss در صورت عدم وجود گزینه باید استفاده شود
حاشیه نویسی ساختار ثانویه در .
--تحقیق
با استفاده از ماتریس RIBOSUM موجود در فایل، انتشار پارامتر پارامتری کردن امتیاز یک تحقیق است .
با --تحقیق فعال، همه ترازها در باید دقیقاً شامل یکی باشد
دنباله یا --صدا زدن گزینه نیز باید فعال باشد. همه موقعیت ها در هر دنباله
"ستون های" اجماع در نظر گرفته خواهد شد. در واقع، امتیاز انتشار برای اینها
به دلیل تفاوت در مدل سازی، مدل ها با امتیازات RIBOSUM یکسان نخواهند بود
استراتژی بین Infernal و RSEARCH، اما تا حد امکان مشابه خواهند بود.
فایل های ماتریس RIBOSUM با Infernal در زیر شاخه "matrices/" گنجانده شده است
دایرکتوری سطح بالا "infernal-xxx". ماتریس های RIBOSUM امتیاز جایگزینی هستند
ماتریس هایی که به طور خاص برای RNA های ساختاری با تک رشته مجزا آموزش داده شده اند
نمرات جایگزینی باقیمانده و جفت پایه. برای اطلاعات بیشتر به تحقیق مراجعه کنید
انتشار (کلین و ادی، BMC Bioinformatics 4:44، 2003).
OTHER MODEL ساخت و ساز OPTIONS
--خالی
یک مدل نول را بخوانید . مدل تهی احتمال هر RNA را تعریف می کند
نوکلئوتید در توالی پس زمینه، پیش فرض استفاده از 0.25 برای هر نوکلئوتید است.
فرمت فایل های پوچ در راهنمای کاربر مشخص شده است.
--قبلی
یک دیریکله را قبل از آن بخوانید ، جایگزینی مخلوط پیش فرض دیریکله. را
فرمت فایل های قبلی در راهنمای کاربر مشخص شده است.
استفاده کنید -- devhelp برای مشاهده گزینه های ساخت و ساز مدل اضافی، در غیر این صورت بدون سند.
OPTIONS کنترل نسبت فامیلی وزنها
cmbuild از یک الگوریتم وزن دهی توالی موقتی برای کاهش وزن نزدیک استفاده می کند
توالی ها و مواردی که با وزن بالا مرتبط هستند. این باعث می شود که مدل ها کمتر شوند
مغرضانه توسط نمایش فیلوژنتیکی ناهموار. به عنوان مثال، دو دنباله یکسان
معمولاً هر کدام نیمی از وزنی را که یک دنباله دریافت می کند دریافت می کند. این گزینه ها کنترل می کنند
از کدام الگوریتم استفاده می شود
--wpb از طرح وزن دهی توالی مبتنی بر موقعیت Henikoff استفاده کنید [Henikoff and Henikoff،
جی. مول. Biol. 243:574، 1994]. این پیش فرض است.
--wgsc از الگوریتم وزن دهی Gerstein/Sonnhammer/Chothia استفاده کنید [Gerstein et al, J. Mol.
Biol. 235:1067، 1994].
-- دارای
وزن توالی را خاموش کنید. به عنوان مثال، به صراحت تمام وزن های دنباله را روی 1.0 تنظیم کنید.
--wgiven
از وزن های توالی همانطور که در حاشیه نویسی در فایل تراز ورودی آورده شده است استفاده کنید. اگر نه
وزن داده شد، فرض کنید همه آنها 1.0 هستند. پیش فرض تعیین جدید است
وزنهای توالی توسط الگوریتم Gerstein/Sonnhammer/Chothia، با نادیده گرفتن هر کدام
اوزان مشروح
--wblosum
از الگوریتم فیلتر BLOSUM برای وزن دادن به دنباله ها، به جای پیش فرض استفاده کنید
وزن دهی GSC توالی ها را با یک درصد هویت معین خوشه بندی کنید (نگاه کنید به --wid)؛
به هر خوشه وزن کل 1.0 اختصاص دهید که به طور مساوی بین اعضا توزیع شده است
از آن خوشه
-- عریض
رفتار را کنترل می کند --wblosum گزینه وزن دهی با تنظیم درصد
هویت برای خوشه بندی تراز به .
OPTIONS کنترل تاثير گذار توالی عدد
پس از تعیین وزنهای نسبی، آنها نرمال میشوند تا مجموع آنها به مقدار مؤثر کل برسد
شماره ترتیب، eff_nseq. این عدد ممکن است تعداد واقعی دنباله ها در آن باشد
تراز، اما تقریبا همیشه کوچکتر از آن است. وزن آنتروپی پیش فرض
روش (--eent) برای کاهش محتوای اطلاعاتی، تعداد توالی موثر را کاهش می دهد
(آنتروپی نسبی، یا میانگین امتیاز مورد انتظار در همولوگ های واقعی) در هر موقعیت اجماع. را
آنتروپی نسبی هدف توسط یک تابع دو پارامتری کنترل می شود، که در آن دو
پارامترها قابل تنظیم هستند --اینجا و --اسیگما.
--eent از استراتژی وزن دهی آنتروپی برای تعیین عدد دنباله موثر استفاده کنید
آنتروپی نسبی میانگین حالت تطابق هدف را می دهد. این گزینه پیش فرض است و
را می توان با خاموش کرد -- انون. هدف پیشفرض میانگین وضعیت مطابقت نسبی
آنتروپی برای مدل هایی با حداقل 0.59 جفت پایه 1 بیت و برای مدل ها 0.38 بیت است.
با جفت پایه صفر، اما با تغییر --اینجا پیش فرض 0.59 یا 0.38 بیت است
اگر مجموع آنتروپی نسبی مدل (مطابقت جمع شده) به طور خودکار تغییر کند
آنتروپی نسبی حالت) کمتر از یک قطع است که به طور پیش فرض 6.0 بیت است، اما
بدون مدرک با کارشناس قابل تغییر است --سابق گزینه. اگر واقعاً می خواهید
با آن گزینه بازی کنید، به کد منبع مراجعه کنید.
-- انون
استراتژی وزن دهی آنتروپی را خاموش کنید. شماره دنباله موثر فقط همان است
تعداد دنباله ها در تراز
--اینجا
آنتروپی نسبی میانگین حالت تطابق هدف را به عنوان تنظیم کنید . به طور پیش فرض هدف
آنتروپی نسبی در هر موقعیت تطبیق برای مدل هایی با حداقل 0.59 1 بیت است
جفت پایه و 0.38 برای مدل های با جفت پایه صفر.
--eminseq
حداقل مجاز مجاز تعداد دنباله موثر را به عنوان تعریف کنید .
--همره
آنتروپی نسبی میانگین HMM هدف را به عنوان تنظیم کنید . آنتروپی برای
حالت های تطابق جفت پایه با استفاده از انتشار جفت پایه حاشیه ای محاسبه می شود
احتمالات
--eset
عدد دنباله موثر برای وزن دهی آنتروپی را به عنوان تنظیم کنید .
OPTIONS کنترل FILTER P7 HMM ساخت و ساز
برای هر CM که cmbuild ساختار، یک فیلتر همراه p7 HMM از ورودی ساخته شده است
همسویی نیز این گزینه ها ساختار فیلتر HMM را کنترل می کنند:
--p7ere
آنتروپی نسبی میانگین حالت تطابق هدف را برای فیلتر p7 HMM به عنوان تنظیم کنید . By
به طور پیش فرض آنتروپی نسبی هدف در هر موقعیت مسابقه 0.38 بیت است.
--p7ml از حداکثر احتمال p7 HMM ساخته شده از CM به عنوان فیلتر HMM استفاده کنید. این HMM خواهد شد
تا حد امکان شبیه CM باشید (در حالی که لزوماً از ثانویه بی اطلاع باشید
ساختار)
استفاده کنید -- devhelp برای مشاهده گزینههای ساخت HMM اضافی، در غیر این صورت بدون سند، فیلتر کنید.
OPTIONS کنترل FILTER P7 HMM تنظیم
پس از ساخت هر فیلتر HMM، cmbuild پارامترهای E-value مناسب را برای استفاده تعیین می کند
در حین فیلتر کردن cmsearch و cmscan با نمونه برداری از مجموعه ای از دنباله ها و جستجو در آنها
با هر پیکربندی و الگوریتم فیلتر HMM.
--EmN تعداد توالی های نمونه برداری شده را برای کالیبراسیون HMM فیلتر MSV محلی روی آن تنظیم کنید .
200 به صورت پیش فرض
--EvN تعداد توالی های نمونه برداری شده برای کالیبراسیون محلی فیلتر Viterbi HMM را روی آن تنظیم کنید
. 200 به صورت پیش فرض
--ElfN تعداد توالی های نمونه برداری شده را برای کالیبراسیون محلی فیلتر Forward HMM روی آن تنظیم کنید
. 200 به صورت پیش فرض
--EgfN تعداد توالیهای نمونهبرداری شده را برای کالیبراسیون HMM فیلتر glocal Forward تنظیم کنید
به . 200 به صورت پیش فرض
استفاده کنید -- devhelp برای مشاهده گزینه های کالیبراسیون HMM اضافی، در غیر این صورت غیر مستند، فیلتر کنید.
OPTIONS برای پالایش L' INPUT هم ترازی
--پالودن
سعی کنید تراز را قبل از ساختن CM با استفاده از انتظار- اصلاح کنید.
حداکثر سازی (EM). یک CM ابتدا طبق معمول از تراز اولیه ساخته می شود. سپس،
دنباله های موجود در تراز به طور بهینه تراز مجدد می شوند (با CYK باند HMM
الگوریتم، بهینه به معنای بهینه با توجه به باندها) به CM، و یک CM جدید ساخته شده است
از تراز به دست آمده سپس توالی ها با CM جدید تراز می شوند و a
CM جدید از آن تراز ساخته شده است. این تا زمان همگرایی ادامه دارد،
به طور خاص زمانی که ترازهای دو تکرار متوالی وجود ندارد
به طور قابل توجهی متفاوت است (امتیازات بیت مجموع همه دنباله ها در
تراز کمتر از 1% بین دو تکرار متوالی تغییر می کند). آخرین
alignment (تراز مورد استفاده برای ساخت CM که روی آن نوشته می شود ) is
نوشته شده به .
-l با --پالودن، الگوریتم تراز محلی را روشن کنید، که به تراز کردن اجازه می دهد
در صورت لزوم دو یا چند دنباله فرعی را در بر می گیرد (مثلاً اگر ساختارهای پرس و جو
مدل و دنباله هدف فقط تا حدی به اشتراک گذاشته شده است)، اجازه می دهد تا برخی از بزرگ
درج و حذف در ساختار متفاوت از حالت عادی جریمه می شود
ایندلز پیش فرض این است که مدل پرس و جو را به صورت سراسری با دنباله های هدف تراز کنید.
--گیبس
رفتار را اصلاح می کند --پالودن بنابراین از نمونه گیری گیبس به جای EM استفاده می شود. در
تفاوت این است که در طول مرحله هم ترازی لزوماً تراز نیست
بهینه، در عوض یک تراز (parsetree) برای هر دنباله از آن نمونه برداری می شود
توزیع خلفی ترازها همانطور که توسط الگوریتم Inside تعیین می شود. به واسطه
این مرحله نمونه برداری --گیبس غیر قطعی است، بنابراین متفاوت با همان اجرا می شود
هم ترازی ممکن است نتایج متفاوتی به همراه داشته باشد. این درست نیست وقتی --پالودن استفاده شده است
بدون --گیبس گزینه، در این صورت تراز نهایی و CM همیشه خواهد بود
همان چه زمانی --گیبس فعال شده است ، -- دانه گزینه را می توان برای بذر استفاده کرد
مولد اعداد تصادفی قابل پیش بینی است که نتایج را قابل تکرار می کند. هدف از
la --گیبس گزینه کمک به متصدیان متخصص در تراز RNA است که ساختار را اصلاح کنند
ترازها با اجازه دادن به آنها برای مشاهده ترازهای جایگزین با امتیاز بالا.
-- دانه
مولد اعداد تصادفی را با ، یک عدد صحیح >= 0. این گزینه فقط می تواند
در ترکیب با استفاده شود --گیبس. If غیر صفر است، نمونه برداری تصادفی از
ترازها قابل تکرار خواهند بود. همین دستور همان نتایج را خواهد داد. اگر
0 است، مولد اعداد تصادفی به صورت دلخواه و تصادفی بذر می شود
نمونهبرداریها ممکن است از اجرای یک فرمان متفاوت باشد. دانه پیش فرض 0 است.
-- cyk با --پالودن، با الگوریتم CYK تراز کنید. به طور پیش فرض دقت مطلوب
الگوریتم استفاده می شود. اطلاعات بیشتری در این مورد در هماهنگ کردن صفحه دستی
--notrunc
با --پالودن، الگوریتم تراز کوتاه شده را خاموش کنید. باز هم هست
اطلاعات در این مورد در هماهنگ کردن صفحه دستی
استفاده کنید -- devhelp برای مشاهده گزینه های اصلاح تراز اضافی، در غیر این صورت غیر مستند، به عنوان
همچنین سایر گزینه ها و گزینه های فایل خروجی برای ساخت چندین مدل برای یک واحد
هم ترازی.
با استفاده از خدمات onworks.net از cmbuild آنلاین استفاده کنید