این دستور nhmmer است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.
برنامه:
نام
nhmmer - جستجوی پرس و جوهای DNA/RNA در برابر پایگاه داده توالی DNA/RNA
خلاصه
nhmmer [گزینه ها]
شرح
nhmmer برای جستجوی یک یا چند عبارت نوکلئوتیدی در برابر یک توالی نوکلئوتیدی استفاده می شود
پایگاه داده برای هر پرس و جو در ، از آن پرس و جو برای جستجو در پایگاه داده هدف استفاده کنید
توالی در ، و یک لیست رتبه بندی شده از بازدیدهایی که بیشترین بازدیدها را دارند، خروجی بگیرید
با پرس و جو مطابقت دارد. یک پرس و جو ممکن است یک مدل نمایه باشد که با استفاده از آن ساخته شده است hmmbuild، یک
تراز توالی یا یک توالی منفرد. پرس و جوهای مبتنی بر توالی می تواند در تعدادی باشد
فرمت ها (نگاه کنید به --qformat، و معمولاً می تواند به طور خودکار شناسایی شود. توجه داشته باشید که فقط استکهلم
فرمت از پرس و جوهای ساخته شده از بیش از یک ترتیب توالی پشتیبانی می کند.
یا پرس و جو یا هدف ممکن است '-' (یک کاراکتر خط تیره)، که در آن
در صورتی که فایل پرس و جو یا ورودی پایگاه داده هدف از a خوانده شود لوله به جای
از یک فایل فقط یک منبع ورودی می تواند وارد شود ، نه هر دو اگر پرس و جو است
مبتنی بر توالی و از طریق ، --qformat پرچم باید استفاده شود اگر
پس شامل بیش از یک پرس و جو است نمی تواند از ، زیرا
ما نمی توانیم پایگاه داده هدف جریان را به عقب برگردانیم تا آن را با نمایه دیگری جستجو کنیم.
اگر کوئری مبتنی بر توالی باشد و نه از ، یک فایل جدید حاوی HMM(ها)
ساخته شده از ورودی(های) در ممکن است به صورت اختیاری با مجموعه نام فایل تولید شود
با استفاده از -- هوموت پرچم.
فرمت خروجی طوری طراحی شده است که برای انسان قابل خواندن باشد، اما اغلب آنقدر حجیم است که
خواندن آن غیر عملی است و تجزیه آن دردناک است. در -- tblout گزینه خروجی را در a ذخیره می کند
قالب جدولی ساده که مختصر و آسان تر تجزیه می شود. در -o گزینه اجازه می دهد
تغییر مسیر خروجی اصلی، از جمله دور انداختن آن در /dev/null.
OPTIONS
-h کمک؛ یک یادآوری مختصر از استفاده از خط فرمان و همه گزینه های موجود چاپ کنید.
OPTIONS برای کنترل OUTPUT
-o خروجی اصلی قابل خواندن توسط انسان را به یک فایل هدایت کنید به جای stdout پیش فرض.
-A یک تراز چندگانه از همه بازدیدهای مهم (آنهایی که رضایت بخش هستند را ذخیره کنید گنجاندن
آستانه ها) به فایل .
-- tblout
یک فایل جدولی ساده (محدود شده با فضا) که خروجی هر هدف را خلاصه می کند، ذخیره کنید.
با یک خط داده در هر دنباله هدف همولوگ پیدا شده است.
--dfamtblout
ذخیره یک فایل جدولی (محدود شده با فاصله) که خروجی هر ضربه را خلاصه می کند، مشابه
-- tblout اما مختصرتر
--aliscoresout
ذخیره کنید تا فهرستی از امتیازات هر موقعیت برای هر ضربه ثبت شود. این مفید است، برای
به عنوان مثال، در شناسایی مناطق با تراکم امتیاز بالا برای استفاده در حل
بازدیدهای همپوشانی از مدل های مختلف
-- هوموت
اگر مبتنی بر توالی است، HMM(های) محاسبه شده داخلی را در آن بنویسید .
-- حساب در خروجی اصلی که برای نمایهها موجود است، به جای نامها از پیوستها استفاده کنید
و/یا دنباله ها
-- نوعلی
بخش تراز را از خروجی اصلی حذف کنید. این می تواند تا حد زیادی خروجی را کاهش دهد
جلد.
--notextw
طول هر خط را در خروجی اصلی نامحدود کنید. حد پیش فرض 120 است
کاراکتر در هر خط، که به نمایش خالص خروجی در پایانه ها کمک می کند و
در ویرایشگرها، اما می تواند خطوط توصیف نمایه هدف را کوتاه کند.
--textw
حد طول خط خروجی اصلی را روی آن تنظیم کنید کاراکتر در هر خط پیش فرض است
120.
OPTIONS کنترل گزارش نویسی فروشندگان
آستانه های گزارش گیری کنترل می کند که کدام ضربه در فایل های خروجی گزارش می شود (خروجی اصلی،
-- tbloutو --dfamtblout). بازدیدها بر اساس اهمیت آماری (ارزش E) رتبه بندی می شوند.
-E توالی های هدف را با مقدار E <= گزارش کنید . پیش فرض 10.0 است، به این معنی
که به طور متوسط حدود 10 مورد مثبت نادرست در هر پرس و جو گزارش می شود، بنابراین شما می توانید
قسمت بالای نویز را ببینید و خودتان تصمیم بگیرید که آیا واقعاً نویز است یا خیر.
-T به جای آستانه گذاری خروجی روی E-value، در عوض دنباله های هدف را با a گزارش دهید
بیت امتیاز >= .
OPTIONS برای نقص فروشندگان
آستانههای ورود سختتر از آستانههای گزارشدهی هستند. کنترل آستانه های ورود
کدام ضربه ها به اندازه کافی قابل اعتماد در نظر گرفته می شوند که در یک تراز خروجی گنجانده شوند یا a
دور جستجوی بعدی، یا علامتگذاری شده بهعنوان مهم ("!") به جای سوالانگیز ("?")
در خروجی ضربه
--incE
از یک ارزش الکترونیکی <= استفاده کنید به عنوان آستانه ورود پیش فرض 0.01 است، به این معنی
که به طور متوسط در هر 1 جستجو حدود 100 مثبت کاذب انتظار می رود
با توالی پرس و جوهای مختلف
--incT
به جای استفاده از E-values برای تنظیم آستانه ورود، از یک امتیاز بیت استفاده کنید.
>= به عنوان آستانه ورود به طور پیش فرض این گزینه تنظیم نشده است.
OPTIONS برای مدل خاص SCORE آستانه
پایگاه داده های نمایه انتخاب شده ممکن است آستانه امتیاز بیت خاصی را برای هر نمایه تعریف کنند.
جایگزینی هر آستانه ای که تنها بر اساس اهمیت آماری است.
برای استفاده از این گزینهها، نمایه باید حاوی موارد مناسب (GA، TC و/یا NC) باشد.
حاشیه نویسی آستانه امتیاز اختیاری. این توسط برداشت شده است hmmbuild از فرمت استکهلم
فایل های تراز برای یک مدل نوکلئوتیدی، هر گزینه آستانهای یک عدد در هر ضربه دارد
آستانه این طوری عمل می کند که انگار -T --incT به طور خاص با استفاده از هر کدام اعمال شده است
آستانه های انتخاب شده مدل
--cut_ga
از آستانه امتیاز بیت GA (جمع آوری) در مدل برای تنظیم گزارش هر ضربه استفاده کنید
و آستانه های ورود آستانه های GA عموماً قابل اعتماد در نظر گرفته می شوند
آستانه انتخاب شده که عضویت خانواده را تعریف می کند. به عنوان مثال، در Dfam، اینها
آستانه ها هنگام حاشیه نویسی یک ژنوم با مدلی از خانواده شناخته شده به کار می روند
در آن ارگانیسم یافت می شود. آنها ممکن است امکان حداقل کشف نادرست مورد انتظار را فراهم کنند
نرخ.
--cut_nc
از آستانه امتیاز بیت NC (برش نویز) در مدل برای تنظیم گزارش هر ضربه استفاده کنید.
و آستانه های ورود آستانه های NC کمتر از GA هستند. در زمینه
از Pfam، معمولاً برای ذخیره امتیاز بالاترین امتیاز شناخته شده استفاده می شود
مثبت کاذب.
--cut_tc
از آستانه امتیاز بیت NC (برش مطمئن) در مدل برای تنظیم هر ضربه استفاده کنید
آستانه های گزارش دهی و ورود آستانه های TC دقیق تر از GA هستند، و
به طور کلی به عنوان امتیاز کمترین امتیاز مثبت شناخته شده شناخته می شوند
که بالاتر از همه موارد مثبت کاذب شناخته شده است. برای مثال، در Dfam، این آستانه ها هستند
هنگام حاشیه نویسی یک ژنوم با مدلی از خانواده ای که در آن یافت نمی شود استفاده می شود
آن ارگانیسم
OPTIONS کنترل L' شتاب خط لوله
جستجوهای HMMER3 در یک خط لوله فیلتر سه مرحلهای تسریع میشوند: فیلتر scanning-SSV،
فیلتر Viterbi و فیلتر Forward. اولین فیلتر سریعترین و بهترین است
تقریبی؛ آخرین الگوریتم امتیازدهی کامل Forward است. یک فیلتر بایاس نیز وجود دارد
گام بین SSV و Viterbi. اهدافی که تمام مراحل خط لوله شتاب را پشت سر می گذارند
سپس در معرض پس پردازش -- شناسایی دامنه و امتیازدهی با استفاده از
الگوریتم Forward/Backward.
تغییر آستانه فیلتر فقط اهداف را حذف می کند یا شامل آن می شود. تغییر می کند
آستانه فیلتر امتیازهای بیت، مقادیر E یا ترازها را تغییر نمی دهد، که همه اینها هستند.
صرفاً در پس پردازش تعیین می شود.
-- حداکثر (تقریباً) همه فیلترها، از جمله فیلتر بایاس را خاموش کنید و کامل اجرا کنید
پس پردازش رو به جلو/عقب در بیشتر توالی هدف. در مقابل
phmmer و hmmsearch، جایی که این پرچم واقعاً فیلترها را به طور کامل خاموش می کند،
la -- حداکثر پرچم در nhmmer آستانه فیلتر scanning-SSV را روی 0.4 تنظیم می کند، نه 1.0.
استفاده از این پرچم حساسیت را تا حدودی افزایش می دهد و هزینه زیادی در سرعت دارد.
--F1
آستانه P-value را برای مرحله فیلتر SSV تنظیم کنید. پیش فرض 0.02 است، به این معنی
انتظار می رود که تقریباً 2٪ از اهداف غیر همسان با بالاترین امتیاز عبور کنند
فیلتر
--F2
آستانه P-value را برای مرحله فیلتر Viterbi تنظیم کنید. پیش فرض 0.001 است.
--F3
آستانه P-value را برای مرحله فیلتر Forward تنظیم کنید. پیش فرض 1e-5 است.
--نوبیاس
فیلتر بایاس را خاموش کنید. این حساسیت را تا حدودی افزایش میدهد، اما میتواند اتفاق بیفتد
هزینه بالا در سرعت، به خصوص اگر پرس و جو دارای ترکیب باقیمانده مغرضانه باشد (مانند
یک ناحیه توالی تکراری، یا اگر یک پروتئین غشایی با نواحی بزرگ باشد
آب گریزی). بدون فیلتر بایاس، تعداد زیادی توالی ممکن است از فیلتر عبور کنند
با پرس و جوهای جانبدارانه، که منجر به عملکرد کندتر از حد انتظار می شود
الگوریتم های محاسباتی فشرده Forward/Backward به طور غیر عادی سنگین هستند
بارگذاری.
OPTIONS برای مشخص کردن L' الفبای
نوع حروف الفبای پایگاه داده هدف (DNA یا RNA) به طور پیشفرض توسط شناسایی خودکار انجام میشود
نگاهی به ترکیب . تشخیص خودکار معمولاً کاملاً قابل اعتماد است، اما
گاهی اوقات نوع الفبا ممکن است مبهم باشد و تشخیص خودکار ممکن است با شکست مواجه شود (مثلاً وقتی
سکانس اول با مجموعه ای از شخصیت های مبهم شروع می شود). برای جلوگیری از این، یا به
افزایش استحکام در خطوط لوله تجزیه و تحلیل خودکار، ممکن است نوع الفبای آن را مشخص کنید
با این گزینه ها
--dna مشخص کنید که تمام دنباله ها در DNA هستند.
-- rna مشخص کنید که تمام دنباله ها در RNA هستند.
OPTIONS کنترل SEED جستجو ابتکاری
هنگام جستجو با nhmmer، می توان به صورت اختیاری یک نسخه باینری هدف را از پیش محاسبه کرد
پایگاه داده، با استفاده از makehmmerdb، سپس در آن پایگاه داده جستجو کنید. با استفاده از تنظیمات پیش فرض،
این یک شتاب تقریباً 10 برابری با کاهش کمی حساسیت در معیارها ایجاد می کند.
این با استفاده از یک روش اکتشافی که دانهها را جستجو میکند (ترازهای بدون شکاف) به دست میآید.
که در اطراف آن پردازش کامل انجام می شود. این در اصل جایگزینی برای مرحله SSV است.
(این روش به طور گسترده آزمایش شده است، اما هنوز هم باید تا حدودی با آن برخورد کرد
تجربی.) گزینه های زیر فقط تاثیر می گذارند nhmmer اگر ارزش - فرمت is
hmmerdb.
تغییر پارامترها برای این مرحله بذریابی بر سرعت و حساسیت تأثیر می گذارد -
به طور معمول جستجوی سریعتر منجر به حساسیت کمتر می شود.
--seed_max_depth
مرحله seed مستلزم آن است که یک دانه دیگر به یک امتیاز بیت مشخص در طول نرسد
نسبت به . بهطور پیشفرض، این مقدار 15 است. دانههای طولانیتر شانس بیشتری را برای این امکان فراهم میکنند
رسیدن به آستانه امتیاز بیت، منجر به کاهش فیلتر (بیشتر
حساسیت، زمان اجرای کندتر).
--seed_sc_thresh
دانه باید به امتیاز برسد (در بیت). پیش فرض 15.0 بیت است. یک بالاتر
آستانه سختی فیلتر را افزایش می دهد و منجر به زمان اجرای سریعتر و کاهش می شود
حساسیت
--seed_sc_density
همه پیشوندها یا تمام پسوندهای یک دانه باید چگالی بیت داشته باشند (بیت در هر
موقعیت هم تراز) حداقل . پیش فرض 0.8 بیت/موقعیت است. افزایش
در چگالی مورد نیاز منجر به افزایش سختی فیلتر و در نتیجه اجرای سریعتر می شود
بار و حساسیت کمتر.
--seed_drop_max_len
یک دانه ممکن است طولی نداشته باشد که در آن امتیاز کاهش می یابد --seed_drop_lim
یا بیشتر. اساساً، این آلو دانه هایی را که از دانه های طولانی کمی منفی عبور می کنند، می کند
پسوندها پیش فرض 4 است. افزایش حد باعث کاهش (کمی) می شود
راندمان فیلتر کردن، بنابراین زمان اجرای کندتر و حساسیت بالاتر. (تنظیم جزئی
گزینه)
--seed_drop_lim
در یک دانه، ممکن است طولی وجود نداشته باشد --seed_drop_max_len که در آن نمره
سقوط می کند --seed_drop_lim. پیش فرض 0.3 بیت است. اعداد بزرگتر به معنای کمتر است
فیلتر کردن (گزینه تنظیم جزئی)
--seed_req_pos
یک دانه باید حداقل شامل یک دوره باشد مسابقات با امتیاز مثبت پیش فرض است
5. مقادیر بزرگتر به معنای افزایش فیلتر است. (گزینه تنظیم جزئی)
--seed_ssv_length
پس از یافتن یک دانه کوتاه، یک تراز بدون شکاف در هر دو جهت به داخل کشیده می شود
تلاش برای دیدار با --F1 آستانه امتیاز پنجره ای که از آن شکاف باز می شود
تراز گسترش طول است . پیش فرض 70 است. این مقدار را کاهش دهید
زمان اجرا را کمی کاهش می دهد، با خطر کوچک کاهش حساسیت. (تنظیم جزئی
گزینه)
OTHER OPTIONS
- فرمت
ادعا کنید که فایل پایگاه داده دنباله هدف در قالب است . فرمت های پذیرفته شده
شامل سریع, امبل, جنبانک, ddbj, uniprot, استکهلم, pfam, a2m, AFAو
hmmerfm. پیش فرض تشخیص خودکار فرمت فایل است. قالب hmmerfm
نشان می دهد که فایل پایگاه داده یک فایل باینری است که با استفاده از آن تولید شده است makehmmerdb (این
قالب در حال حاضر به صورت خودکار شناسایی نمی شود).
--qformat
اعلام کنید که ورودی در قالب است . این در هنگام پرس و جو استفاده می شود
به جای اینکه از مدل(های) نمایه تشکیل شده باشد، مبتنی بر توالی است. در حال حاضر پذیرفته شده است
فرمت های فایل دنباله تراز چندگانه شامل Stockholm، Aligned FASTA، Clustal،
NCBI PSI-BLAST، PHYLIP، Selex، و UCSC SAM A2M. پیش فرض تشخیص خودکار است
فرمت فایل
--nonull2
تصحیح های نمره null2 را برای ترکیب مغرضانه خاموش کنید.
-Z برای مقاصد هر ضربه محاسبات ارزش E، ادعا کنید که اندازه کل
پایگاه داده هدف است میلیون نوکلئوتید، به جای تعداد واقعی
اهداف دیده شده
-- دانه
دانه اعداد تصادفی را روی . برخی از مراحل در پس پردازش به Monte نیاز دارند
شبیه سازی کارلو پیش فرض این است که از یک دانه ثابت (42) استفاده کنید، به طوری که نتایج به دست می آید
دقیقا قابل تکرار هر عدد صحیح مثبت دیگری متفاوت خواهد بود (اما همچنین
قابل تکرار) نتایج انتخاب 0 از یک دانه به طور تصادفی انتخاب شده استفاده می کند.
--w_beta
جرم دم طول پنجره. کران بالا، W، در طولی که nhmmer انتظار دارد
برای یافتن یک نمونه از مدل به گونه ای تنظیم می شود که کسری از تمام دنباله ها
تولید شده توسط مدل با طول >= W کمتر است از . پیش فرض 1e-7 است.
این پرچم ممکن است برای نادیده گرفتن مقدار استفاده شود W برای مدل توسط
hmmbuild، یا زمانی که پرس و جو مبتنی بر توالی است.
--w_length
خط بالای طول نمونه مدل را نادیده بگیرید، W، که در غیر این صورت توسط کنترل می شود
--w_beta. باید بزرگتر از طول مدل باشد. ارزش W عمیق استفاده می شود
در خط لوله شتاب، و انتظار نمی رود تغییرات ملایم بر نتایج تأثیر بگذارد
(اگرچه مقادیر بزرگتر از W منجر به زمان اجرا طولانی تر). ممکن است از این پرچم استفاده شود
نادیده گرفتن ارزش W برای مدل توسط hmmbuild، یا زمانی که پرس و جو است
مبتنی بر توالی
--toponly
فقط رشته بالایی را جستجو کنید. به طور پیش فرض هم دنباله پرس و جو و هم معکوس آن
مکمل جستجو می شود.
-- به صورت پایین
فقط رشته پایین (مکمل معکوس) را جستجو کنید. به طور پیش فرض هر دو پرس و جو
دنباله و مکمل معکوس آن جستجو می شود.
--cpu
تعداد نخ های کارگر موازی را بر روی تنظیم کنید . بهطور پیشفرض، HMMER این را روی آن تنظیم میکند
تعداد هسته های CPU که در دستگاه شما شناسایی می کند - یعنی سعی می کند حداکثر کند
استفاده از هسته های پردازنده موجود شما تنظیمات بالاتر از تعداد
هسته های موجود ارزش کمی دارند، اما ممکن است بخواهید آن را روی چیزی تنظیم کنید
کمتر شما همچنین می توانید این عدد را با تنظیم یک متغیر محیطی کنترل کنید.
HMMER_NCPU.
این گزینه فقط در صورتی در دسترس است که HMMER با پشتیبانی از رشته های POSIX کامپایل شده باشد.
این پیش فرض است، اما ممکن است در زمان کامپایل برای سایت شما خاموش شده باشد
یا ماشین به دلایلی
-- غرفه
برای اشکال زدایی نسخه اصلی/کارگر MPI: پس از شروع مکث کنید تا فعال شود
توسعه دهنده برای پیوست کردن دیباگرها به فرآیندهای اصلی و کارگر(های) در حال اجرا. ارسال
سیگنال SIGCONT برای آزاد کردن مکث. (تحت gdb: (gdb) سیگنال NEXTCONT) (فقط
اگر پشتیبانی اختیاری MPI در زمان کامپایل فعال شده باشد، در دسترس است.)
--mpi با استفاده از حالت MPI master/worker اجرا شود mpirun. (فقط در صورت اختیاری MPI موجود است
پشتیبانی در زمان کامپایل فعال شد.)
با استفاده از خدمات onworks.net از nhmmer آنلاین استفاده کنید