Це команда cmscan, яку можна запустити в безкоштовному хостинг-провайдері OnWorks за допомогою однієї з наших безкоштовних онлайн-робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
cmscan - послідовність(и) пошуку в базі даних моделі коваріації
СИНТАКСИС
cmscan [параметри]
ОПИС
cmscan використовується для пошуку послідовностей щодо колекцій коваріаційних моделей. Для кожного
послідовність в , використовуйте цю послідовність запитів для пошуку цільової бази даних CM
, і вивести ранжовані списки CM з найбільш значущими збігами з
послідовність.
Команда може містити більше однієї послідовності запитів. Це може бути у форматі FASTA або
кілька інших поширених форматів файлів послідовності (genbank, embl тощо) або в
формати файлів вирівнювання (stockholm, aligned fasta та інші). Див --qformat варіант
для повного списку.
Команда потрібно натиснути за допомогою cmpress перш ніж його можна буде шукати cmscan. це
створює чотири двійкові файли з суфіксом .i1{fimp}. Крім того, мабуть було
відкалібрований для значень E з cmкалібрувати перед натисканням cmpress.
Запит може бути '-' (символ тире), у цьому випадку послідовності запиту є
читати з а pipe замість файлу. The не можна прочитати з a
потік, тому що він повинен мати ці чотири допоміжні бінарні файли, згенеровані cmpress.
Формат виводу розроблений так, щоб його можна було читати людиною, але часто настільки об’ємний, що
читати його недоцільно, а розбирати це боляче. The --tblout Опція зберігає вихід у a
простий табличний формат, який є стислим і легшим для розбору. The -o Опція дозволяє
перенаправлення основного виводу, включаючи його викидання в /dev/null.
cmscan повторно досліджує 5' і 3' кінці цільових послідовностей за допомогою спеціалізованих алгоритмів
для виявлення усічений хітів, у яких частина 5' та/або 3' кінця фактичного повного
довжина гомологічної послідовності відсутня у файлі цільової послідовності. Такі види хітів
буде найпоширенішим у файлах послідовності, що складаються з не зібраних читань послідовності. За
за замовчуванням, будь-яке скорочене звернення на 5' має включати перший залишок цілі
послідовність, з якої вона походить в , і будь-яке скорочене звернення 3' має включати
кінцевий залишок цільової послідовності, з якої він походить. Будь-яке скорочене звернення 5' і 3' обов'язково
включають перший і кінцевий залишок цільової послідовності, з якої він походить. The --anytrunc
Опція послабить вимоги до включення звернення кінцевих точок послідовності та скорочено
удари можуть починатися і зупинятися в будь-яких позиціях цільових послідовностей. Важливо
хоча, з --anytrunc, ударні E-значення будуть менш точними, оскільки калібрування моделі так
не враховуйте можливість усічених звернень, тому використовуйте його з обережністю. The --notrunc
параметр можна використовувати, щоб вимкнути виявлення усіченого звернення. --notrunc зменшить біг
час cmscan, найбільш важливо для цілі файли, які містять багато коротких
послідовності. Виявлення скороченого звернення автоматично вимикається, коли --макс, --нохм,
--qdb, or --безсмуговий параметри використовуються, тому що він покладається на використання прискореного HMM
стратегія смугового вирівнювання, яку вимикає будь-який із цих параметрів.
ВАРІАНТИ
-h Допомога; надрукувати коротке нагадування про використання командного рядка та всі доступні параметри.
-g Увімкніть глокальний алгоритм вирівнювання, глобальний по відношенню до моделі запиту і
локальний щодо цільової бази даних. За замовчуванням локальне вирівнювання
використовується локальний алгоритм щодо цільової послідовності та
модель. У локальному режимі вирівнювання для охоплення двох або більше підпослідовностей, якщо необхідно
(наприклад, якщо структури моделі запиту та цільової послідовності лише частково
загальний доступ), що дозволяє виконувати певні великі вставки та видалення в структурі
штрафуються інакше, ніж звичайні індели. Місцевий режим краще працює на емпіричному
контрольні показники і значно більш чутливий для віддаленого виявлення гомології.
Емпірично, глокальний пошук повертає набагато менше звернень, ніж локальний пошук, тому glocal
може знадобитися для деяких програм.
-Z Обчислюйте E-значення так, ніби розмір простору пошуку був мегабази (Мб). Без
використання цього параметра розмір простору пошуку змінюється для кожної послідовності запиту
визначається як довжина поточної послідовності запиту, помножена на 2 (оскільки обидва ланцюги
послідовності буде шукано) помножити на кількість CM в .
--допомога розробки
Роздрукувати довідку, як і с -h , але також включають параметри експертів, які не відображаються
з -h . Очікується, що ці варіанти експертів не будуть актуальними для широкої аудиторії
більшість користувачів і тому не описані на сторінці посібника. Єдині ресурси
для розуміння того, що вони насправді роблять, виводяться короткі однорядкові описи
коли --допомога розробки увімкнено, а вихідний код.
ВАРІАНТИ ДЛЯ КОНТРОЛЬ ВИХІД
-o Спрямуйте основний читабельний вихід у файл замість стандартного стандартного виведення.
--tblout
Збережіть простий табличний (розділений пробілами) файл із підсумком знайдених звернень, з одним
рядок даних на звернення. Формат цього файлу описаний в користувачеві Infernal
путівник
--згідно Використовуйте приєднання замість імен у головному виводі, якщо доступно для профілів
та/або послідовності.
--ноалі
Пропустіть розділ вирівнювання з основного виводу. Це може значно знизити вихід
обсяг.
--notextw
Не обмежуйте довжину кожного рядка в основному виводі. За замовчуванням встановлено обмеження в 120
символів на рядок, що допомагає чітко відображати результат на терміналах і
у редакторах, але може обрізати рядки опису цільового профілю.
--textw
Встановіть обмеження довжини рядка основного виводу на символів на рядок. За замовчуванням є
120.
-багатослівний
Включіть додаткову статистику конвеєру пошуку в основний вихід, включаючи фільтр
статистика виживання для виявлення усічених звернень і кількість відкинутих конвертів
через переповнення розміру матриці.
ВАРІАНТИ КОНТРОЛЬ ЗВІТНІСТЬ ПОРОГИ
Пороги звітування контролюють, які звернення повідомляються у вихідних файлах (основний вихід і
--tblout) Звернення ранжуються за статистичною значущістю (E-value). За замовчуванням усі звернення
зі значенням E <= 10. Наступні параметри дозволяють змінити значення за замовчуванням
Порогові значення звітності E-value або замість них використовувати пороги оцінки бітів.
-E У вихідних даних для кожної цілі звітуйте про цільові послідовності зі значенням E <= . Команда
за замовчуванням 10.0, що означає, що в середньому буде зареєстровано близько 10 помилкових спрацьовувань
за запит, щоб ви могли побачити верхню частину шуму та вирішити для себе, чи це так
справді шум.
-T Замість того, щоб встановлювати порогове значення вихідного значення на CM для E-значення, звітуйте про цільові послідовності з a
бітовий бал >= .
ВАРІАНТИ ДЛЯ ВКЛЮЧЕННЯ ПОРОГИ
Пороги включення суворіші, ніж пороги звітності. Контроль порогів включення
які звернення вважаються достатньо надійними, щоб їх включити до можливого наступного
раунд пошуку або позначені як значущі ("!") на відміну від сумнівних ("?") у попаданні
вихід.
--incE
Використовуйте E-значення <= як поріг включення звернення. За замовчуванням 0.01,
це означає, що в середньому на кожні 1 можна очікувати приблизно 100 хибнопозитивний результат
пошук з різними послідовностями запитів.
--incT
Замість використання E-значень для встановлення порога включення, замість цього використовуйте біт
оцінка >= як поріг включення звернення. За замовчуванням цей параметр не встановлено.
ВАРІАНТИ ДЛЯ СПЕЦІАЛЬНА МОДЕЛЬ БЕЗКОШТОВНО ПОРІГ
Кураторські бази даних CM можуть визначати конкретні пороги оцінки бітів для кожного CM, замінюючи будь-які
порогове значення на основі лише статистичної значущості.
Щоб використовувати ці параметри, профіль повинен містити відповідні (GA, TC та/або NC)
додаткова анотація порогового значення балів; це підхоплено cmbuild зі Стокгольмського формату
файли вирівнювання. Кожен параметр порогового значення має оцінку біти, і діє ніби -T
--incT було застосовано спеціально, використовуючи обрані для кожної моделі пороги.
--cut_ga
Використовуйте оцінки бітів GA (збирання) у моделі, щоб налаштувати звіти про звернення та включення
пороги. Порогові значення GA зазвичай вважаються надійними кураторами
пороги, що визначають членство в сім'ї; наприклад, у Rfam ці пороги
визначте, що буде включено в повне вирівнювання Rfam на основі пошуку за допомогою Rfam Seed
моделі
--cut_nc
Використовуйте пороги оцінки бітів NC (обрізання шуму) у моделі, щоб налаштувати звіти про звернення
і пороги включення. Порогові значення NC зазвичай вважаються балами
найвищий відомий хибний позитивний результат.
--cut_tc
Використовуйте пороги оцінки бітів TC (довірене відсічення) у моделі, щоб налаштувати звіти про звернення
і пороги включення. Порогові значення TC, як правило, вважаються балами
найнижчий відомий справжній позитивний результат, який вище всіх відомих хибних позитивних результатів.
ВАРІАНТИ КОНТРОЛЬ THE АКСЕЛЕРАЦІЯ ТРУБОПРОВОД
Пошуки Infernal 1.1 прискорюються в шестиступінчастому конвеєрі фільтрів. Перші п'ять
етапи використовують профіль HMM для визначення конвертів, які передаються на етап XNUMX CM CYK
фільтр. Будь-яким конвертам, які витримують усі фільтри, призначаються остаточні оцінки за допомогою CM
Внутрішній алгоритм.
Профільний фільтр HMM створений cmbuild програму і зберігається в .
Кожен наступний фільтр повільніше попереднього, але кращий за нього
розрізнення між підпослідовностями, які можуть містити високоякісні звернення CM, і тими, які містять
ні. Перші три ступені фільтра HMM такі ж, як і в HMMER3. Етап 1 (F1)
локальний фільтр HMM SSV, модифікований для довгих послідовностей. Етап 2 (F2) є локальним HMM
Фільтр Вітербі. Етап 3 (F3) є локальним фільтром HMM Forward. Кожен із перших трьох
stages використовує профіль HMM в локальному режимі, що дозволяє вирівняти цільову підпослідовність
будь-який регіон HMM. Етап 4 (F4) — це глокальний фільтр HMM, для якого потрібна ціль
послідовність для вирівнювання до повнорозмірного профілю HMM. Етап 5 (F5) – це глокальний HMM
фільтр визначення конверта, який використовує еврситику ідентифікації домену HMMER3 для визначення
межі конверта. Після кожного етапу від 2 до 5 крок фільтра зміщення (F2b, F3b, F4b і
F5b) використовується для видалення послідовностей, які, здається, пройшли фільтр через упередження
сама композиція. Потім передаються будь-які конверти, які витримують етапи F1–F5b
локальний фільтр CM CYK. Фільтр CYK використовує обмеження (смуги), отримані від HMM
вирівнювання конверта для зменшення кількості необхідних обчислень і економії часу.
Будь-які конверти, які проходять CYK, оцінюються за допомогою локального алгоритму CM Inside, знову ж таки за допомогою HMM
смуги для прискорення.
Порогові значення фільтра за замовчуванням, які визначають мінімальний бал, необхідний для підпослідовності до
Виживання кожного етапу визначається на основі розміру простору пошуку (Z), який визначено
оскільки довжина поточної послідовності запиту помножена на 2 (оскільки обидва ланцюги будуть
пошук), помножений на кількість профілів у . Однак, якщо будь-який -Z or --ФЗ
використовуються параметри, то таким буде вважатися простір пошуку для цілей
визначення порогів фільтра.
Для більших баз даних фільтри суворіші, що призводить до більшого прискорення, але
потенційно більша втрата чутливості. Обґрунтування полягає в тому, що для більших баз даних,
звернення повинні мати вищі бали для досягнення статистичної значущості, тому суворіше фільтрування
що усуває незначні удари з нижчою оцінкою, прийнятно.
Порогові значення P для всіх можливих розмірів простору пошуку та всіх етапів фільтрації є
перераховані далі. (Поріг P-значення 0.01 означає, що приблизно 1% найвищого
Очікується, що негомологічна підпослідовність пройде фільтр.) Z визначається як число
нуклеотидів у повному файлі цільової послідовності в 2 рази, оскільки обидва ланцюга будуть
шукали з кожною моделлю.
Якщо Z менше 2 Мб: F1 дорівнює 0.35; F2 і F2b вимкнені; F3, F3b, F4, F4b і F5 становлять 0.02;
F6 дорівнює 0.0001.
Якщо Z становить від 2 Мб до 20 Мб: F1 дорівнює 0.35; F2 і F2b вимкнені; F3, F3b, F4, F4b і F5
становлять 0.005; F6 дорівнює 0.0001.
Якщо Z становить від 20 Мб до 200 Мб: F1 дорівнює 0.35; F2 і F2b – 0.15; F3, F3b, F4, F4b і F5
становлять 0.003; F6 дорівнює 0.0001.
Якщо Z становить від 200 Мб до 2 Гб: F1 дорівнює 0.15; F2 і F2b – 0.15; F3, F3b, F4, F4b, F5,
і F5b дорівнюють 0.0008; і F6 дорівнює 0.0001.
Якщо Z становить від 2 Гб до 20 Гб: F1 дорівнює 0.15; F2 і F2b – 0.15; F3, F3b, F4, F4b, F5 та
F5b – 0.0002; і F6 дорівнює 0.0001.
Якщо Z більше 20 Гб: F1 дорівнює 0.06; F2 і F2b – 0.02; F3, F3b, F4, F4b, F5 і F5b
становлять 0.0002; і F6 дорівнює 0.0001.
Ці порогові значення були обрані на основі ефективності внутрішнього тесту, який перевіряв багато
різні можливі налаштування.
Існує п’ять варіантів керування загальним рівнем фільтрації. Ці варіанти в
порядок від найменш суворого (найповільнішого, але найбільш чутливого) до найсуворішого (найшвидшого, але найменшого
чутливий): --макс, --нохм, --середина, --за замовчуванням, (це налаштування за умовчанням) --rfam. та
-- хммон. З --за замовчуванням порогові значення фільтра залежатимуть від розміру бази даних. Див
пояснення кожного з цих окремих варіантів нижче для отримання додаткової інформації.
Крім того, досвідчений користувач може точно керувати порогом оцінки кожного етапу фільтра
--F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b, та --F6 варіанти. Як
а також увімкнути або вимкнути кожен етап за допомогою кнопки --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5, та --noF6. варіанти. Ці параметри лише відображаються
якщо --допомога розробки Параметр використовується для збереження кількості відображених параметрів -h
розумними, і тому, що очікується, що вони будуть корисними лише для невеликої меншості користувачів.
Як окремий випадок, для будь-яких моделей в які мають нульовий базис, профіль HMM
пошуки виконуються замість пошуку CM. Алгоритми HMM більш ефективні, ніж CM
алгоритмів, і перевага алгоритмів CM втрачається для моделей без вторинних
структура (нуль базових пар). Ці пошуки HMM профілю виконуватимуться значно швидше, ніж
CM шукає. Ви можете примусово здійснювати пошук лише HMM за допомогою -- хммон варіант. Для більш
інформацію про пошук лише за допомогою HMM див. у посібнику користувача.
--макс Вимкніть усі фільтри та запустіть Inside без смуг на кожній повнорозмірній цілі
послідовність. Це дещо збільшує чутливість при надзвичайно великому втраті швидкості.
--нохм
Вимкніть усі ступені фільтра HMM (F1–F5b). Фільтр CYK, який використовує QDB, буде
запускатися на кожній повнорозмірній цільовій послідовності та забезпечуватиме порогове значення P
0.0001. Кожна підпослідовність, що виживає CYK, буде передана до Inside, яка буде
також використовуйте QDB (але більш вільний набір). Це дещо підвищує чутливість, на дуже
велика вартість в швидкості.
--середина Вимкніть ступені HMM SSV і фільтр Вітербі (F1-F2b). Встановити решту HMM
порогові значення фільтра (F3–F5b) до 0.02 за замовчуванням, але можна змінити на з
--Fmid послідовність. Це може підвищити чутливість із значною втратою швидкості.
--за замовчуванням
Використовуйте стратегію фільтрації за замовчуванням. Цей параметр увімкнено за замовчуванням. Фільтр
пороги визначаються на основі розміру бази даних.
--rfam Використовуйте стратегію суворої фільтрації, розроблену для великих баз даних (більше 20 Гб). Це
прискорить пошук потенційною ціною чутливості.
-- хммон
Використовуйте лише профіль фільтра HMM для пошуку, не використовуйте CM. Тільки фільтр
етапи F1 - F3 будуть виконуватися з використанням суворих порогових значень P (0.02 для
F1, 0.001 для F2 і 0.00001 для F3). Крім того, є фільтр композиції зміщення
використовується після етапу F1 (з порогом виживання P=0.02). Будь-який удар, який вижив
на всіх етапах і має HMM E-value або бітову оцінку вище порогового значення звітності
бути вихідним. Користувач може змінити пороги та параметри фільтра лише для HMM
--hmmF1, --hmmF2, --hmmF3, --хмнобіи, --hmmnonull2, та --хмммакс. За замовчуванням
пошук будь-якої моделі з нульовими базовими парами буде виконуватися лише в режимі HMM. Це може
бути вимкнено, що змушує CM шукати ці моделі за допомогою -- звичайно варіант.
--ФЗ
Встановіть пороги фільтрів як значення за замовчуванням, які використовуються, якби була база даних мегабази (Мб).
Якщо використовується з більше 20000 (20 Гб) цей параметр має той самий ефект, що і
--rfam.
--Fmid
З --середина Встановіть пороги фільтра HMM (F3–F5b). . By
за замовчуванням, є 0.02.
ІНШІ ВАРІАНТИ
--notrunc
Вимкніть виявлення скороченого звернення.
--anytrunc
Дозволити скороченим зверненням починатися і закінчуватися в будь-якій позиції цільової послідовності. За
за замовчуванням, 5' усічені звернення повинні включати перший залишок цільової послідовності
і 3' усічені звернення повинні включати кінцевий залишок їх цільової послідовності. З
за допомогою цього параметра ви можете спостерігати менше повноцінних звернень, які поширюються на початок і
кінець запиту CM.
--ненульовий3
Вимкніть корекцію балів null3 CM для упередженої композиції. Ця поправка є
не використовується на етапах фільтрації HMM.
--mxsize
Встановіть максимально допустимий розмір матриці CM DP мегабайти. За замовчуванням цей розмір
становить 128 Мб. Це має бути достатньо великим для переважної більшості пошуків,
особливо з невеликими моделями. Якщо cmsearch зустрічає конверт у CYK або
Всередині сцени, яка вимагає більшої матриці, конверт буде знижено
розгляд. Така поведінка схожа на додатковий фільтр, який запобігає дорогому
(повільні) обчислення CM DP, але з потенційною вартістю чутливості. Зверніть увагу, що якщо
cmsearch обкатується кілька потоків на багатоядерній машині, потім кожен
потік може мати виділену матрицю до розміру Мб у будь-який момент часу.
--smxsize
Встановіть максимально допустимий розмір матриці DP пошуку CM мегабайти. За замовчуванням
цей розмір 128 Мб. Ця опція актуальна, лише якщо CM не використовуватиме HMM
смугасті матриці, тобто якщо --макс, --нохм, --qdb, --fqdb, --безсмуговий, or
--fnonbanded також використовуються опції. Зверніть увагу, що якщо cmsearch обкатується
кількох потоків на багатоядерній машині, то кожен потік може мати виділений
матриця до розміру Мб у будь-який момент часу.
--cyk Використовуйте алгоритм CYK, а не Inside, щоб визначити остаточну оцінку всіх попадань.
--acyk Використовуйте алгоритм CYK для вирівнювання звернень. За замовчуванням оптимальна точність Дурбіна/Холмса
використовується алгоритм, який знаходить вирівнювання, що максимізує очікувану точність
всіх вирівняних залишків.
--wcx
Для кожного CM встановіть параметр W, очікувану максимальну тривалість звернення
разів на консенсусну довжину моделі. За замовчуванням зчитується параметр W
файл CM і був розрахований на основі ймовірностей переходу моделі
by cmbuild. Ви можете дізнатися, яке значення W за замовчуванням для моделі, яка використовує cmstat. це
Варіант слід використовувати з обережністю, оскільки він впливає на конвеєр фільтрації в кількох випадках
різні етапи неочевидними способами. Рекомендується лише досвідченим користувачам
пошук хітів, які набагато довші, ніж будь-який з гомологів, використаних для створення
модель в cmbuild, наприклад, з великими інтронами або іншими великими вставками. Це
не можна використовувати в поєднанні з --нохм, --fqdb or --qdb варіанти тому що в
у цих випадках W обмежується смугами, що залежать від запиту.
-- тільки
Шукайте лише верхній (Watson) ланцюг цільових послідовностей . За замовчуванням
обшукуються обидві нитки. Це вдвічі зменшить розмір простору пошуку (Z).
--знизу
Шукайте лише нижній (Крік) ланцюг цільових послідовностей . By
за замовчуванням шукаються обидва ланцюги. Це вдвічі зменшить розмір простору пошуку (Z).
--qformat
Переконайтеся, що файл бази даних послідовності запитів має формат . Прийняті формати
включати фаста, emble, генбанк, ddbj, Стокгольм, pfam, a2m, афа, скупчення, та філіп
За замовчуванням автоматично визначає формат файлу.
--блиск
Налаштуйте підмножину моделей із у режимі глобального вирівнювання, а не
локальний режим, а саме моделі, перелічені у файлі . Налаштуйте всі інші моделі
(не перелічені в ) в локальному режимі. Цей параметр несумісний з -г.
Файл має вказати дійсні назви моделей з , кожен розділений будь-яким
пробіл (наприклад, символ нового рядка).
--ЦП
Встановіть кількість паралельних робочих потоків . За замовчуванням Infernal встановлює це
до кількості ядер ЦП, які він виявляє у вашій машині, тобто намагається
максимально використовувати наявні ядра процесора. Налаштування вище, ніж
кількість доступних ядер має незначне значення, якщо воно взагалі є, але ви можете встановити його
щось менше. Ви також можете керувати цим числом, налаштувавши середовище
змінна, INFERNAL_NCPU. Ця опція доступна, лише якщо було скомпільовано Infernal
з підтримкою потоків POSIX. Це значення за замовчуванням, але, можливо, його вимкнено о
час компіляції для вашого сайту чи машини з якоїсь причини.
-- стійло
Для налагодження основної/робочої версії MPI: призупиніть після запуску, щоб увімкнути
розробника, щоб підключити налагоджувачі до запущеного головного та робочого процесів. Надіслати
Сигнал SIGCONT для зняття паузи. (Під gdb: (GDB) сигналізувати SIGCONT) (Тільки
доступний, якщо під час компіляції було ввімкнено додаткову підтримку MPI.)
--mpi Запустити в режимі MPI master/worker, використовуючи мпірун. (Доступно лише за умови додаткового MPI
підтримка була включена під час компіляції.)
Використовуйте cmscan онлайн за допомогою сервісів onworks.net