cmsearch - Онлайн в облаке

Это команда cmsearch, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

Запускаем в Ubuntu Запускаем в Fedora Запустить в Windows Sim Запускаем в MACOS Sim

ПРОГРАММА:

ИМЯ

cmsearch - поиск ковариационной модели (ей) по базе данных последовательностей

СИНТАКСИС

cmsearch [опции]

ОПИСАНИЕ

cmsearch используется для поиска одной или нескольких моделей ковариации (CM) по последовательности
база данных. Для каждого СМ в , используйте этот запрос CM для поиска в целевой базе данных
последовательности в , и вывести ранжированные списки последовательностей с наиболее значимыми
совпадает с CM. Чтобы построить CM из нескольких выравниваний, см. cmbuild.

Запрос должен быть откалиброван для значений E с см откалибровать. Как особый
исключение, любые модели в которые имеют нулевые пары оснований, не нуждаются в калибровке. Для
В этих моделях будут использоваться профильные алгоритмы поиска HMM вместо алгоритмов CM, как обсуждалось.
далее ниже.

Запрос может быть '-' (символ тире), и в этом случае ввод запроса CM будет
читать из труба вместо файла. В не может быть '-', потому что
текущая реализация должна иметь возможность перематывать базу данных, что невозможно с
STDIN вход.

Формат вывода разработан так, чтобы он был удобочитаем, но часто бывает настолько объемным, что
читать его непрактично, а разбирать - мучительно. В --tblout опция сохраняет вывод в
простой табличный формат, лаконичный и простой для анализа. В -o опция позволяет
перенаправление основного вывода, включая его выброс в / dev / null.

cmsearch повторно исследует 5 'и 3' концы целевых последовательностей, используя специализированные алгоритмы
для обнаружения усеченный попаданий, в которых часть 5 'и / или 3' конца фактического полного
гомологичная по длине последовательность отсутствует в файле целевой последовательности. Эти типы хитов
будут наиболее распространены в файлах последовательности, состоящих из несобранных операций чтения. К
по умолчанию требуется любое усеченное 5 'попадание, чтобы включить первый остаток цели
последовательность, из которой он происходит в , и любое усеченное 3 'попадание должно включать
конечный остаток целевой последовательности, из которой он происходит. Любое усеченное попадание на 5 и 3 фута должно
включать первый и последний остатки целевой последовательности, из которой он происходит. В --anytrunc
опция ослабит требования для включения попаданий конечных точек последовательности и усечет
хитам разрешено запускаться и останавливаться в любых положениях целевых последовательностей. Главное
хотя, с --anytrunc, значения E будут менее точными, потому что калибровка модели
не учитывайте возможность усеченных совпадений, поэтому используйте его с осторожностью. В --notrunc
параметр может использоваться для отключения обнаружения усеченного попадания. --notrunc уменьшит бег
время смпоиск, наиболее важно для цели файлы, содержащие много коротких
последовательности.

Обнаружение усеченного попадания автоматически отключается, когда --Максимум, --нохмм, --кдб, or
- без полос варианты используются, потому что он основан на использовании ускоренного HMM
стратегия выравнивания, которая отключена любым из этих параметров.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ

-h Помощь; напечатайте краткое напоминание об использовании командной строки и всех доступных параметрах.

-g Включите пылесос Glocal алгоритм согласования, глобальный по отношению к модели запроса и
local по отношению к целевой базе данных. По умолчанию локальное выравнивание
используется алгоритм, который является локальным как по отношению к целевой последовательности, так и по отношению к
модель. В локальном режиме выравнивание для охвата двух или более подпоследовательностей, если необходимо
(например, если структуры модели запроса и целевой последовательности только частично
shared), что позволяет выполнять некоторые большие вставки и удаления в структуре.
штрафуется иначе, чем обычные инделки. Локальный режим работает лучше на эмпирических
тесты и значительно более чувствительны для удаленного определения гомологии.
Эмпирически глокальный поиск возвращает намного меньше совпадений, чем локальный поиск, поэтому глокальный поиск
может быть желательным для некоторых приложений. С участием -грамм, все модели должны быть откалиброваны, даже
с нулевыми парами оснований.

-Z Рассчитайте E-значения, как если бы размер области поиска был мегабазы (Мб). Без
при использовании этой опции размер области поиска определяется как общее количество
нуклеотиды в умножить на 2, потому что обе нити каждой целевой последовательности будут
быть обысканным.

--devhelp
Распечатать справку, как с -h , но также включать экспертные параметры, которые не отображаются
-h . Ожидается, что эти экспертные варианты не будут актуальными для огромного количества людей.
большинство пользователей и так не описаны на странице руководства. Единственные ресурсы
для понимания того, что они на самом деле делают, выводятся краткие однострочные описания
когда --devhelp включен, а исходный код.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ Для УПРАВЛЕНИЕ ВЫВОД

-o Направляйте основной вывод в удобном для чтения виде в файл вместо стандартного стандартного вывода.

-A Сохраните множественное совпадение всех значимых попаданий (удовлетворяющих включение
пороги) в файл .

--tblout
Сохраните простой табличный (разделенный пробелами) файл, содержащий сводку найденных совпадений, с одним
строка данных на попадание. Формат этого файла описан в руководстве пользователя Infernal.

--акк В главном выводе, где это возможно для профилей, используйте присоединения вместо имен.
и / или последовательности.

--ноали
Пропустите секцию выравнивания из основного вывода. Это может значительно снизить производительность.
Объем.

--notextw
Не ограничивайте длину каждой строки в основном выводе. По умолчанию установлено ограничение 120.
символов в строке, что помогает четко отображать вывод на терминалах и
в редакторах, но может обрезать строки описания целевого профиля.

--textw
Установите ограничение длины строки основного вывода на символов в строке. По умолчанию
120.

--подробный
Включите дополнительную статистику поискового конвейера в основной вывод, включая фильтр
статистика выживаемости для обнаружения усеченных совпадений и количества отброшенных конвертов
из-за переполнения размера матрицы.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ УПРАВЛЕНИЕ СОСТАВЛЕНИЕ ОТЧЕТОВ ПОРОГОВ

Пороговые значения отчетов контролируют, какие попадания сообщаются в выходных файлах (основной выходной файл и
--тблаут) Хиты ранжируются по статистической значимости (E-значение). По умолчанию все обращения
со значением E <= 10. Следующие параметры позволяют изменить значение по умолчанию.
Пороговые значения для сообщения E-значения или вместо этого использовать пороговые значения битовой оценки.

-E В выходных данных для каждой цели укажите целевые последовательности со значением E <= . Команда
по умолчанию 10.0, что означает, что в среднем будет зарегистрировано около 10 ложных срабатываний.
на запрос, так что вы можете увидеть верхнюю часть шума и решить для себя,
действительно шум.

-T Вместо того, чтобы устанавливать пороговые значения для выходных данных CM по E-значению, сообщайте о целевых последовательностях с помощью
битовая оценка> = .

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ Для ВКЛЮЧЕНИЕ ПОРОГОВ

Пороги включения более строгие, чем пороги отчетности. Контроль порогов включения
какие совпадения считаются достаточно надежными для включения в выходное выравнивание или
в возможном последующем раунде поиска или помечены как значимые ("!") в отличие от
сомнительный ("?") в выводе обращения.

--incE
Используйте E-значение <= как порог включения попадания. По умолчанию 0.01,
Это означает, что в среднем ожидается около 1 ложного срабатывания на каждые 100
поиск с разными последовательностями запросов.

--incT
Вместо использования E-значений для установки порога включения используйте бит
оценка> = как порог включения попадания. По умолчанию этот параметр отключен.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ Для ДЛЯ МОДЕЛИ СЧЕТ ПОРОГ

Курируемые базы данных CM могут определять конкретные пороговые значения битовой оценки для каждого CM, заменяя любые
пороговое значение, основанное только на статистической значимости.

Чтобы использовать эти параметры, профиль должен содержать соответствующие (GA, TC и / или NC)
необязательная аннотация порогового значения баллов; это подобрано cmbuild из стокгольмского формата
файлы выравнивания. Каждый вариант порогового значения имеет оценку биты и действует так, как если бы -T
--incT был применен специально с использованием курируемых пороговых значений каждой модели.

--cut_ga
Используйте битовые оценки GA (сбор) в модели, чтобы настроить отчеты о попаданиях и включение
пороги. Пороги GA обычно считаются надежными
пороги, определяющие членство в семье; например, в Rfam эти пороги
определить, что будет включено в Rfam Полное согласование на основе поиска с Rfam Seed
модели.

--cut_nc
Используйте пороговые значения битовой оценки NC (шумоподавление) в модели, чтобы настроить отчеты о попаданиях.
и пороги включения. Пороги NC обычно считаются оценкой
известное ложное срабатывание с наивысшей оценкой.

--cut_tc
Используйте пороговые значения битов TC (доверенной отсечки) в модели, чтобы настроить отчеты о попаданиях.
и пороги включения. Пороги TC обычно считаются оценкой
самый низкий из известных истинных положительных результатов, который является, прежде всего, ложными срабатываниями.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ УПРАВЛЕНИЕ УСКОРЕНИЕ ТРУБОПРОВОД

Поиски Infernal 1.1 ускорены за счет шестиступенчатого конвейера фильтрации. Первые пять
этапы используют профиль HMM для определения конвертов, которые передаются на этап шесть CM CYK
фильтр. Любым конвертам, прошедшим все фильтры, присваиваются окончательные баллы с помощью CM.
Внутренний алгоритм. (Дополнительную информацию см. В руководстве пользователя.)

Профильный фильтр HMM построен cmbuild программа и хранится в .

Каждый последующий фильтр работает медленнее, чем предыдущий, но лучше, чем он
различение между подпоследовательностями, которые могут содержать высокоэффективные совпадения CM, и подпоследовательностями, которые содержат
нет. Первые три ступени фильтра HMM такие же, как и в HMMER3. Этап 1 (F1)
- это локальный фильтр HMM SSV, модифицированный для длинных последовательностей. Этап 2 (F2) - это локальный HMM
Фильтр Витерби. Этап 3 (F3) - это локальный прямой фильтр HMM. Каждый из первых трех
stage использует профиль HMM в локальном режиме, что позволяет целевой подпоследовательности согласовываться с
любой регион HMM. Стадия 4 (F4) - это глокальный фильтр HMM, для которого требуется
подпоследовательность для выравнивания по полноразмерному профилю HMM. Стадия 5 (F5) - глокальный HMM
фильтр определения конверта, который использует эвситику идентификации домена HMMER3 для определения
границы конверта. После каждого каскада от 2 до 5 шаг фильтра смещения (F2b, F3b, F4b и
F5b) используется для удаления последовательностей, которые, по-видимому, прошли фильтр из-за смещения
композиция в одиночку. Любые конверты, пережившие этапы с F1 по F5b, затем передаются с
локальный фильтр CM CYK. Фильтр CYK использует ограничения (полосы), полученные из HMM.
выравнивание конверта для уменьшения количества требуемых вычислений и экономии времени.
Любые конверты, прошедшие CYK, оцениваются с помощью локального алгоритма CM Inside, снова с использованием HMM.
полосы для ускорения.

Пороги фильтра по умолчанию, которые определяют минимальную оценку, необходимую для подпоследовательности для
выжить на каждом этапе определяются на основе размера базы данных в (или размер
в мегабазах (МБ), указанных -Z or --ФЗ параметры). Для больших баз данных
фильтры более строгие, что приводит к большему ускорению, но потенциально к большей потере
чувствительность. Обоснование состоит в том, что для больших баз данных попадания должны иметь более высокие баллы, чтобы
достичь статистической значимости, поэтому более строгая фильтрация устраняет более низкий балл
незначительные попадания допустимы.

Пороговые значения P для всех возможных размеров пространства поиска и всех этапов фильтрации являются
перечисленные далее. (Порог P-значения 0.01 означает, что примерно 1% от наивысшей оценки
ожидается, что негомологичная подпоследовательность пройдет фильтр.) Z определяется как количество
нуклеотидов в полном файле целевой последовательности умножить на 2, потому что обе цепи будут
искал с каждой моделью.

Если Z меньше 2 Мб: F1 равно 0.35; F2 и F2b выключены; F3, F3b, F4, F4b и F5 равны 0.02;
F6 - 0.0001.

Если Z находится между 2 Мб и 20 Мб: F1 равно 0.35; F2 и F2b выключены; F3, F3b, F4, F4b и F5
0.005; F6 - 0.0001.

Если Z находится между 20 Мб и 200 Мб: F1 равно 0.35; F2 и F2b равны 0.15; F3, F3b, F4, F4b и F5
0.003; F6 - 0.0001.

Если Z составляет от 200 Мб до 2 Гб: F1 равно 0.15; F2 и F2b равны 0.15; F3, F3b, F4, F4b, F5,
и F5b равны 0.0008; и F6 - 0.0001.

Если Z составляет от 2 до 20 ГБ: F1 равно 0.15; F2 и F2b равны 0.15; F3, F3b, F4, F4b, F5 и
F5b равны 0.0002; и F6 - 0.0001.

Если Z больше 20 Гб: F1 равно 0.06; F2 и F2b равны 0.02; F3, F3b, F4, F4b, F5 и F5b
равны 0.0002; и F6 - 0.0001.

Эти пороговые значения были выбраны на основе результатов внутреннего тестирования производительности многих
разные возможные настройки.

Существует пять вариантов управления общим уровнем фильтрации. Эти варианты есть в
порядок от наименее строгого (самый медленный, но наиболее чувствительный) к наиболее строгому (самый быстрый, но наименее строгий).
чувствительный): --Максимум, --нохмм, - середина, --дефолт, (Это значение по умолчанию), --рфам. и
- безумно. В --дефолт пороги фильтра будут зависеть от размера базы данных. Увидеть
объяснение каждого из этих отдельных вариантов ниже для получения дополнительной информации.

Кроме того, опытный пользователь может точно контролировать пороговое значение каждого этапа фильтрации с помощью
--F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b, и --F6 параметры. В качестве
а также включить или выключить каждую стадию с помощью --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5, и --noF6. параметры. Эти параметры только отображаются
если --devhelp опция используется для сохранения количества отображаемых опций с -h
разумны, и потому что ожидается, что они будут полезны лишь небольшому меньшинству пользователей.

Как частный случай, для любых моделей в с нулевыми парами оснований, профиль HMM
поиск выполняется вместо поиска в CM. Алгоритмы HMM более эффективны, чем CM
алгоритмов, и преимущества алгоритмов CM теряются для моделей без вторичных
структура (нулевые пары оснований). Эти поисковые запросы HMM по профилю будут выполняться значительно быстрее, чем
CM ищет. Вы можете принудительно выполнять поиск только HMM с помощью - молча вариант. Для большего
информацию о поисках только HMM см. описание - молча вариант ниже, и
руководство пользователя.

--Максимум Отключите все фильтры и запустите Inside без полосок для каждой полноразмерной цели.
последовательность. Это несколько увеличивает чувствительность, но требует очень больших затрат скорости.

--нохмм
Выключите все ступени фильтра HMM (с F1 по F5b). Фильтр CYK, использующий QDB, будет
запускаться для каждой полноразмерной целевой последовательности и будет обеспечивать порог P-значения, равный
0.0001. Каждая подпоследовательность, оставшаяся после CYK, будет передана в Inside, что
также используйте QDB (но более свободный набор). Это несколько увеличивает чувствительность, причем очень сильно.
большая стоимость в скорости.

- середина Выключите ступени фильтра HMM SSV и Витерби (с F1 по F2b). Установить оставшийся HMM
пороговые значения фильтра (с F3 по F5b) по умолчанию равны 0.02, но могут быть изменены на
--Fмид последовательность. Это может повысить чувствительность, но со значительными потерями в скорости.

--дефолт
Используйте стратегию фильтрации по умолчанию. По умолчанию эта опция включена. Фильтр
пороговые значения определяются в зависимости от размера базы данных.

--rfam Используйте стратегию строгой фильтрации, разработанную для больших баз данных (более 20 Гб). Этот
ускорит поиск за счет возможной потери чувствительности. Не будет
эффект, если база данных больше 20 Гб.

- молча
Используйте только профиль фильтра HMM для поиска, не используйте CM. Только фильтр
этапы с F1 по F3 будут выполняться с использованием строгих пороговых значений P (0.02 для
F1, 0.001 для F2 и 0.00001 для F3). Дополнительно фильтр композиции смещения
используется после стадии F1 (с порогом выживаемости P = 0.02). Любой выживающий удар
все этапы и имеет HMM E-значение или битовую оценку выше порогового значения для отчетности.
быть выводом. Пользователь может изменить пороги и параметры фильтра только для HMM с помощью
--хммF1, --хммF2, --хммF3, - хмммноби, --хммнонуль2, и --хмммакс. По умолчанию
поиск любой модели с нулевыми базовыми парами будет выполняться в режиме HMM-only. Это может
быть выключенным, заставляя CM искать эти модели с --нохммонально опцию.
Эти параметры отображаются, только если --devhelp опция используется.

--ФЗ
Установите пороги фильтра как значения по умолчанию, если бы база данных была мегабазы (Мб).
Если используется с больше 20000 (20 Гб) эта опция имеет тот же эффект, что и
--рфам.

--Fмид
Для - середина установите пороговые значения фильтра HMM (с F3 по F5b) на . By
по умолчанию, это 0.02.

ДРУГИЕ ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ

--notrunc
Отключите обнаружение усеченного попадания.

--anytrunc
Разрешить усеченным совпадениям начинаться и заканчиваться в любой позиции целевой последовательности. К
по умолчанию 5 'усеченные совпадения должны включать первый остаток их целевой последовательности
и 3'-усеченные совпадения должны включать последний остаток их целевой последовательности. С участием
при этом варианте вы можете наблюдать меньшее количество полных хитов, которые доходят до начала и
конец запроса CM.

--ненуль3
Отключите корректировку оценки null3 CM для смещенной композиции. Это исправление
не используется на этапах фильтрации HMM.

--mxsize
Установите максимально допустимый размер матрицы CM DP равным мегабайты. По умолчанию этот размер
составляет 128 Мб. Этого должно быть достаточно для подавляющего большинства поисковых запросов,
особенно с моделями меньшего размера. Если cmsearch встречает конверт в CYK или
Внутри этапа, для которого требуется матрица большего размера, конверт будет вычтен из
рассмотрение. Такое поведение похоже на дополнительный фильтр, предотвращающий дорогостоящие
(медленные) расчеты CM DP, но это может привести к снижению чувствительности. Обратите внимание, что если
cmsearch вбегается несколько потоков на многоядерной машине, затем каждый
поток может иметь выделенную матрицу до размера МБ в любой момент времени.

--smxsize
Установите максимально допустимый размер матрицы DP поиска CM на мегабайты. По умолчанию
это размер 128 Мб. Эта опция актуальна только в том случае, если CM не будет использовать HMM.
ленточные матрицы, т. е. если --Максимум, --нохмм, --кдб, --fqdb, - без полос, or
--f также используются опции. Обратите внимание, что если cmsearch вбегается
несколько потоков на многоядерной машине, тогда каждый поток может иметь выделенный
матрица до размера МБ в любой момент времени.

--cyk Используйте алгоритм CYK, а не Inside, чтобы определить окончательную оценку всех совпадений.

--ацик Используйте алгоритм CYK для выравнивания совпадений. По умолчанию оптимальная точность Дарбина / Холмса
используется алгоритм, который находит выравнивание, которое максимизирует ожидаемую точность
всех выровненных остатков.

--wcx
Для каждого CM установите параметр W, ожидаемую максимальную длину попадания, на
умноженное на согласованную длину модели. По умолчанию параметр W считывается из
файл CM и был рассчитан на основе переходных вероятностей модели
by cmbuild. Вы можете узнать, какое значение W по умолчанию для модели, используя cmstat. Эти
эту опцию следует использовать с осторожностью, так как она влияет на конвейер фильтрации на нескольких
разные стадии неочевидными способами. Рекомендуется только опытным пользователям
поиск совпадений, которые намного длиннее, чем любой из гомологов, используемых для построения
модель в cmbuild например, с большими интронами или другими крупными вставками. Этот
опцию нельзя использовать в сочетании с --нохмм, --fqdb or --qdb кредита
потому что в этих случаях W ограничивается диапазонами, зависящими от запроса.

--toponly
Искать только в верхней (Watson) цепи целевых последовательностей в . По умолчанию
Обыскиваются обе нити. Это уменьшит вдвое размер базы данных (Z).

- снизу
Искать только нижнюю (криковую) цепь целевых последовательностей в . По умолчанию
Обыскиваются обе нити. Это уменьшит вдвое размер базы данных (Z).

--tformat
Убедитесь, что файл базы данных целевой последовательности имеет формат . Принимаемые форматы
включают фаста эмбл генбанк ддбж, Стокгольм пфам, а2м, афа, каменистый и филлип
По умолчанию формат файла определяется автоматически.

--Процессор
Установите количество параллельных рабочих потоков равным . По умолчанию Infernal устанавливает это
к количеству ядер ЦП, которые он обнаруживает на вашем компьютере, то есть пытается
максимально используйте доступные ядра процессора. Параметр выше чем
количество доступных ядер мало, если вообще имеет значение, но вы можете установить его на
что-то меньшее. Вы также можете контролировать это число, установив среду
Переменная, ИНФЕРНАЛ_NCPU. Эта опция доступна, только если Infernal был скомпилирован
с поддержкой потоков POSIX. Это значение по умолчанию, но оно могло быть отключено в
время компиляции для вашего сайта или машины по какой-то причине.

--ларек
Для отладки версии MPI master / worker: пауза после запуска, чтобы включить
разработчик, чтобы присоединить отладчики к запущенным основным и рабочим процессам. послать
SIGCONT сигнал для отмены паузы. (Под gdb: (GDB) сигнал СИГКОНТ) (Только
доступно, если во время компиляции была включена дополнительная поддержка MPI.)

--mpi Запустите в режиме главного / рабочего MPI, используя мпирун. Использовать --мпи, файл последовательности должен
были сначала "проиндексированы" с помощью ESL-выборка программа, которая входит в
Адский, в мольберт / миниаппс / подкаталог. (Доступно только в том случае, если дополнительный MPI
поддержка была включена во время компиляции.)

Используйте cmsearch онлайн с помощью сервисов onworks.net