これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドcmscanです。
プログラム:
NAME
cmscan-共分散モデルデータベースに対してシーケンスを検索します
SYNOPSIS
cmスキャン [オプション]
DESCRIPTION
cmスキャン 共分散モデルのコレクションに対してシーケンスを検索するために使用されます。 それぞれについて
シーケンス 、 そのクエリシーケンスを使用して、でCMのターゲットデータベースを検索します
、 に最も重要な一致を持つCMのランク付けされたリストを出力します
シーケンス。
この 複数のクエリシーケンスが含まれる場合があります。 FASTA形式、または
他のいくつかの一般的なシーケンスファイル形式(genbank、emblなど)、または
アラインメントファイル形式(ストックホルム、アラインメントされたfastaなど)。 を参照してください --qformat オプション
完全なリストについては、
この を使用して押す必要があります センチメートルプレス で検索する前に cmscan。 この
接尾辞.i1{fimp}が付いたXNUMXつのバイナリファイルを作成します。 さらに、 されている必要があります
E値に対して校正済み cmキャリブレーション 押される前に cmpress。
クエリ '-'(ダッシュ文字)の場合があります。この場合、クエリシーケンスは次のようになります。
から読むファイルからではなくパイプ。 NS から読み取ることはできません
ストリーム、それはによって生成されたそれらのXNUMXつの補助バイナリファイルを持っている必要があるため cmpress。
出力形式は人間が読めるように設計されていますが、多くの場合、非常に大量であるため
それを読むことは非現実的であり、それを解析することは苦痛です。 NS --tbout オプションは出力を
簡潔で解析しやすいシンプルな表形式。 The -o オプションは許可します
/ dev / nullに破棄するなど、メイン出力をリダイレクトします。
cmスキャン 特殊なアルゴリズムを使用して、ターゲット配列の5'および3'末端を再検査します
の検出のため 切り捨て ヒット、実際のフルの5'および/または3'の終わりの部分
ターゲット配列ファイルに長さの相同配列がありません。 これらのタイプのヒット
アセンブルされていないシーケンスリードで構成されるシーケンスファイルで最も一般的です。 に
デフォルトでは、ターゲットの最初の残基を含めるには、5フィートの切り捨てられたヒットが必要です
それが由来するシーケンス 、 を含めるには、3フィートの切り捨てられたヒットが必要です。
それが由来する標的配列の最終残基。 5'および3'の切り捨てられたヒットは、
派生するターゲットシーケンスの最初と最後の残基を含めます。 The --anytrunc
オプションは、シーケンスエンドポイントのヒットインクルードの要件を緩和し、切り捨てられます
ヒットは、ターゲットシーケンスの任意の位置で開始および停止できます。 重要なのは
しかし、 --anytrunc、 モデルのキャリブレーションが行うため、ヒットE値の精度は低くなります
切り捨てられたヒットの可能性を考慮しないため、注意して使用してください。 The --notrunc
オプションを使用して、切り捨てられたヒットの検出をオフにすることができます。 --notrunc ランニングを減らします
の時間 cmscan、 ターゲットにとって最も重要 多くの短いファイルが含まれています
シーケンス。 切り捨てられたヒットの検出は、 --max、 -うーん、
--qdb、 or -バンドなし 加速されたHMMの使用に依存しているため、オプションが使用されます
これらのオプションのいずれかによってオフにされるバンドアライメント戦略。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なすべてのオプションの簡単なリマインダーを印刷します。
-g 掃除機のスイッチを入れます。 グローカル アライメントアルゴリズム、クエリモデルに関してグローバルおよび
ターゲットデータベースに関してローカル。 デフォルトでは、ローカルアライメント
ターゲットシーケンスと
モデル。 ローカルモードでは、必要に応じてXNUMXつ以上のサブシーケンスにまたがるアライメント
(たとえば、クエリモデルとターゲットシーケンスの構造が部分的にのみである場合
共有)、構造内の特定の大きな挿入と削除を可能にする
通常のインデルとは異なるペナルティが課せられます。 ローカルモードは、経験に基づいてパフォーマンスが向上します
ベンチマークであり、リモート相同性検出の感度が大幅に向上します。
経験的に、glocal検索はローカル検索よりもはるかに少ないヒットを返すため、glocal
一部のアプリケーションでは望ましい場合があります。
-Z 探索空間のサイズがであるかのようにE値を計算します メガベース(Mb)。 なし
このオプションを使用すると、クエリシーケンスごとに検索スペースのサイズが変わります。
現在のクエリシーケンスの長さに2を掛けたものとして定義されます(両方のストランドが原因であるため)
シーケンスの)にCMの数を掛けたものが検索されます 。
--devhelp
と同様に、ヘルプを印刷します -h , ただし、表示されないエキスパートオプションも含まれます
-h . これらの専門家のオプションは、広大なものに関連することは期待されていません
大多数のユーザーなどは、マニュアルページに記載されていません。 唯一のリソース
彼らが実際に何をしているのかを理解するために、簡単な一行の説明が出力されます
いつ --devhelp が有効になっていて、ソースコードが有効になっています。
OPTIONS FOR 制御 出力
-o 人間が読める形式のメイン出力をファイルに送信する デフォルトのstdoutの代わりに。
--tbout
見つかったヒットを要約した単純な表形式(スペース区切り)ファイルをXNUMXつで保存します
ヒットごとのデータ行。 このファイルの形式は、Infernalユーザーで説明されています
ガイド。
--acc プロファイルで使用可能な場合は、メイン出力で名前の代わりにアクセッションを使用します
および/またはシーケンス。
-ノアリ
メイン出力から位置合わせセクションを省略します。 これにより、出力が大幅に減少する可能性があります
ボリューム。
--notextw
メイン出力の各行の長さを無制限にします。 デフォルトは120の制限です
XNUMX行あたりの文字数。これは、端末で出力をきれいに表示するのに役立ちます。
エディターでは、ターゲットプロファイルの説明行を切り捨てることができます。
--textw
メイン出力の行長制限をに設定します XNUMX行あたりの文字数。 デフォルトは
120.
-詳細
フィルタを含む、追加の検索パイプライン統計をメイン出力に含めます
切り捨てられたヒット検出と破棄されたエンベロープの数の生存統計
行列サイズのオーバーフローが原因です。
OPTIONS 制御 報告 しきい値
レポートしきい値は、出力ファイル(メイン出力と
--tblout) ヒットは統計的有意性(E値)によってランク付けされます。 デフォルトでは、すべてのヒット
E値が10未満の場合に報告されます。 次のオプションを使用すると、デフォルトを変更できます
E値レポートのしきい値、または代わりにビットスコアのしきい値を使用します。
-E ターゲットごとの出力で、E値が<=のターゲットシーケンスを報告します 。 この
デフォルトは10.0です。これは、平均して約10件の誤検知が報告されることを意味します。
クエリごとに、ノイズの上部を確認し、それがそうであるかどうかを自分で判断できるようにします
本当にノイズ。
-T E値でCMごとの出力をしきい値処理する代わりに、ターゲットシーケンスを次のように報告します。
> =のビットスコア 。
OPTIONS FOR インクルージョン しきい値
包含しきい値は、レポートしきい値よりも厳密です。 包含しきい値制御
どのヒットが、可能な後続に含まれるのに十分な信頼性があると見なされます
検索ラウンド、またはヒットで疑わしい( "?")ではなく重要( "!")としてマークされます
出力。
--incE
<=のE値を使用します ヒット包含しきい値として。 デフォルトは0.01、
つまり、平均して、1ごとに約100つの誤検知が予想されます。
異なるクエリシーケンスで検索します。
--incT
包含しきい値を設定するためにE値を使用する代わりに、ビットを使用します
> =のスコア ヒット包含しきい値として。 デフォルトでは、このオプションは設定されていません。
OPTIONS FOR モデル固有 スコア しきい値処理
キュレートされたCMデータベースは、各CMの特定のビットスコアしきい値を定義し、
統計的有意性のみに基づくしきい値処理。
これらのオプションを使用するには、プロファイルに適切な(GA、TC、および/またはNC)が含まれている必要があります
オプションのスコアしきい値注釈。 これはによってピックアップされます cmビルド ストックホルム形式から
アライメントファイル。 各しきい値オプションのスコアは ビット、およびあたかものように動作します -T
--incT 各モデルの厳選されたしきい値を使用して具体的に適用されています。
--cut_ga
モデルのGA(収集)ビットスコアを使用して、ヒットレポートと包含を設定します
しきい値。 GAのしきい値は、一般的に信頼できるキュレートされたものと見なされます
家族のメンバーシップを定義するしきい値。 たとえば、Rfamでは、これらのしきい値
Rfam Seedを使用した検索に基づいて、Rfamフルアラインメントに含まれるものを定義します
モデル。
--cut_nc
モデルのNC(ノイズカットオフ)ビットスコアしきい値を使用して、ヒットレポートを設定します
および包含しきい値。 NCしきい値は、通常、
最高スコアの既知の誤検知。
--cut_tc
モデルのTC(信頼できるカットオフ)ビットスコアしきい値を使用して、ヒットレポートを設定します
および包含しきい値。 TCしきい値は、通常、
何よりも既知の偽陽性である、スコアが最も低い既知の真陽性。
OPTIONS 制御 、 加速度 パイプライン
Infernal 1.1検索は、XNUMX段階のフィルターパイプラインで高速化されます。 最初のXNUMXつ
ステージはプロファイルHMMを使用して、ステージXNUMXのCMCYKに渡されるエンベロープを定義します。
フィルター。 すべてのフィルターを生き残ったエンベロープには、CMを使用して最終スコアが割り当てられます
内部アルゴリズム。
プロファイルHMMフィルターは、 cmビルド プログラムとに保存されます 。
連続する各フィルターは前のフィルターよりも低速ですが、
高スコアのCMヒットを含む可能性のあるサブシーケンスと含まれる可能性のあるサブシーケンスを区別する
いいえ。 最初の3つのHMMフィルターステージは、HMMER1で使用されているものと同じです。 ステージ1(FXNUMX)
は、長いシーケンス用に変更されたローカルHMMSSVフィルターです。 ステージ2(F2)はローカルHMMです
ビテルビフィルター。 ステージ3(F3)は、ローカルHMMフォワードフィルターです。 最初のXNUMXつのそれぞれ
ステージは、ローカルモードでプロファイルHMMを使用します。これにより、ターゲットサブシーケンスを
HMMの任意の領域。 ステージ4(F4)はグローカルHMMフィルターであり、ターゲットが必要です
フルレングスプロファイルHMMにアラインするサブシーケンス。 ステージ5(F5)はglocalHMMです
HMMER3のドメイン識別ヒューリスティックを使用して定義するエンベロープ定義フィルター
エンベロープ境界。 2から5までの各段階の後、バイアスフィルターステップ(F2b、F3b、F4b、および
F5b)は、バイアスが原因でフィルターを通過したように見えるシーケンスを削除するために使用されます
構成のみ。 次に、ステージF1からF5bまで生き残ったエンベロープは、次のように渡されます。
ローカルCMCYKフィルター。 CYKフィルターは、HMMから導出された制約(バンド)を使用します
必要な計算の数を減らし、時間を節約するための封筒の位置合わせ。
CYKに合格したエンベロープは、ローカルのCM Insideアルゴリズムでスコアリングされ、ここでもHMMが使用されます。
加速のためのバンド。
サブシーケンスに必要な最小スコアを定義するデフォルトのフィルターしきい値
各ステージを生き残るには、定義された探索空間(Z)のサイズに基づいて定義されます
現在のクエリシーケンスの長さに2を掛けたものとして(両方のストランドが
検索)のプロファイル数の倍 。 ただし、いずれかの場合 -Z or --FZ
オプションが使用されると、検索スペースは次のように見なされます。 の目的のために
フィルタのしきい値を定義します。
大規模なデータベースの場合、フィルターはより厳密になり、より高速になりますが、
感度が大幅に低下する可能性があります。 理論的根拠は、大規模なデータベースの場合、
統計的有意性を達成するには、ヒットのスコアが高くなければならないため、より厳密なフィルタリング
スコアの低い重要でないヒットを削除することは許容されます。
可能なすべての検索スペースサイズとすべてのフィルターステージのP値のしきい値は次のとおりです。
次にリストされています。 (0.01のP値のしきい値は、最高スコアの約1%を意味します
非相同サブシーケンスはフィルターを通過することが期待されます。)Zは次の数として定義されます。
両方の鎖が
各モデルで検索。
Zが2Mb未満の場合:F1は0.35です。 F2とF2bはオフです。 F3、F3b、F4、F4b、およびF5は0.02です。
F6は0.0001です。
Zが2Mbから20Mbの場合:F1は0.35です。 F2とF2bはオフです。 F3、F3b、F4、F4bおよびF5
0.005です。 F6は0.0001です。
Zが20Mbから200Mbの場合、F1は0.35です。 F2とF2bは0.15です。 F3、F3b、F4、F4bおよびF5
0.003です。 F6は0.0001です。
Zが200Mb〜2 Gbの場合:F1は0.15です。 F2とF2bは0.15です。 F3、F3b、F4、F4b、F5、
およびF5bは0.0008です。 F6は0.0001です。
Zが2Gb〜20 Gbの場合:F1は0.15です。 F2とF2bは0.15です。 F3、F3b、F4、F4b、F5、および
F5bは0.0002です。 F6は0.0001です。
Zが20Gbを超える場合:F1は0.06です。 F2とF2bは0.02です。 F3、F3b、F4、F4b、F5、およびF5b
0.0002です。 F6は0.0001です。
これらのしきい値は、多くのテストを行う内部ベンチマークのパフォーマンスに基づいて選択されました。
さまざまな可能な設定。
一般的なフィルタリングレベルを制御するには、XNUMXつのオプションがあります。 これらのオプションは、
最も厳格でない(最も遅いが最も敏感な)から最も厳格な(最も速いが最も感度が低い)までの順序
センシティブ): --max、 -うーん、 -中、 - デフォルト、 (これがデフォルト設定です) --rfam。 と
--hmmonly。 連絡先 - ディフォルト フィルタのしきい値はデータベースのサイズに依存します。 を参照してください
詳細については、以下のこれらの個々のオプションのそれぞれの説明。
さらに、エキスパートユーザーは、次の方法で各フィルターステージスコアのしきい値を正確に制御できます。
--F1、 --F1b、 --F2、 --F2b、 --F3、 --F3b、 --F4、 --F4b、 --F5、 --F5b、 と --F6 オプション。 として
また、各ステージをオンまたはオフにします。 --noF1、 --doF1b、 --noF2、 --noF2b、 --noF3、
--noF3b、 --noF4、 --noF4b、 --noF5、 と --noF6。 オプション。 これらのオプションは表示されるだけです
もし --devhelp オプションは、表示されるオプションの数を維持するために使用されます。 -h
合理的であり、少数のユーザーにのみ役立つことが期待されているためです。
特別な場合として、 塩基対がゼロのプロファイルHMM
CM検索の代わりに検索が実行されます。 HMMアルゴリズムはCMよりも効率的です
アルゴリズム、およびCMアルゴリズムの利点は、セカンダリのないモデルでは失われます
構造(ゼロ塩基対)。 これらのプロファイルHMM検索は、よりも大幅に高速に実行されます
CMが検索します。 HMMのみの検索を強制することができます --うーん オプション。 多くのための
HMMのみの検索に関する情報は、ユーザーガイドを参照してください。
--最大 すべてのフィルターをオフにし、すべてのフルレングスターゲットで非バンドインサイドを実行します
順序。 これにより、感度がいくらか向上しますが、速度が非常に高くなります。
-うーん
すべてのHMMフィルターステージ(F1からF5b)をオフにします。 QDBを使用するCYKフィルターは
すべての全長ターゲットシーケンスで実行され、P値のしきい値を適用します
0.0001。 CYKを生き残った各サブシーケンスは、Insideに渡されます。
QDBも使用します(ただし、より緩いセットです)。 これにより、感度がいくらか向上します。
速度に大きなコストがかかります。
--ミッド HMM SSVおよびViterbiフィルターステージ(F1からF2b)をオフにします。 残りのHMMを設定する
しきい値(F3からF5b)をデフォルトで0.02にフィルターしますが、次のように変更できます。
--フミッド 順序。 これにより、感度が向上する可能性がありますが、速度が大幅に低下します。
- ディフォルト
デフォルトのフィルタリング戦略を使用します。 このオプションはデフォルトでオンになっています。 フィルター
しきい値は、データベースのサイズに基づいて決定されます。
--rfam 大規模なデータベース(20 Gb以上)用に考案された厳密なフィルタリング戦略を使用します。 これ
感度に潜在的なコストをかけて検索を加速します。
--うーん
検索にはフィルタープロファイルHMMのみを使用し、CMは使用しないでください。 フィルタのみ
ステージF1からF3は、厳密なP値のしきい値(0.02
F1、F0.001の場合は2、F0.00001の場合は3)。 さらに、バイアス合成フィルターは
F1ステージの後に使用されます(P = 0.02生存しきい値)。 生き残るヒット
すべてのステージで、HMME値またはビットスコアがレポートのしきい値を超えている場合
出力されます。 ユーザーは、HMMのみのフィルターのしきい値とオプションを次のように変更できます。
--hmmF1、 --hmmF2、 --hmmF3、 --うーん、 --hmmnonull2、 と --hmmmax。 デフォルトでは、
塩基対がゼロのモデルの検索は、HMMのみのモードで実行されます。 これはできます
オフにすると、CMはこれらのモデルを強制的に検索します。 --ノーモンリー オプションを選択します。
--FZ
データベースが メガベース(Mb)。
一緒に使用する場合 20000(20 Gb)より大きい場合、このオプションはと同じ効果があります
--rfam。
--フミッド
--ミッド オプションは、HMMフィルターしきい値(F3からF5b)をに設定します 。 By
デフォルト、 0.02です。
その他 OPTIONS
--notrunc
切り捨てられたヒットの検出をオフにします。
--anytrunc
切り捨てられたヒットがターゲットシーケンスの任意の位置で開始および終了できるようにします。 に
デフォルトでは、5'の切り捨てられたヒットには、ターゲットシーケンスの最初の残基が含まれている必要があります
3'トランケートされたヒットには、ターゲット配列の最後の残基が含まれている必要があります。 と
このオプションでは、最初に伸びる完全な長さのヒットが少なくなり、
クエリCMの終わり。
--nonnull3
偏った構成のnull3CMスコア補正をオフにします。 この修正は
HMMフィルター段階では使用されません。
--mxsize
最大許容CMDPマトリックスサイズをに設定します メガバイト。 デフォルトでは、このサイズ
128Mbです。 これは、大多数の検索に十分な大きさである必要があります。
特に小さいモデルでは。 もしも cmsearch CYKで封筒に遭遇したまたは
より大きなマトリックスを必要とするステージ内では、エンベロープは
考慮。 この動作は、高価なものを防ぐ追加のフィルターのようなものです
(遅い)CM DP計算ですが、感度に潜在的なコストがかかります。 次の場合に注意してください
cmsearch で実行されています マルチコアマシン上の複数のスレッド、次にそれぞれ
スレッドには、最大サイズのマトリックスが割り当てられている場合があります いつでもMb。
--smxsize
最大許容CM検索DPマトリックスサイズをに設定します メガバイト。 デフォルトでは
このサイズは128Mbです。 このオプションは、CMがHMMを使用しない場合にのみ関連します
帯行列、つまり --max、 -うーん、 --qdb、 --fqdb、 -バンドなし、 or
--fnonbanded オプションも使用されます。 次の場合に注意してください cmsearch で実行されています
マルチコアマシン上の複数のスレッドの場合、各スレッドに割り当てられている可能性があります
最大サイズのマトリックス いつでもMb。
--サイク InsideではなくCYKアルゴリズムを使用して、すべてのヒットの最終スコアを決定します。
--アシク CYKアルゴリズムを使用して、ヒットを整列させます。 デフォルトでは、ダービン/ホームズの最適な精度
期待される精度を最大化するアライメントを見つけるアルゴリズムが使用されます
すべての整列された残基の。
--wcx
CMごとに、ヒットの予想される最大長であるWパラメーターを次のように設定します。
モデルのコンセンサス長の倍。 デフォルトでは、Wパラメータはから読み取られます
CMファイルであり、モデルの遷移確率に基づいて計算されました
by cmbuild。 を使用して、モデルのデフォルトWが何であるかを確認できます。 cmstat。 この
オプションは、いくつかのフィルタリングパイプラインに影響を与えるため、注意して使用する必要があります
自明ではない方法でさまざまな段階。 エキスパートユーザーにのみお勧めします
構築に使用されたホモログのいずれよりもはるかに長いヒットを検索する
のモデル cmbuild、 たとえば、大きなイントロンまたは他の大きな挿入があるもの。 それ
と組み合わせて使用することはできません -うーん、 --fqdb or --qdb オプションで
これらの場合、Wはクエリに依存するバンドによって制限されます。
--toponly
でターゲット配列のトップ(ワトソン)ストランドのみを検索 。 デフォルトでは、
両方のストランドが検索されます。 これにより、検索スペースのサイズ(Z)が半分になります。
--底だけ
でターゲット配列の一番下の(クリック)ストランドのみを検索します 。 By
デフォルトでは、両方のストランドが検索されます。 これにより、検索スペースのサイズ(Z)が半分になります。
--qformat
クエリシーケンスデータベースファイルの形式が正しいことを確認します 。 受け入れられるフォーマット
include fasta、 embl、 genbank、 ddbj、 ストックホルム、 pfam、 a2m、 afa、 clustal、 と フィリップ
デフォルトでは、ファイルの形式を自動検出します。
--glist
からモデルのサブセットを構成します 代わりにglocalアライメントモードで
ローカルモード、つまりファイルにリストされているモデル 。 他のすべてのモデルを構成する
(に記載されていないもの )。 ローカルモードで。 このオプションはと互換性がありません -g。
File からのモデルの有効な名前をリストする必要があります 、 それぞれが
空白文字(改行文字など)。
- CPU
並列ワーカースレッドの数をに設定します 。 デフォルトでは、Infernalはこれを設定します
マシンで検出されたCPUコアの数に合わせて-つまり、
利用可能なプロセッサコアを最大限に活用します。 設定 より高い
使用可能なコアの数は、あるとしてもほとんど価値がありませんが、次のように設定することをお勧めします。
何か少ない。 環境を設定してこの数を制御することもできます
変数、 INFERNAL_NCPU。 このオプションは、Infernalがコンパイルされた場合にのみ使用できます
POSIXスレッドをサポートします。 これはデフォルトですが、でオフになっている可能性があります
何らかの理由でサイトまたはマシンのコンパイル時。
- ストール
MPIマスター/ワーカーバージョンをデバッグする場合:開始後に一時停止して、
実行中のマスタープロセスとワーカープロセスにデバッガーをアタッチする開発者。 送信
一時停止を解除するSIGCONTシグナル。 (gdbの下: (gdb) 信号 SIGCONT) (のみ
オプションのMPIサポートがコンパイル時に有効になっている場合に使用できます。)
--mpi MPIマスター/ワーカーモードで実行し、 mpirun。 (オプションのMPIの場合にのみ使用可能
サポートはコンパイル時に有効になりました。)
onworks.netサービスを使用してオンラインでcmscanを使用する