これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド hmscan です。
プログラム:
NAME
hmmscan - タンパク質プロファイルデータベースに対してタンパク質配列を検索します
SYNOPSIS
うーんスキャン [オプション]
DESCRIPTION
うーんスキャン は、タンパク質プロファイルのコレクションに対してタンパク質配列を検索するために使用されます。 のために
の各シーケンス 、そのクエリ シーケンスを使用して、ターゲット データベースを検索します。
プロファイル 、最も重要なプロファイルのランク付けされたリストを出力します。
シーケンスと一致します。
この 複数のクエリシーケンスが含まれる場合があります。 FASTA形式、または
他のいくつかの一般的なシーケンス ファイル形式 (特に、genbank、embl、uniprot)、または
アラインメント ファイル形式 (ストックホルム、アラインメント ファスタなど)。 を参照してください。 --qformat オプション
完全なリストについては、
この を使用して押す必要があります うーんプレス で検索する前に うーんスキャン.
これにより、拡張子 .h3{fimp} の付いた XNUMX つのバイナリ ファイルが作成されます。
クエリ '-'(ダッシュ文字)の場合があります。この場合、クエリシーケンスは次のようになります。
から読むファイルからではなくパイプ。 NS からは読み取れません
ストリームには、これらの XNUMX つの補助バイナリ ファイルが生成される必要があるためです。
うーんプレス.
出力形式は人間が読めるように設計されていますが、多くの場合、非常に大量であるため
それを読むことは非現実的であり、それを解析することは苦痛です。 NS --tbout と --domtblout オプション
出力を、簡潔で解析しやすい単純な表形式で保存します。 の -o オプション
/dev/null に捨てるなど、メイン出力をリダイレクトできます。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なすべてのオプションの簡単なリマインダーを印刷します。
OPTIONS FOR 制御 出力
-o 人間が読める形式のメイン出力をファイルに送信する デフォルトのstdoutの代わりに。
--tbout
ターゲットごとの出力を要約した単純な表形式 (スペース区切り) ファイルを保存します。
見つかった相同ターゲット モデルごとに XNUMX つのデータ行があります。
--domtblout
ドメインごとの出力を要約した単純な表形式 (スペース区切り) ファイルを保存します。
クエリシーケンスで検出された相同ドメインごとに XNUMX つのデータ行が含まれます。
相同モデル。
--pfamtblout
ごとに要約した特に簡潔な表形式 (スペース区切り) ファイルを保存します。
ターゲット出力。見つかった相同ターゲット モデルごとに XNUMX つのデータ行が含まれます。
--acc プロファイルで使用可能な場合は、メイン出力で名前の代わりにアクセッションを使用します
および/またはシーケンス。
-ノアリ
メイン出力から位置合わせセクションを省略します。 これにより、出力が大幅に減少する可能性があります
ボリューム。
--notextw
メイン出力の各行の長さを無制限にします。 デフォルトは120の制限です
XNUMX行あたりの文字数。これは、端末で出力をきれいに表示するのに役立ちます。
エディターでは、ターゲットプロファイルの説明行を切り捨てることができます。
--textw
メイン出力の行長制限をに設定します XNUMX行あたりの文字数。 デフォルトは
120.
OPTIONS FOR 報告 しきい値
レポートしきい値は、出力ファイル (メイン出力、
--tbout, --domtblout).
-E ターゲットごとの出力で、E 値が <= のターゲット プロファイルをレポートします。 を選択します。
デフォルトは10.0です。これは、平均して約10件の誤検知が報告されることを意味します。
クエリごとに、ノイズの上部を確認し、それがそうであるかどうかを自分で判断できるようにします
本当にノイズ。
-T E 値のプロファイルごとの出力をしきい値処理する代わりに、ターゲットをレポートします。
ビットスコアが >= のプロファイル .
- ドーム
ドメインごとの出力では、すでに要件を満たしているターゲット プロファイルの場合、
プロファイルレポートしきい値、条件付き E 値を使用して個々のドメインをレポート
<=の 。 デフォルトは 10.0 です。 条件付き E 値は期待される数値を意味します
それらのより小さい検索スペース内の追加の誤検知ドメイン
すでにプロファイルごとのレポートしきい値を満たしている比較 (したがって、
少なくとも XNUMX つの相同ドメインがすでに存在している必要があります)。
--domT
E 値に基づいてドメインごとの出力をしきい値処理する代わりに、次の値を使用してドメインをレポートします。
> =のビットスコア .
OPTIONS FOR インクルージョン しきい値
包含しきい値は、レポートしきい値よりも厳密です。 包含しきい値制御
どのヒットが出力アラインメントまたは
その後の探索ラウンド。 で うーんスキャン、アライメント出力はありません(たとえば、
うーん検索 or ファーマー) または反復的な検索ステップ (例: ジャックマー)、包含しきい値
効果はほとんどありません。 これらは、重要 (!) またはマークが付けられたドメインにのみ影響します。
ドメイン出力に疑問 (?) があります。
--incE
<=のE値を使用します ターゲットごとの包含しきい値として。 デフォルトは
0.01、つまり、平均すると、すべてのケースで約 1 人の偽陽性が予想されることになります。
異なるクエリシーケンスを使用した 100 回の検索。
--incT
包含しきい値を設定するためにE値を使用する代わりに、ビットを使用します
> =のスコア ターゲットごとの包含しきい値として。 使うのは珍しいでしょう
ビットスコアしきい値 うーんスキャン、単一のスコアを期待していないため
さまざまなプロファイルで機能するためのしきい値。 異なるプロファイルには若干の違いがあります
予想されるスコア分布が異なります。
--incdomE
<= の条件付き E 値を使用します。 ドメインごとの包含しきい値として、
ターゲットごとの全体的な包含しきい値をすでに満たしているターゲット。
デフォルトは0.01です。
--incdomT
E 値を使用する代わりに、>= のビット スコアを使用します。 ドメインごとに
包含閾値。 同様に --incT 上記では、単一ビットを使用するのは異常です。
スコアしきい値 うーんスキャン.
OPTIONS FOR モデル固有 スコア しきい値処理
厳選されたプロファイル データベースでは、プロファイルごとに特定のビット スコアしきい値を定義できます。
統計的有意性のみに基づいたしきい値処理を置き換えます。
これらのオプションを使用するには、プロファイルに適切な(GA、TC、および/またはNC)が含まれている必要があります
オプションのスコアしきい値注釈。 これはによってピックアップされます うーんビルド ストックホルム形式から
アライメントファイル。 各しきい値処理オプションには 1 つのスコアがあります: シーケンスごとのしきい値
およびドメインごとのしきい値これらはあたかも -T --incT --domT
--incdomT 各モデルの厳選されたしきい値を使用して具体的に適用されています。
--cut_ga
モデルの GA (ギャザリング) ビット スコアを使用して、シーケンスごと (GA1) およびシーケンスごとに設定します。
ドメイン (GA2) のレポートと包含のしきい値。 GA のしきい値は通常、
家族構成員を定義する信頼できる精選された閾値であると考えられます。 のために
たとえば、Pfam では、これらのしきい値は Pfam Full に何が含まれるかを定義します。
Pfam Seed モデルによる検索に基づくアライメント。
--cut_nc
モデル内の NC (ノイズ カットオフ) ビット スコアしきい値を使用してシーケンスごとに設定します
(NC1) およびドメインごと (NC2) のレポートおよび包含のしきい値。 NC しきい値は次のとおりです。
一般に、既知の偽陽性の最高スコアのスコアであると考えられます。
--cut_tc
モデル内の NC (トラステッド カットオフ) ビット スコアしきい値を使用してシーケンスごとに設定します
(TC1) およびドメインごと (TC2) のレポートおよび包含のしきい値。 TC しきい値は次のとおりです。
一般に、既知の真陽性のスコアのうち最も低いスコアであると考えられています。
とりわけ既知の誤検知です。
CONTROL OF 、 加速度 パイプライン
HMMER3 検索は、MSV フィルター、
ビタビ フィルターとフォワード フィルター。 最初のフィルターは最も高速かつ最も効果的です。
近似; 最後は完全なフォワード スコアリング アルゴリズムです。 バイアスフィルターもある
MSV とビタビの間のステップ。 アクセラレーション パイプラインのすべてのステップを通過するターゲット
その後、後処理、つまりドメインの識別とスコアリングが行われます。
前方/後方アルゴリズム。
フィルターのしきい値を変更すると、ターゲットが考慮から除外または除外されるだけです。 変化
フィルターのしきい値は、ビット スコア、E 値、またはアライメントを変更しません。
後処理でのみ決定されます。
--最大 バイアスフィルターを含むすべてのフィルターをオフにし、前進/後退をフルに実行します。
すべてのターゲットでの後処理。 これにより、全体として感度が若干向上します。
速度のコスト。
--F1
MSV フィルター ステップの P 値のしきい値を設定します。 デフォルトは 0.02 です。つまり、
最高スコアの非相同ターゲットの約 2% が合格すると予想される
フィルター。
--F2
ビタビ フィルター ステップの P 値のしきい値を設定します。 デフォルトは 0.001 です。
--F3
順方向フィルター ステップの P 値のしきい値を設定します。 デフォルトは 1e-5 です。
--ノビアス
バイアスフィルターをオフにします。 これにより感度は多少向上しますが、
特にクエリに偏った残基構成がある場合(たとえば、
反復配列領域、または大きな領域を持つ膜タンパク質の場合
疎水性)。 バイアス フィルターを使用しないと、多くのシーケンスがフィルターを通過する可能性があります。
偏ったクエリを使用すると、予想よりもパフォーマンスが低下します。
計算集約的な前方/後方アルゴリズムは異常に重い処理を負担します。
ロードします。
その他 OPTIONS
--nonnull2
偏った構成の null2 スコア補正をオフにします。
-Z 検索のターゲットの合計数が次であることをアサートします。 、 目的のために
実際のターゲット数ではなく、シーケンスごとの E 値の計算
見た。
--domZ
検索のターゲットの合計数が次であることをアサートします。 、 目的のために
ターゲットの数ではなく、ドメインごとの条件付き E 値計算の数
報告しきい値を超えたもの。
- シード
乱数シードを次のように設定します。 。 後処理の一部のステップでは Monte が必要です
カルロのシミュレーション。 デフォルトでは、固定シード (42) が使用されるため、結果は次のようになります。
まさに再現可能。 他の正の整数では異なる結果が得られます (ただし、
再現可能)の結果。 0 を選択すると、任意に選択されたシードが使用されます。
--qformat
クエリ シーケンス ファイルが次の形式であることをアサートします。 。 受け入れられる形式には次のものがあります。
ファスタ, エンブレム, ゲンバンク, ddbj, ユニプロット, ストックホルム, ファム, a2m, 祖父.
- CPU
並列ワーカースレッドの数をに設定します 。 デフォルトでは、HMMER はこれを次のように設定します。
マシン内で検出された CPU コアの数 - つまり、最大化を試みます
利用可能なプロセッサ コアの使用。 設定 の数よりも高い
利用可能なコア数はたとえあったとしてもほとんど価値がありませんが、何かに設定するとよいでしょう。
以下。 環境変数を設定してこの数値を制御することもできます。
HMMER_NCPU.
このオプションは、HMMER が POSIX スレッドをサポートしてコンパイルされた場合にのみ使用できます。
これはデフォルトですが、サイトまたはマシンではオフになっている可能性があります。
何らかの理由で。
- ストール
MPIマスター/ワーカーバージョンをデバッグする場合:開始後に一時停止して、
実行中のマスタープロセスとワーカープロセスにデバッガーをアタッチする開発者。 送信
一時停止を解除するSIGCONTシグナル。 (gdbの下: (gdb) 信号 シグコント)
(オプションの MPI サポートがコンパイル時に有効になっている場合にのみ使用可能です。)
--mpi MPIマスター/ワーカーモードで実行し、 ムピルン.
(オプションの MPI サポートがコンパイル時に有効になっている場合にのみ使用可能です。)
onworks.net サービスを使用してオンラインで hmmscan を使用する