これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド hmmbuild です。
プログラム:
NAME
hmmbuild - 複数の配列アラインメントからプロファイル HMM を構築する
SYNOPSIS
うーんビルド [オプション]
DESCRIPTION
それぞれの複数の配列アライメントについて、 プロファイル HMM を作成し、それを新しい
file .
'-'(ダッシュ)の場合があります。これは、この入力をから読み取ることを意味します。 stdin ファイルではなく。
「-」を使用するには、アライメント ファイル形式も指定する必要があります。 --informat , 〜のように
--informat ストックホルム (実装における現在の制限のため、MSA ファイル
巻き戻し不可能な入力ストリームでは形式を自動検出できません。)
じゃないかもしれない '-' (stdout)、HMMファイルをに送信するため (Linuxで言うところのstdout) でしょう
プログラムの他のテキスト出力と競合します。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なすべてのオプションの簡単なリマインダーを印刷します。
-n 新しいプロファイルに名前を付ける . デフォルトでは、線形の名前が使用されます (線形の場合
に存在する msaファイル、またはそれが失敗した場合、の名前 うーんファイル。 場合 msaファイル
複数のアライメントが含まれており、 -n は機能せず、すべての配置には
で注釈が付けられた名前 msaファイル (ストックホルム #=GF ID 注釈と同様)。
-o 概要出力をファイルに送信します 、ではなく (Linuxで言うところのstdout).
-O 各モデルが構築された後、注釈が付けられ、場合によっては変更されたソースを再保存します
ファイルへの整列 ストックホルム形式。 アライメントには、
コンセンサスとして割り当てられた列を示す参照注釈行、および
シーケンスには、割り当てられた相対的なシーケンスの重みで注釈が付けられます。 いくつかの
アラインメントの残基は、の制限に対応するためにシフトされている可能性があります
挿入と削除の間の遷移を許可しない Plan7 プロファイル アーキテクチャ
状態。
OPTIONS FOR 指定する 、 アルファベット
アルファベットのタイプ (アミノ、DNA、または RNA) は、デフォルトで自動検出されます。
の構成 msaファイル。 自動検出は通常は非常に信頼できますが、場合によっては
アルファベットの種類があいまいな場合があり、自動検出が失敗する可能性があります (たとえば、小さなおもちゃの場合)
わずか数残基のアライメント)。 これを回避するため、または自動化されたシステムの堅牢性を高めるため
分析パイプラインでは、アルファベットの種類を指定できます。 msaファイル これらのオプションを使用します。
- アミノ
すべてのシーケンスが msaファイル タンパク質です。
--DNA すべてのシーケンスが msaファイル DNAです。
--rna すべてのシーケンスが msaファイル RNAです。
OPTIONS 制御 プロフィール 建てる
これらのオプションは、アライメント内でコンセンサス列を定義する方法を制御します。
- 速い コンセンサス列を分数 >= を持つ列として定義します。 シンフラック 残基の
ギャップに反対。 (詳細については以下を参照してください) --symfrac オプションです。)これがデフォルトです。
- 手 複数への参照アノテーションを使用して、次のプロファイルでコンセンサス列を定義します。
アライメント。 これにより、任意のコンセンサス列を定義できます。
--symfrac
次の場合にコンセンサス列を定義するために必要な残基画分しきい値を定義します。
- 速い オプション。 デフォルトは 0.5 です。 各列の記号分数は次のとおりです。
相対的なシーケンスの重み付けを考慮し、ギャップを無視した後に計算されます。
配列フラグメントの終わりに対応する文字 (内部の文字列とは対照的に)
挿入/削除)。 これを 0.0 に設定すると、すべての配置列が
コンセンサスとして割り当てられるため、場合によっては役立つ場合があります。 1.0に設定すると
ギャップ (内部挿入/削除) が 0 個含まれる列のみが対象となることを意味します。
コンセンサスとして割り当てられました。
--フラグスレシュ
整列された配列が既知である場合にのみ、末端ギャップを欠失としてカウントしたいと考えます。
フラグメントの場合ではなく、完全長である必要があります(たとえば、その一部だけであるため)
配列された)。 HMMER は単純なルールを使用してフラグメントを推論します。
アラインメントのシーケンス (最初と
シーケンスの最後の位置) が分数以下 回
アラインメントの長さを列単位で指定すると、配列はフラグメントとして扱われます。 の
デフォルトは 0.5 です。 設定 --フラグスレシュ0 no (空でない) シーケンスを として定義します。
断片; 慎重にキュレーションされた
全長配列のアラインメント。 設定 --フラグスレシュ1 すべてを定義します
フラグメントとしてのシーケンス; あなたのアライメントがわかっている場合は、これを行うことができます
メタゲノムの翻訳された短いリードなど、完全にフラグメントで構成されています
ショットガンデータ。
OPTIONS 制御 相対 WEIGHTS
HMMER は、アドホック シーケンス重み付けアルゴリズムを使用して、密接に関連するシーケンスを重み付けします。
そして遠縁のものを重視します。 これには、モデルの偏りを軽減する効果があります。
不均一な系統的表現。 たとえば、XNUMX つの同一のシーケンスは通常、
それぞれは XNUMX つのシーケンスの半分の重みを受けます。 これらのオプションは、どれを制御するか
アルゴリズムが使用されます。
--wpb Henikoff 位置ベースのシーケンス重み付けスキームを使用します [Henikoff および Henikoff、
J.Mol. バイオル。 243:574、1994]。 これがデフォルトです。
--wgsc Gerstein/Sonnhammer/Chothia重み付けアルゴリズムを使用する[Gersteinら、J.Mol.
バイオル。 235:1067、1994]。
--wblosum
BLOSUM の計算時にデータの重み付けに使用されたのと同じクラスタリング スキームを使用します。
置換行列 [Henikoff and Henikoff、Proc. 国立アカド。 Sci 89:10915、1992]。
シーケンスは、同一性しきい値 (デフォルトは 0.62、参照) で単一連鎖クラスター化されます。
--幅) そして c シーケンスの各クラスター内で、各シーケンスは相対的な重みを取得します。
1/c。
--wone
相対的な重みはありません。 すべてのシーケンスには均一の重みが割り当てられます。
--幅
単一リンククラスタリングを使用する場合に使用されるアイデンティティしきい値を設定します。 --wblosum.
他の重み付けスキームでは無効です。 デフォルトは 0.62 です。
OPTIONS 制御 効果的な シーケンス 数
相対的な重みが決定された後、合計が有効になるように正規化されます。
シーケンス番号、 eff_nseq。 この数は、実際のシーケンスの数である可能性があります。
しかし、ほとんどの場合、それよりも小さくなります。 デフォルトのエントロピー重み付け
方法 (--ent) 有効なシーケンス番号を減らして情報コンテンツを削減します。
コンセンサス位置ごとの(相対エントロピー、または真のホモログの平均期待スコア)。 の
ターゲットの相対エントロピーは XNUMX つのパラメーター関数によって制御されます。
パラメータは次のように設定できます --えれ --エシグマ.
--ent 実効シーケンス番号を調整して、特定の相対エントロピーを達成します。
位置(参照 --えれ)。 これがデフォルトです。
--eclust
有効シーケンス番号を一度に単一リンケージクラスターの数に設定します。
特定の ID しきい値 (「 --イード)。 このオプションは推奨されません。 それはのためです
どれだけ優れているかを評価する実験 --ent です。
--エノン
有効なシーケンス番号の決定をオフにして、実際のシーケンス番号のみを使用します。
シーケンス。 これを行う理由の XNUMX つは、相対的な値を最大化しようとすることです。
モデルのエントロピー/位置。短いモデルに役立つ場合があります。
--eset
すべてのモデルの実効シーケンス番号を明示的に設定します。 .
--えれ
最小相対エントロピー/位置ターゲットを次のように設定します。 。 必要です --ent。 デフォルト
配列のアルファベットに依存します。 タンパク質配列の場合、0.59 ビット/位置です。
ヌクレオチド配列の場合、0.45 ビット/位置です。
--エシグマ
モデル全体のアライメントによって寄与される最小相対エントロピーを設定します。
その全長。 これにより、短いモデルの相対値が高くなる効果があります。
位置ごとのエントロピーよりも --えれ 一人で与えるだろう。 デフォルトは 45.0 ビットです。
--イード
単一連鎖クラスタリングで使用される分数ペアワイズ ID カットオフを設定します。
--eclust オプション。 デフォルトは 0.62 です。
OPTIONS 制御 先住民族
デフォルトでは、加重カウントは平均事後確率パラメーターに変換されます
混合ディリクレ事前分布を使用した推定。 のデフォルト混合ディリクレ事前パラメータ
タンパク質モデルと核酸 (RNA および DNA) モデルが組み込まれています。
オプションを使用すると、デフォルトの事前確率をオーバーライドできます。
--pnone
事前設定は使用しないでください。 確率パラメータは単に観測された値になります。
相対シーケンス重み付け後の周波数。
--plaplace
デフォルトの混合ディリクレ事前分布の代わりにラプラス +1 事前分布を使用します。
OPTIONS 制御 Eバリュー 較正
MSV フィルター スコアの予想されるスコア分布の位置パラメーター、
ビタビ フィルター スコアとフォワード スコアには、XNUMX つの短いランダム シーケンス シミュレーションが必要です。
--EML
位置パラメータ mu を推定するシミュレーションでシーケンスの長さを設定します。
MSV フィルターの E 値。 デフォルトは 200 です。
--EmN
位置パラメータ mu を推定するシミュレーションでのシーケンスの数を設定します。
MSV フィルターの E 値の場合。 デフォルトは 200 です。
--EvL
位置パラメータ mu を推定するシミュレーションでシーケンスの長さを設定します。
ビタビ フィルターの E 値。 デフォルトは 200 です。
--EvN
位置パラメータ mu を推定するシミュレーションでのシーケンスの数を設定します。
ビタビ フィルターの E 値の場合。 デフォルトは 200 です。
--EfL
位置パラメータ tau を推定するシミュレーションでのシーケンス長を設定します。
順方向 E 値の場合。 デフォルトは 100 です。
--EfN
位置パラメータを推定するシミュレーションにおけるシーケンスの数を設定します。
tau は Forward E 値です。 デフォルトは 200 です。
--エフト
位置を推定するシミュレーションに適合するように尾部の質量分率を設定します。
Forward evalue のパラメータ tau。 デフォルトは 0.04 です。
その他 OPTIONS
- CPU
並列ワーカースレッドの数をに設定します 。 デフォルトでは、HMMER はこれを次のように設定します。
マシン内で検出された CPU コアの数 - つまり、最大化を試みます
利用可能なプロセッサ コアの使用。 設定 の数よりも高い
利用可能なコア数はたとえあったとしてもほとんど価値がありませんが、何かに設定するとよいでしょう。
以下。 環境変数を設定してこの数値を制御することもできます。
HMMER_NCPU.
このオプションは、HMMER が POSIX スレッドをサポートしてコンパイルされた場合にのみ使用できます。
これはデフォルトですが、サイトまたはマシンではオフになっている可能性があります。
何らかの理由で。
--informat
入力を宣言します msaファイル 形式になっています 。 現在受け入れられている複数の
アライメント シーケンス ファイル形式には、Stockholm、Aligned FASTA、Clustal、NCBI が含まれます
PSI-BLAST、PHYLIP、Selex、および UCSC SAM A2M。 デフォルトでは、次の形式を自動検出します。
ファイル。
- シード
乱数ジェネレータに次のシードを与えます 、整数 >= 0。 ゼロ以外の任意の値です
確率的シミュレーションは再現可能です。 同じコマンドで同じ結果が得られます
結果。 もしも が 0 の場合、乱数ジェネレーターは任意にシードされ、
確率的シミュレーションは、同じコマンドの実行ごとに異なります。 デフォルト
シードは42です。
--w_beta
ウィンドウの長さのテール質量。 上限は、 W、nmmer が期待する長さ
モデルのインスタンスを見つけるには、すべてのシーケンスの割合が次のように設定されます。
長さのあるモデルによって生成される >= W よりも少ない 。 デフォルトは 1e-7 です。
--w_length
モデル インスタンスの長さの上限をオーバーライドします。 W、それ以外の場合はによって制御されます
--w_beta。 モデルの長さよりも大きくなければなりません。 の値 W 深く使われている
アクセラレーション パイプライン内にあり、小規模な変更は結果に影響を与えることは予想されません
(ただし、より大きな値は W 実行時間が長くなります)。
--mpi 並列 MPI プログラムとして実行します。 各アライメントは MPI ワーカー ノードに割り当てられます。
工事。 (したがって、最大並列化は、
入力のアライメント msaファイル.) これは、大きなプロファイルを作成するときに役立ちます。
ライブラリ。 このオプションは、オプションの MPI 機能が有効になっている場合にのみ使用できます。
コンパイル時。
- ストール
MPI 並列化のデバッグ用: プログラムの実行を直後に停止する
起動し、デバッガーが実行中のプロセスにアタッチして解放するのを待ちます
逮捕。
--maxinsertlen
予想される挿入長が
モデルの各位置は .
onworks.net サービスを使用してオンラインで hmmbuild を使用する