これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド cmemit です。
プログラム:
NAME
cmemit - 共分散モデルからのサンプル シーケンス
SYNOPSIS
cmemit [オプション]
DESCRIPTION
この cmemit プログラムは、共分散モデルからシーケンスをサンプリング (発行) します。 、 とレーザー
それらを出力に書き込みます。 サンプリング シーケンスはさまざまな目的に役立ちます。
これには、ベンチマークまたはテスト用の合成真陽性の作成が含まれます。
デフォルトでは、各 CM から XNUMX 個のアラインされていないシーケンスをサンプリングします。 または、 -c
オプションを使用すると、単一の多数決規則コンセンサス シーケンスを生成できます。 または -a オプション、あなた
アラインメントを出すことができます。
この CM のライブラリが含まれる場合があり、その場合、各 CM が順番に使用されます。
'-'(ダッシュ)の場合があります。これは、この入力をから読み取ることを意味します。 stdin ファイルではなく。
塩基対がゼロのモデルの場合、代わりにプロファイル HMM フィルターからシーケンスがサンプリングされます。
CMの。 ただし、これらのモデルはほぼ同じであるため(特別なオプションを除く)
で使用された cmビルド これを防ぐため)、CM の代わりに HMM を使用しても、
重要な方法で出力します。 -l オプションが使用されます。 と -l、 HMMは
モデルの開始位置と終了位置が等確率に設定されていますが、CM はそうではありません。 あなたはできる
力 cmemit 常に CM からサンプリングするには、 --ノーモンリー オプションを選択します。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なオプションの簡単なリマインダーを出力します。
-o 合成配列をファイルに保存する それらを標準出力に書き込むのではなく。
-N 生成する シーケンス。 のデフォルト値 10です。
-u 生成されたシーケンスを非整列形式 (FASTA) で書き込みます。 これがデフォルトです
行動。
-a 生成されたシーケンスをコンセンサスのある整列形式 (STOCKHOLM) で書き込みます
FASTA ではなく構造注釈。 他の出力形式は、
--outformat オプションを選択します。
-c サンプリング シーケンスの代わりに単一の多数決ルール コンセンサス シーケンスを予測する
CMの確率分布から。 高度に保存された残基 (塩基対
スコアが 3.0 ビットを超える残基、またはスコアが XNUMX 本鎖の残基
1.0 ビット以上) は大文字で表示されます。 その他は小文字で表示されます。
-e より大きなランダムに生成された長さのシーケンスに CM 放出シーケンスを埋め込む
実際のゲノム シーケンスでトレーニングされた HMM から生成され、さまざまな
GC コンテンツ (によって使用される同じ HMM cmキャリブレーション)。 あなたが使用することができます --iid オプション
代わりに 25% の A、C、G、および U シーケンスを生成します。 CM放映シーケンスが始まります
より大きなシーケンス内のランダムな位置にあり、そのシーケンスに含まれます
ない限り全体 --u5p or --u3p オプションが使用されます。 いつ -e で使用されています
との組み合わせ --u5p、 CM によって放出されるシーケンスは、常に位置 1 から始まります。
より大きな配列であり、5' で切り捨てられます。 組み合わせて使用する場合 --u3p CM
発行されたシーケンスは常に位置で終了します より大きなシーケンスの
切り捨てられた 3'。
-l シーケンスを送信する前に、CM をローカル モードに設定します。 デフォルトでは、モデル
グローバルモードになります。 ローカル モードでは、大量の挿入と削除がより多くなります。
グローバル モードよりも一般的です。
OPTIONS FOR 切り捨て 放出された シーケンス
--u5p ランダムに選択された開始位置で、放出されたすべてのシーケンスを切り捨てます 、 だけで
で始まる残基を出力する 。 別の開始点がランダムに選択されます
シーケンスごとに。
--u3p ランダムに選択された終了位置で、放出されたすべてのシーケンスを切り捨てます 、 だけで
位置までの残基を出力する 。 別の終点がランダムに選択されます
シーケンスごとに。
--a5p
と組み合わせて -a オプションで、放出されたアラインメントをランダムに切り捨てます
選んだ試合開始位置 、 位置のアライメント列のみを出力することによって
試合後の様子 - 1。 0 からコンセンサスまでの整数でなければなりません
モデルの長さ (これは、 cmstat プログラム。 特典として
ケース、0 を使用 ランダムに選択された開始位置になります。
--a3p
と組み合わせて -a オプションで、放出されたアラインメントをランダムに切り捨てます
選ばれたエンドマッチの位置 、 位置のアライメント列のみを出力することによって
試合前の様子 + 1。 1 からコンセンサスまでの整数でなければなりません
モデルの長さ (これは、 cmstat プログラム)。 として
0 を使用する特別なケース ランダムに選択された終了位置になります。
その他 OPTIONS
- シード
乱数ジェネレータに次のシードを与えます 、 整数 >= 0。 ゼロ以外の場合、
シーケンスの確率的サンプリングは再現可能です。 同じコマンドで
同じ結果です。 もしも は 0 で、乱数ジェネレーターは任意にシードされます。
確率的サンプリングは、同じコマンドの実行ごとに異なります。 の
デフォルトのシードは 0 です。
--iid 連絡先 -e、 A、C、G、および U ごとに 25% の大きなシーケンスを生成します。
--rna 出力されたシーケンスが RNA シーケンスとして出力されるように指定します。 これは、
デフォルト。
--DNA 出力されたシーケンスが DNA シーケンスとして出力されるように指定します。 デフォルトでは、
出力アルファベットは RNA です。
--idx
発行されたシーケンスに次で始まる名前を付けることを指定します . . By
デフォルト 1です。
--outformat
連絡先 -a、 出力アライメント形式を次のように指定します 。 受け入れ可能な形式は次のとおりです。
AFA、A2M、クラスタル、フィリップ。 AFA はすぐに調整されます。 プファムとストックホルムのみ
アラインメント形式には、コンセンサス構造の注釈が含まれます。
--tfile
出力された各シーケンスの表形式のシーケンス解析木 (トレースバック) をファイルにダンプします
。 主にデバッグに役立ちます。
--exp
CM の放出確率と遷移確率を指数化します。 その後
シーケンスを発行する前に、これらの分布を再正規化します。 このオプションは、
デフォルトに対する解析木の CM 確率分布。 と 未満
1.0 にアラインメントすると、出力されたシーケンスのビット スコアが低くなる傾向があります。
CM。 と1.0 より大きいと、発行されたシーケンスのビットが高くなる傾向があります。
CM に合わせて得点します。 このビット スコアの差は、次のように増加します。
いずれかの方向に 1.0 からさらに離れます。 もしも1.0 に等しい、このオプション
デフォルトに比べて効果はありません。 このオプションは、シーケンスの生成に役立ちます
どちらかがより困難です( < 1.0) またはより簡単 ( > 1.0) CM の
バックグラウンド、ランダム配列と相同であると識別します。
--うーん
CM の代わりにフィルター プロファイル HMM から放出します。
--ノーモンリー
フィルタ プロファイル HMM から放出しないでください。常に CM を使用してください。
ゼロ塩基対。
onworks.net サービスを使用してオンラインで cmemit を使用する