dnaclust-クラウドでのオンライン

Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、またはMACOSオンラインエミュレーターを介してOnWorks無料ホスティングプロバイダーでdnaclustを実行します

これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドdnaclustです。

Ubuntuで実行 Fedoraで実行 WindowsSimで実行 MACOSSimで実行

プログラム：

NAME

dnaclust-多数の短いDNA配列をクラスター化するプログラム

SYNOPSIS

dnaclust {-i | - 入力} ファイル内 [{-s | -類似性} しきい値]
[{-m | -マルチプルアラインメント}] [{-d | - ヘッダ}] [{-l | -左ギャップ-許可}]
[{-k | --k-mer-length} 長さ] [{-a | -概算フィルター}] [--k-mer-フィルターなし]

dnaclust [{-h | - 助けて} | {{-v | - バージョン}]

DESCRIPTION

このマニュアルページでは、 dnaclust プログラム。

dnaclust は、多数の短いDNA配列をクラスター化するためのツールです。クラスターは
各クラスターの「半径」が指定された値を超えないように作成された
閾値。

クラスター化する入力シーケンスは、Fasta形式である必要があります。各シーケンスのIDは
Fasta形式のシーケンスの最初の単語に基づいています。最初の単語は接頭辞です
ヘッダー内の空白文字の最初の出現までのヘッダーの。ザ
出力はSTDOUTに書き込まれます。出力をファイルに書き込む場合は、リダイレクトするだけです
出力（例を参照）。

出力にはXNUMXつのモードがあります。デフォルトのクラスタリングモードと、複数のクラスタリング
配列アラインメント。クラスタリングモード（マルチプルアラインメントなし）では、各クラスターは
別の行に印刷されます。この行には、次のシーケンスのIDが含まれます。
集まる。各行の最初のIDは、クラスターセンターのシーケンスIDです。方法のために
私たちのクラスターは構築され、クラスターの中心シーケンスの長さは常に長くなります
クラスター内のいずれかのシーケンスの長さ以上。以来注意してください
通常、一部のクラスターには多くのシーケンスが含まれているため、出力の行が非常に長くなる場合があります。もしも
出力を視覚的に検査したい場合は、「less -S」、または
長い行を折り返さないでください。クラスターの数は、「wc-l」を使用して見つけることができます。

マルチプルアラインメントモードの詳細については、の説明を参照してください。
-マルチプルアラインメント オプションを選択します。

OPTIONS

プログラムは通常のGNUコマンドライン構文に従い、XNUMXつから始まる長いオプションがあります
ダッシュ（ '-'）。オプションの概要は以下に含まれています。

-類似性 しきい値, -s しきい値
類似性のしきい値は、作成されたクラスターの半径を指定します。このパラメータ
は0から1までの浮動小数点数です。セミグローバルに基づいて計算されます
クラスター中心配列への配列のアラインメント。つまり、類似性= 1-（編集
距離）/（短いシーケンスの長さ）。編集距離は最小数です
シーケンスをクラスターにアリングするために必要な挿入、削除、または置換の
センターシーケンス。類似性が高いほど、アルゴリズムは高速になります。

--k-mer-length 長さ, -k 長さ
k-merフィルター（デフォルトで有効になっています）を使用する場合は、
フィルタリングに使用されるk-merの最大長。

k-merの長さが長いほど、k-merカウントとフィルタリングを保存するためにより多くのメモリが必要になります
遅くなります。ただし、k-merの長さが長いほど、フィルターはより具体的になります。
したがって、配列アラインメント検索はより高速になる可能性があります。

フィルタリングと検索時間の間にはトレードオフがあります。指定しない場合
k-merの長さlog4（入力シーケンスの長さの中央値）の値が選択されます
自動的。このオプションを使用すると、デフォルト値を上書きできます。

ただし、k-merの長さが長いほど、格納するためにより多くのメモリが必要になることに注意してください。
フィルタリングデータ構造。

-概算フィルター , -a
デフォルトでは、k-merフィルターは100％感度があります。これは、出力で
クラスタリングでは、XNUMXつのクラスター中心が互いにしきい値距離内にありません。
ただし、正確なフィルターはやや遅いです。このオプションは、を使用してフィルターを高速化します
ヒューリスティック。近似フィルターを使用すると、クラスターの中心が次のようになる可能性があります。
近くにあり、全体的に多数のクラスターがあります。ただし、近似フィルターは通常
正確な高感度フィルターよりも数倍高速です。次の場合は、このオプションを使用してください
主にデータの冗長性を減らすためのクラスタリングであり、
クラスタリングの品質。

--allow-left-gaps , -l
このオプションを使用すると、距離はセミグローバルアラインメントに基づいて測定されます。ザ
セミグローバルアラインメントにより、短い方の両端にペナルティなしでギャップが可能になります
シーケンス。

デフォルトのアラインメントは、片側のセミグローバルアラインメントです。つまり、ギャップは許可されるだけです
ペナルティなしで短いシーケンスの右端に。この動作はに対応します
領域のターゲットシーケンシングからのデータ（例：16SリボソームRNA遺伝子）。

-マルチプルアラインメント, -m
各クラスターのマルチプルアラインメントを表示するように出力フォーマットを設定します。ザ
アラインメントのギャップは、ダッシュ '-'文字で表されます。

MSA出力の形式は次のとおりです。各クラスターのMSAは複数にまたがっています。
行。 MSAは、文字「＃」を含む行で始まり、その後に
そのクラスター内のシーケンス。アラインメントされたシーケンス（ギャップが含まれている可能性があります）は次のとおりです
Fasta形式。各FastaレコードはXNUMX行で構成されます。ヘッダー行と
シーケンスライン。整列された各シーケンスはXNUMX行に出力されるため、出力
非常に長い行が含まれる場合があります。 'less -S'、またはラップしないエディターを使用してください
MSAを検査するための長い行も。

--k-mer-フィルターなし
k-merフィルターを無効にします。非常に短いシーケンスを高いレベルでクラスタリングするのに適しています
類似性のしきい値。

-d, - ヘッダ
出力するプログラムオプションを記述します。

-h, - 助けて
オプションの概要を表示します。

-v, - バージョン
プログラムのバージョンを表示します。

例

./dnaclust file.fasta -l -s 0.98 -k3>クラスター

onworks.netサービスを使用してオンラインでdnaclustを使用する