これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド htseq-qa です。
プログラム:
NAME
htseq-qa - ハイスループットシーケンシングリードの簡単な品質評価を実行します
Pythonスクリプト htseq-qa シーケンシング読み取りを含むファイルを取得します(生またはアライメント済みのいずれか)
読み取り)、実行の技術的品質を評価するために役立つプロットを含む PDF ファイルを生成します。
プロット
典型的なプロットは次のとおりです: [画像]
プロットは、位置合わせされた読み取りと位置合わせできない読み取りを含む SAM ファイルから作成されます。 左
列はアライメントされていないリードから作成され、右の列はアライメントされたリードから作成されます。 ヘッダー
SAM ファイルの名前と読み取り数が通知されます。
上の行は、リードの各位置でどの塩基がコールされた頻度を示します。 この中で
サンプルでは、アライメント不可能なリードには A が明らかに過剰です。アライメントされたリードにはバランスがあります。
補完読み取り間: A と C (赤みがかった色) は同じレベルを持ち、C と C も同様です。
G(緑がかった色)。 シーケンスはAT濃厚なようです。 さらに、ほぼすべて揃っています
リードは T で始まり、A が続き、その後、リードの 70% で C、30% で A になります。
このような不均衡は、適切な説明がない場合、懸念の理由となるでしょう。 ここで、
その理由は、サンプルの断片化が酵素消化によって行われたためです。
下半分は、さまざまなポジションでの豊富なベースコール品質スコアを示しています。
読み物で。 ほぼすべてのアライメントされたリードの品質は全長にわたって 34 ですが、
非アライメントリードの場合、一部のリードの品質スコアは終端に向かって低くなります。
USAGE
注意してください htseq-qa プロットを生成するには matplotlib が必要なので、これをインストールする必要があります
モジュール、説明どおり こちら matplotlib Web サイトにあります。
HTSeq をインストールした後 (「 install) と matplotlib を実行すると、 htseq-qa
コマンドライン:
htseq-qa [オプション] read_file
ファイルの場合 htseq-qa がパスにない場合は、次のようにスクリプトを呼び出すこともできます。
python -m HTSeq.scripts.qa [オプション] read_file
この 読み取りファイル FASTQ ファイルまたは SAM ファイルのいずれかです。 SAM ファイルの場合、XNUMX つのプロット
列は上記のように生成されますが、FASTQ ファイルの場合、取得できる列は XNUMX つだけです。
出力は、以下と同じ名前のファイルに書き込まれます。 読み取りファイル、接尾辞付き PDFファイル
追加した。 Acrobat ReaderなどのPDFビューアでご覧ください。
オプション
-t 、 --type =
ファイルの種類 読み取りファイル。 サポートされている値 には次の値があります:
· SAM: SAM ファイル ( SAMツール ほとんどの変換を行うための Perl スクリプトが含まれています
SAM へのアライメント形式)
· ソレキサエクスポート:an _エクスポート.txt SolexaPipeline ソフトウェアによって生成されたファイル
エランドと調整した後(htseq-qa 新しい Solexa 品質のエンコーディングを次のように期待します。
SolexaPipeline のバージョン 1.3 以降によって生成されます)
· ファストク: 標準 (Sanger または Phred) 品質のエンコードを使用した FASTQ ファイル
· ソレクサファストク: Solexa 品質のエンコーディングを使用した FASTQ ファイル。
Bustard によるベースコール後の SolexaPipeline (htseq-qa 新しいソレクサを期待しています
SolexaPipeline のバージョン 1.3 以降で生成された高品質のエンコーディング)
-o 、 --outfile=
出力ファイル名 (デフォルトは 「」.pdf``)
-r 、 --readlength=
最大読み取り長 (指定しない場合、スクリプトはファイルから推測します)
-g 、 --gamma =
品質スコアプロットのコントラスト調整のガンマ係数
-NS、 --nosplit
リードをアライメントされていないリードとアライメントされたリードに分割しないでください。つまり、XNUMX 列のプロットを生成します。
-NS、 --maxqual
データに表示される最大品質スコア (デフォルト: 40)
-NS、 - 助けて
使用状況の概要を表示して終了する
onworks.net サービスを使用してオンラインで htseq-qa を使用する