これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド sreformat です。
プログラム:
NAME
sreformat - シーケンス ファイルを別の形式に変換する
SYNOPSIS
再フォーマット [オプション] 形式でアーカイブしたプロジェクトを保存します. seqファイル
DESCRIPTION
再フォーマット シーケンスファイルを読み込みます seqファイル サポートされている任意の形式で、新しい形式に再フォーマットします
で指定された形式 フォーマット、 次に、再フォーマットされたテキストを出力します。
サポートされている入力形式には、アライメントされていない形式の FASTA、
Genbank、EMBL、SWISS-PROT、PIR、および GCG、および関連フォーマット Stockholm、Clustal、GCG
MSF、フィリップ。
利用可能なアラインされていない出力ファイル形式コードには、次のものがあります。 ファスタ (FASTA形式); エンブレム
(EMBL/SWISSPROT フォーマット); ゲンバンク (Genbank形式); gcg (GCG 単一シーケンス形式);
gcgdata (GCG フラットファイル データベース形式); PIR (PIR/CODATA フラットファイル形式); 生 (生
シーケンス、その他の情報なし)。
利用可能なアラインされた出力ファイル形式コードには、次のものがあります。 ストックホルム (PFAM/ストックホルム形式);
MSF (GCG MSF 形式); a2m (整列された FASTA 形式); フィリップ (Felsenstein の PHYLIP 形式);
と クラスター (Clustal V/W/X 形式); と セレックス (古い SELEX/HMMER/Pfam 注釈付き
アライメント形式);
XNUMX つのコードはすべて、大文字と小文字を区別せずに解釈されます (たとえば、MSF、Msf、または msf はすべて機能します)。
位置合わせされていない形式のファイルは、位置合わせされた形式に再フォーマットできません。 ただし、アラインされたフォーマット
アラインされていない形式に再フォーマットできます。ギャップ文字は単純に取り除かれます。
このプログラムはもともと 再フォーマット、 しかし、その名前は GCG プログラムの
同じ名前です。
OPTIONS
-d DNA; U を T に変換して、核酸配列が DNA ではなく DNA として表示されるようにします。
RNA。 見る -r。
-h 簡単なヘルプを印刷します。 バージョン番号とすべてのオプションの概要が含まれます。
エキスパートのオプション。
-l 小文字; すべての配列残基を小文字に変換します。 見る -の。
-n DNA/RNA 配列の場合、明確な RNA/DNA ではない任意の文字を変換します (例:
ACGTU/acgtu) を N に変換します。ソフトウェア用に、IUPAC 曖昧性コードを N に変換するために使用されます
すべての IUPAC コード (たとえば、いくつかの公開 RNA フォールディング コード) を処理できるわけではありません。 もしも
ファイルはアラインメントで、ギャップ文字も変更されません。 シーケンスが
核酸配列ではないため、このオプションはデータを予測可能な形式で破損します。
ファッション。
-r RNA; T を U に変換して、核酸配列が RNA ではなく RNA として表示されるようにします。
DNA。 見る -d。
-u 大文字; すべての配列残基を大文字に変換します。 見る -l。
-x DNA 配列の場合、非 IUPAC 文字 (X など) を N に変換します。 これがためのものです
IUPAC の代わりに X を使用することを主張する夜更かしした人々との互換性
あいまい性文字 N. (X はアミノ酸残基のあいまいさを表します)。
警告: のように -n オプション、コードはあなたが実際にそれを与えているかどうかをチェックしません
DNA。 文字通り、非 IUPAC DNA シンボルを N に変換するだけです。
誤ってタンパク質配列を与えると、ほとんどすべてのアミノが喜んで変換されます
Nへの酸残基。
EXPERT OPTIONS
--ギャップシム
すべてのギャップ文字を . プログラムの調整ファイルを準備するために使用されます
ギャップ シンボルには厳しい要件があります。 入力が seqファイル is
アライメント。
--informat
シーケンス ファイルの形式を指定します。 、 プログラムを許可するのではなく
ファイル形式を自動検出します。 一般的な例には、Genbank、EMBL、GCG、PIR、
ストックホルム、Clustal、MSF、または PHYLIP。 詳細については、印刷されたドキュメントを参照してください。
受け入れられるフォーマット名のリスト。
--ミンガプ
If seqファイル 100% ギャップ文字を含む列を削除します。
アライメントの全長を最小限に抑えます。 (抽出した場合に役立つことがよくあります
より大きなアラインメントからのアラインメントされた配列のサブセット。)
--ノギャップ
ギャップ記号を含む整列列をすべて削除します。 前奏として有用
100% を含む列のみを分析したい系統解析へ
残留物があるため、ギャップのある列を取り除きます。 意味があるだけ
ファイルがアライメント ファイルの場合。
--pfam SELEX アラインメント出力形式の場合のみ、アラインメント全体を XNUMX つのブロックに入れます
(複数のブロックにラップしないでください)。 これは、によって内部的に使用される形式に近いです。
ストックホルムとケンブリッジの Pfam。
--サム ギャップ文字を UC Santa Cruz SAM スタイルに変換してみてください。 のギャップを意味します。
- はコンセンサス/一致列の削除を意味します。 これだけ
アラインされたファイル形式を変換するために機能し、アラインメントがすでに行われている場合にのみ機能します
コンセンサス/一致における残基の大文字の SAM 規則に準拠します
列、および挿入列の残基の小文字。 これは本当です。たとえば、
古いバージョンの HMMER によって生成されたすべての配置の。 (HMMER2 はアラインメントを生成します
ギャップ文字の選択においても SAM の規則に準拠します。) このオプションは
Pfam アラインメントをより適切なものに再フォーマットできるようにするために追加されました。
UCSC SAM ソフトウェアを使用したプロファイル HMM 構築。
--samfrac
アラインメント ギャップ文字と残基ケースを UC Santa Cruz SAM に変換してみてください
スタイル、ここで . は挿入列のギャップを意味し、- は挿入列の削除を意味します。
コンセンサス/一致列、大文字は一致/コンセンサス残基を意味し、小文字は一致/一致残基を意味します
case は、挿入された残基を意味します。 これは、整列されたファイルを変換する場合にのみ機能します
フォーマットですが、 --サム オプションを指定すると、ファイルが
大文字/小文字の残基規則に従います。 代わりに、
分数以上 のギャップ文字は挿入列として解釈され、
他のすべての列は一致列として解釈されます。 このオプションは、許可するために追加されました
プロファイル HMM により適したものに再フォーマットされる Pfam アライメント
UCSC SAM ソフトウェアを使用した構築。
--wussify
RNA 二次構造アノテーション文字列の変換 (コンセンサスと個別の両方)
古い "KHS" 形式 >< から新しい WUSS 表記 <> へ。 表記がすでにある場合
WUSS 形式では、このオプションは警告なしに失敗します。 セレックスのみと
現在、ストックホルム形式のファイルには二次構造のマークアップがあります。
--デュース
RNA 二次構造アノテーション文字列を新しい WUSS 表記 <> から変換します。
古い KHS 形式に戻ります ><。 注釈がすでに KHS にある場合、このオプション
警告なしに破損します。 SELEX および Stockholm 形式のファイルのみが
二次構造マークアップ。
onworks.net サービスを使用してオンラインで sreformat を使用する