これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド bp_load_gffp です。
プログラム:
NAME
bp_load_gff.pl - GFF ファイルから Bio::DB::GFF データベースをロードします。
SYNOPSIS
% bp_load_gff.pl -d testdb -u user -p pw
--dsn 'dbi:mysql:database=dmel_r5_1;host=myhost;port=myport'
dna1.fa dna2.fa 特徴 1.gff 特徴 2.gff ...
DESCRIPTION
このスクリプトは、GFF のリストに含まれる機能を含む Bio::DB::GFF データベースをロードします。
ファイルおよび/または FASTA シーケンス ファイル。 で説明されている GFF の正確なバリアントを使用する必要があります。
バイオ::DB::GFF。 さまざまなコマンドライン オプションを使用して、どのデータベースをロードするかを制御できます
既存のデータベースの上書きを許可するかどうか。
このスクリプトは Bio::DB::GFF インターフェイスを使用するため、すべてのデータベース アダプターで動作します。
現在そのモジュールでサポートされています (MySQL、Oracle、PostgreSQL は近々サポートされます)。 ただし、遅いです。
より高速なロードについては、MySQL 固有の bp_bulk_load_gff.pl および bp_fast_load_gff.pl を参照してください。
スクリプト。
注意事項
ファイル名が「-」として指定されている場合、入力は標準入力から取得されます。 圧縮された
ファイル (.gz、.Z、.bz2) は自動的に解凍されます。
FASTA 形式のファイルは、ファイル名拡張子によって GFF ファイルと区別されます。 ファイル
.fa、.fasta、.fast、.seq、.dna で終わるものおよびそれらの大文字のバリアントは FASTA として扱われます。
ファイル。 それ以外はすべて GFF ファイルとして扱われます。 -fasta ファイルをロードしたい場合は、
STDIN の場合は、次のように、引数 '-' を指定して -f コマンド ライン スイッチを使用します。
ガンジップ my_data.fa.gz | bp_fast_load_gff.pl -d テスト -f -
データベースの最初のロード時に、多数の「不明なテーブル」エラーが表示されます。 これは
ノーマル。
maxfeature について: デフォルト値は 100,000,000 ベースです。 という特徴があれば、
長さが 100Mb に近いかそれを超える場合は、maxfeature の値を増やす必要があります。
1,000,000,000、または 10 の累乗まで。
コマンドライン OPTIONS
コマンドラインオプションは、XNUMX文字のオプションに省略できます。 例:の代わりに-d
-データベース。
--dsn データソース(デフォルトはdbi:mysql:test)
- アダプタスキーマアダプター (デフォルト dbi::mysqlopt)
- ユーザーmysql認証のユーザー名
- 合格mysql認証用のパスワード
--ファスタDNA の Fasta ファイル、または Fasta ファイルを含むディレクトリ
--createデータベースの作成と初期化を強制します
--maxfeature 最大機能サイズの値を設定します (デフォルトは 100 Mb、10 の累乗である必要があります)。
--group XNUMX つ以上のタグ名のリスト (カンマまたはスペースで区切る)
9 列目のグループ化に使用されます。
--upgrade 既存のデータベースを現在のスキーマにアップグレードします
--gff3_munge GFF3 名の変更をアクティブ化します (Bio::DB::GFF を参照)
--quit 進捗レポートはありません
--summary カバレッジ ヒストグラムを描画するための概要統計を生成します。
これは、以前にロードされたデータベース上で、またはロード中に実行できます。
積み荷。
onworks.net サービスを使用してオンラインで bp_load_gffp を使用する