Ini adalah perintah fastx_barcode_splitter.pl yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa workstation online gratis kami seperti Ubuntu Online, Fedora Online, Windows online emulator atau MAC OS online emulator
PROGRAM:
NAMA
fastx_barcode_splitter.pl - Pemisah Kode Batang FASTX
DESKRIPSI
Pemisah Kode Batang, oleh Assaf Gordon ([email dilindungi]), 11 September 2008
Program ini membaca file FASTA/FASTQ dan membaginya menjadi beberapa file yang lebih kecil, Berdasarkan:
pencocokan kode batang. Data FASTA/FASTQ dibaca dari STDIN (format terdeteksi otomatis.) Output
file akan ditulis ke disk. Ringkasan akan dicetak ke STDOUT.
penggunaan: r.pl --bcfile FILE --awalan Awalan [--akhiran akhiran] [--bol|--eol]
[--ketidakcocokan N] [--tepat] [--sebagian N] [--bantuan] [--tenang] [--debug]
Argumen:
--bcfile FILE - Nama file barcode. (lihat penjelasan di bawah.) --awalan PREFIX - Berkas
awalan. akan ditambahkan ke file output. Dapat digunakan
untuk menentukan direktori keluaran.
--akhiran SUFFIX - Akhiran file (opsional). Dapat digunakan untuk menentukan file
ekstensi.
--bol - Cobalah untuk mencocokkan barcode di AWAL urutan.
(Apa yang oleh para ahli biologi disebut sebagai ujung 5', dan para programmer akan menyebutnya sebagai indeks 0.)
--eol - Cobalah untuk mencocokkan barcode di AKHIR urutan.
(Apa yang oleh para ahli biologi disebut sebagai akhir 3', dan para programmer akan menyebutnya sebagai akhir dari
string.) CATATAN: salah satu dari --bol, --eol harus ditentukan, tetapi tidak keduanya.
--ketidakcocokan N - Maks. jumlah ketidaksesuaian yang diizinkan. defaultnya adalah 1. --akurat - Sama
sebagai '--tidak cocok 0'. Jika keduanya --akurat dan --ketidakcocokan
ditentukan, '--exact' diutamakan.
--sebagian N - Memungkinkan tumpang tindih sebagian dari barcode. (lihat penjelasan di bawah.)
(Default tidak cocok sebagian)
--diam - Jangan mencetak hitungan dan ringkasan di akhir run.
(Default adalah untuk mencetak.)
--debug - Cetak banyak informasi debug yang tidak berguna ke STDERR. --membantu -
Layar bantuan yang membantu ini.
Contoh (Dengan asumsi 's_2_100.txt' adalah file FASTQ, 'mybarcodes.txt' adalah file barcode):
$ kucing s_2_100.txt | /build/fastx-toolkit-V6DvdY/fastx-toolkit-0.0.14/debian/fastx-
toolkit/usr/bin/fastx_barcode_splitter.pl --bcfile mybarcodes.txt --bol
--tidak cocok 2 \
--awalan /tmp/bla_ --akhiran ".txt"
Format file kode batang ------------------- File barcode adalah file teks sederhana. Setiap baris
harus berisi pengenal (nama deskriptif untuk kode batang), dan kode batang itu sendiri
(A/C/G/T), dipisahkan oleh karakter TAB. Contoh:
#Baris ini adalah komentar (diawali dengan tanda 'angka') BC1 GATCT BC2 ATCGT BC3 GTGAT
BC4 TGTCT
Untuk setiap kode batang, file FASTQ baru akan dibuat (dengan pengidentifikasi kode batang sebagai bagian
dari nama file). Urutan yang cocok dengan kode batang akan disimpan dalam file yang sesuai.
Menjalankan contoh di atas (dengan asumsi "mybarcodes.txt" berisi kode batang di atas), akan
buat file berikut:
/tmp/bla_BC1.txt /tmp/bla_BC2.txt /tmp/bla_BC3.txt /tmp/bla_BC4.txt
/tmp/bla_unmatched.txt
File 'tidak cocok' akan berisi semua urutan yang tidak cocok dengan kode batang apa pun.
Pencocokan kode batang ----------------
** Tanpa pencocokan sebagian:
Hitung ketidakcocokan antara urutan FASTA/Q dan barcode. Barcode yang
dicocokkan dengan jumlah ketidakcocokan terendah (asalkan hitungannya kecil atau sama dengan
'--mismatches N') 'mendapat' urutan.
Contoh (menggunakan kode batang di atas): Urutan Input:
GATTTACTATGTAAAAGATAGAAGGAATAAGGTGAAG
Sesuai dengan '--bol --ketidakcocokan 1':
GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT (1 tidak cocok, BC1) ATCGT (4 tidak cocok,
BC2) GTGAT (3 ketidakcocokan, BC3) TGTCT (3 ketidakcocokan, BC4)
Urutan ini akan diklasifikasikan sebagai 'BC1' (memiliki jumlah ketidakcocokan terendah). Jika
'--exact' atau '--mismatches 0' ditentukan, urutan ini akan diklasifikasikan sebagai
'tidak cocok' (karena, meskipun BC1 memiliki jumlah ketidakcocokan terendah, itu di atas maksimum
ketidakcocokan yang diizinkan).
Mencocokkan dengan '--eol' (akhir baris) melakukan hal yang sama, tetapi dari sisi lain
urutan.
** Dengan pencocokan sebagian (sangat mirip dengan indels):
Sama seperti di atas, dengan tambahan berikut: barcode juga diperiksa untuk tumpang tindih sebagian
(jumlah basis non-tumpang tindih yang diizinkan adalah '--partial N').
Contoh: Urutan input adalah ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG (Sama seperti di atas, tetapi perhatikan
'G' yang hilang di awal.)
Sesuai (tanpa sebagian tumpang tindih) terhadap BC1 hasil panen 4 ketidakcocokan:
ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT (4 ketidakcocokan)
Sebagian tumpang tindih akan juga mencoba itu berikut cocok:
-ATTTACTATGTAAAAGATAGAAGGAATAAGGTGAAG
GATCT (1 ketidakcocokan)
Catatan: penilaian menghitung basis yang hilang sebagai ketidakcocokan, jadi jumlah ketidakcocokan akhir adalah 2 (1
ketidakcocokan 'nyata', 1 ketidakcocokan 'basis yang hilang'). Jika dijalankan dengan '--mismatches 2' (artinya
memungkinkan hingga 2 ketidakcocokan) - urutan ini akan diklasifikasikan sebagai BC1.
Gunakan fastx_barcode_splitter.pl online menggunakan layanan onworks.net