Ini adalah perintah sim4 yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa workstation online gratis kami seperti Ubuntu Online, Fedora Online, emulator online Windows atau emulator online MAC OS
PROGRAM:
NAMA
sim4 - menyelaraskan urutan DNA yang diekspresikan dengan urutan genom
RINGKASAN
sim4 seqfile1 seqfile2 {[WXKCRDAPNB]=nilai}
DESKRIPSI
sim4 adalah alat berbasis kesamaan untuk menyelaraskan urutan DNA yang diekspresikan (EST, cDNA, mRNA)
dengan urutan genom untuk gen. Itu juga mendeteksi kecocokan akhir ketika dua input
urutan tumpang tindih di satu ujung (yaitu, awal dari satu urutan tumpang tindih dengan akhir
lainnya). Jika seqfile2 adalah database urutan, urutan dalam seqfile1 akan disejajarkan
dengan masing-masing urutan dalam seqfile2.
sim4 menggunakan teknik berbasis ledakan untuk pertama-tama menentukan blok pencocokan dasar
mewakili "inti ekson". Pada tahap pertama ini, ia mendeteksi semua kemungkinan kecocokan yang tepat
dari W-mers (yaitu, kata-kata DNA ukuran W) antara dua sekuens dan memperluasnya ke
segmen bebas celah skor maksimal. Pada tahap kedua, inti ekson diperluas menjadi
fragmen berdekatan yang belum tertandingi menggunakan algoritma penyelarasan serakah, dan heuristik
digunakan untuk mendukung konfigurasi yang sesuai dengan sinyal pengenalan lokasi sambungan (GT-
AG, CT-AC). Jika perlu, proses diulangi dengan parameter yang kurang ketat pada
fragmen yang tak tertandingi.
Secara default, sim4 mencari untaian dan melaporkan kecocokan terbaik, diukur dengan nomor
nukleotida yang cocok ditemukan dalam keselarasan. Opsi baris perintah R dapat digunakan untuk
membatasi pencarian untuk satu orientasi (untai) saja.
Saat ini, lima opsi tampilan penyelarasan utama didukung, dikendalikan oleh opsi A.
Secara default (A=0), hanya titik akhir, kesamaan keseluruhan, dan orientasi intron
dilaporkan. Tanda panah (`->' atau `<-') menunjukkan orientasi intron (`+' atau
`-' strand), ketika sinyal yang mengapit intron memiliki tiga atau lebih posisi yang cocok dengan
sinyal pengenalan sambungan GT-AG atau CT-AC. Ketika jumlah pertandingan yang sama
ditemukan untuk kedua orientasi, intron dilaporkan sebagai ambigu, dan diwakili oleh
`--'. Tanda `==' menandai tidak adanya penyelarasan fragmen cDNA mulai dari
posisi itu. Format alternatif (format blok lav, teks, `file exons' tipe PipMaker, atau
kombinasi tertentu dari opsi ini) dapat diminta dengan menentukan nilai yang berbeda
untuk sebuah.
Jika opsi P ditentukan dengan nilai bukan nol, sim4 akan menghapus poli-A ujung 3' apa pun
ekor yang terdeteksi dalam penyelarasan.
Kadang, sim4 mungkin kehilangan ekson internal ketika dikelilingi oleh intron yang sangat besar,
biasanya lebih panjang dari 100 Kb. Ketika ini dicurigai, opsi H dapat digunakan untuk mengatur ulang
bobot ekson untuk mengkompensasi penalti celah intron.
Kode ambiguitas secara default diizinkan dalam data urutan, tetapi sim4 memperlakukan mereka non-
secara berbeda. Jika diinginkan, opsi perintah B dapat membatasi set yang dapat diterima
karakter ke A, C, G, T, N dan X saja.
sim4 membandingkan panjang urutan input untuk membedakan antara cDNA (`pendek')
dan komponen genomik (`panjang') dalam perbandingan. Kapan seqfile2 berisi koleksi
urutan, entri pertama dalam file akan digunakan untuk menentukan jenis ini dan
semua perbandingan berikutnya.
Dalam uraian di bawah, istilah MSP menunjukkan a Maksial Sbagian Pudara, yaitu sepasang
fragmen yang sangat mirip dalam dua urutan, diperoleh selama prosedur seperti ledakan oleh
memperpanjang pukulan W-mer oleh pertandingan dan mungkin beberapa ketidakcocokan.
PILIHAN
Parameter algoritme (termasuk dalam dua bagian pertama di bawah) telah
disetel dan biasanya tidak memerlukan penyesuaian oleh pengguna.
Parameter internal untuk prosedur seperti ledakan:
W Menyetel ukuran kata untuk ledakan hit di tahap pertama algoritme. Standarnya
nilainya adalah 12, tetapi dapat ditingkatkan untuk pencarian yang lebih ketat atau dikurangi menjadi
menemukan kecocokan yang lebih lemah.
X Mengontrol batas untuk menghentikan ekstensi kata dalam tahap seperti ledakan dari
algoritma. Nilai defaultnya adalah 12.
K Menetapkan ambang batas untuk skor MSP saat menentukan `exon cores' dasar,
selama tahap pertama dari algoritma. (Jika opsi ini tidak ditentukan, tombol
ambang batas dihitung dari panjang urutan, menggunakan statistik
kriteria.) Misalnya, nilai yang baik untuk urutan genom dalam kisaran beberapa
ratus Kb adalah 16. Untuk menghindari kecocokan palsu, bagaimanapun, nilai yang lebih besar mungkin diperlukan
untuk urutan yang lebih panjang.
C Menetapkan ambang batas untuk skor MSP saat menyelaraskan fragmen yang belum tertandingi,
selama tahap kedua dari algoritma. Secara default, konstanta yang lebih kecil
12 dan ambang batas berbasis statistik dipilih.
Parameter algoritma tambahan:
D Menetapkan batas untuk jarak "diagonal" dalam MSP berurutan dalam ekson. NS
nilai default adalah 10.
Parameter konteks:
R Menentukan arah pencarian. Jika R=0, hanya untai "+" (langsung) yang
dicari. Jika R=1, hanya kecocokan "-" (komplemen terbalik) yang dicari. Secara default
(R=2), sim4 mencari kedua untai dan melaporkan kecocokan terbaik, diukur dengan
jumlah pasangan yang cocok dalam keselarasan.
A Menentukan format output: hanya titik akhir ekson (A=0), titik akhir ekson dan
batas wilayah pengkodean (CDS) dalam urutan genom, bila ditentukan untuk
input mRNA (A=5), teks perataan (A=1), perataan dalam format blok-lav (A=2), atau
titik akhir ekson dan teks perataan (A=3 atau A=4). Jika komplemen terbalik cocok
ditemukan, A=0,1,2,3,5 akan memberikan posisinya di untai "+" yang lebih panjang
urutan dan untai "-" dari urutan yang lebih pendek. A=4 akan memberikan posisinya di
untai "+" dari urutan pertama (seqfile1) dan untai "-" dari yang kedua
sequence (seqfile2), terlepas dari urutan mana yang lebih panjang. Opsi A=5 dapat berupa
digunakan dengan opsi baris perintah S untuk menentukan titik akhir CDS di
mRNA, dan menghasilkan output dalam format `exons file' yang dibutuhkan oleh PipMaker.
P Menentukan apakah program harus melaporkan fragmen perataan atau tidak
mengandung ekor poli-A (jika ditemukan). Secara default (P=0) perataan ditampilkan
seperti yang dihitung, tetapi menentukan nilai bukan nol akan meminta sim4 untuk menghapus poli-A
ekor. Saat fitur ini diaktifkan, semua opsi tampilan menghasilkan lava tambahan
header penyelarasan.
H Mengatur ulang bobot MSP untuk mengimbangi intron yang sangat besar. Nilai defaultnya adalah
H=500, tetapi beberapa intron yang lebih besar dari 100 Kb mungkin memerlukan nilai yang lebih tinggi, biasanya
antara 1000 dan 2500. Opsi ini harus digunakan dengan hati-hati, umumnya dalam kasus
di mana bagian internal cDNA yang tak tertandingi dapat menyamarkan ekson yang terlewat dalam a
intron yang sangat besar. Tidak direkomendasikan untuk EST, di mana mereka dapat menghasilkan palsu
ekson.
N Meminta pencarian tambahan untuk ekson marginal kecil (N=1) yang dipandu oleh splice-
sinyal pengenalan situs. Opsi ini dapat digunakan ketika kecocokan dengan akurasi tinggi
mengharapkan. Nilai defaultnya adalah N=0, tidak menentukan pencarian tambahan.
B Mengontrol set karakter yang diizinkan dalam urutan input. Secara default (B=1),
karakter ambiguitas (ABCDGHKMRNRSTVWXY) diperbolehkan. Dengan menentukan B=0, himpunan dari
karakter yang dapat diterima dibatasi hanya untuk A,C,G,T,N dan X.
S Memungkinkan pengguna untuk menentukan titik akhir CDS di mRNA input, dengan
sintaks: S=n1..n2. Opsi ini hanya tersedia dengan flag A=5, yang menghasilkan
output dalam format yang dibutuhkan oleh PipMaker. Atau, koordinat CDS bisa
muncul dalam CDS konstruk=n1..n2 di header FastA dari urutan mRNA. Ketika
file kedua adalah database mRNA, spesifikasi baris perintah untuk CDS akan
berlaku untuk urutan pertama dalam file saja.
CONTOH
sim4 adalah genomik
sim4 genomik estdb
sim4 adalah genomik A=1 P=1
sim4 est1 est2 R=1
sim4 mRNA genomik A=5 S=123..1020
sim4 mouse_cDNA human_genomic K=15 C=11 A=3 W=10
PENULIS
sim4 ditulis oleh Liliana Florea[email dilindungi]> dan Scott Schwartz.
Halaman manual ini ditulis oleh Nelson A. de Oliveira[email dilindungi]>, berdasarkan
dokumentasi online di http://globin.cse.psu.edu/html/docs/sim4.html, untuk Debian
proyek (tetapi dapat digunakan oleh orang lain).
Rab, 03 Agustus 2005 18:40:58 -0300 SIM4(1)
Gunakan sim4 online menggunakan layanan onworks.net