Ini adalah perintah getData yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa workstation online gratis kami seperti Ubuntu Online, Fedora Online, emulator online Windows atau emulator online MAC OS
PROGRAM:
NAMA
getData - mengambil database dari Internet
RINGKASAN
getData [ --mirrordir ]
getData --daftar
DESKRIPSI
Bioinformatika memiliki masalah intrinsik untuk membawa data biologis ke pengguna akhir.
Para astronom memiliki masalah yang setara dan fisikawan partikel, yah, mereka telah muncul
dengan (pertama) web dan (kedua) kisi komputasi untuk mengatasi masalah mereka.
Debian membantu program tetapi tidak akan menyediakan kumpulan data yang begitu besar yang genap
sering diperbarui - bahkan di volatile.debian.org. Sebagian besar peneliti bioinformatika akan
tidak perlu terlalu banyak database tersebut. Dan terlebih lagi dengan senang hati akan terus menggunakan publik
layanan jarak jauh.
Bagi mereka yang membutuhkan satu set database secara teratur, script ini akan menjadi awal untuk
mengotomatiskan beban untuk mengunduh data dan memperbarui indeks dan sejenisnya. Dunia memiliki
melihat keajaiban seperti itu sebelumnya dengan alat Lion Biosciences Prisma
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) tapi bagaimana dengan sesuatu yang lebih sederhana
(sebagai permulaan) yang setidaknya mendekati apa yang kita inginkan dan Gratis. Tujuannya harus untuk
menjawab kebutuhan semua (sebagian besar) komunitas, tidak hanya dunia bioinformatika. NS
benih maka dibuat dengan database dari astronomi.
Silakan hubungi komunitas Debian-Med jika Anda menganggap program ini hampir siap
untuk kebutuhan Anda dan jelaskan apa yang masih perlu ditambahkan. Basis data publik yang Anda kelola
untuk mengintegrasikan dengan sistem ini juga disambut dengan sangat hangat sebagai umpan balik.
PILIHAN
--membantu
bantuan ini
--pria
Menyajikan deskripsi yang lebih rinci dalam bentuk halaman manual.
--bertele-tele
Ucapkan satu atau dua kata lebih dari yang dibutuhkan.
--mirrordir
Menentukan direktori tujuan. Data akan dicerminkan ke folder
$mirrordir/$dbname/. Perlu diketahui bahwa mirrordir ini tidak disimpan di mana pun. NS
direktori akibatnya dapat dipindahkan ke lokasi sewenang-wenang kapan saja, jika pengguna
dari data hanya diinformasikan tentang itu bergerak.
--Daftar
Daftar semua database yang mungkin diminta untuk diinstal.
Hanya database yang secara eksplisit diminta untuk diunduh yang akan
diunduh. Basis data semacam itu mungkin memerlukan bandwidth yang cukup besar, jadi pastikan Anda
tahu Anda melakukan hal yang benar.
--Pos
Lakukan hanya pembongkaran/pengindeksan, tetapi jangan mengambil/memperbarui database. Ini
opsi dianggap berguna saat menambahkan sistem manajemen basis data baru ke
sistem, misalnya setelah menginstal EMBOSS.
--sumber
Lakukan hanya pembongkaran/pengindeksan, tetapi jangan mengambil/memperbarui database. Ini
opsi mungkin bermanfaat ketika administrator situs mengetahui analisis saat ini yang
tidak boleh diganggu oleh proses pengindeksan tetapi pengunduhan dari internet dapat
sudah dimulai.
--confd
Mengizinkan spesifikasi direktori tempat banyak file dapat disimpan yang
akan dibaca oleh getData saat dipanggil. Ini dapat menambah nilai global
variabel %toBeMirrored yang menentukan database dan skrip unduhannya.
--config
Persiapan file konfigurasi yang akan dibutuhkan untuk sistem tertentu
yang berhubungan dengan database. Konfigurasi dicetak ke stdout dan diharapkan
untuk disalin secara manual ke file atau folder yang sesuai. Orang bisa membayangkan proses ini untuk
otomatis, meskipun ini belum diterapkan. Saat ini tersedia adalah dukungan untuk
dua sistem:
emboss Ini menentukan rangkaian alat EMBOSS untuk bioinformatika (www.emboss.org)
yang juga tersedia sebagai paket Debian. Konfigurasi untuk Uniprot
database akan memungkinkan pengambilan urutan dengan alat seqret.
dre - Lingkungan Runtime ARC Grid
Lingkungan runtime (RE) adalah konsep middleware grid ARC yang:
lebih banyak yang bisa dipelajari di http://www.nordugrid.org. Sebuah skrip diperlukan untuk
menunjukkan adanya lingkungan runtime. Di sini, nama skripnya
penting, yang tidak dapat didefinisikan oleh getData karena hanya menulis ke
stdout.
Sayangnya, konfigurasi itu belum ditemukan untuk dimodulasi. Itu semua membutuhkan
terjadi dalam skrip getData itu sendiri.
--menghapus
Perintah ini menghapus folder yang menyimpan data. Pada prinsipnya ini bisa dilakukan
secara manual, meskipun beberapa database mungkin memiliki persyaratan khusus sebelum atau sesudah penghapusan,
yang dapat ditentukan secara individual untuk setiap database.
SPESIFIKASI OF BASIS DATA
Basis data untuk diunduh dan pasca-pemrosesan ditentukan di dua lokasi berbeda.
Salah satunya adalah skrip getData itu sendiri, yang lainnya adalah file yang disimpan di /etc/getData.d. Salah satu
akan mendefinisikan elemen hash yang cukup besar. Kuncinya adalah pengidentifikasi yang juga
ditunjukkan oleh arahan 'getData --list'. Nilai adalah referensi ke hash lain, yang
memberikan nilai ke semua properti yang dimiliki database untuk diunduh dan
pengolahan:
name - nama atau deskripsi singkat yang mudah dibaca manusia yang menjelaskan kepada
dunia tentang apa database ini.
Contoh yang buruk adalah penugasan "DE405", yang hanya dipahami oleh sedikit orang. Lebih baik
contohnya adalah "Pfam-A : Famili dan domain protein yang dikuratori secara manual, hanya benihnya yang
disajikan.". Seseorang dapat berargumen bahwa bidang itu harus diubah namanya menjadi "deskripsi".
source - perintah shell untuk melakukan pengunduhan awal dan pembaruan selanjutnya
Biasanya alat wget digunakan untuk mengunduh. Skrip kecil yang disajikan seperti itu adalah
dieksekusi di bawah direktori mirrordir. Salah satu contoh sederhana adalah "wget --mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". Dengan bertambah
kemahiran dalam menggunakan wget, seseorang tergoda untuk mengganti "--mirror" dengan "--recursive
--no-Host-directories --no-directories --level 1 --no-parent".
post-download - perintah shell untuk dilakukan setelah data diunduh.
Contoh sederhana (dan tidak perlu ketika menggunakan flag yang tepat untuk wget) adalah sekadar
pengaturan tautan simbolik:
"post-download" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405 ."
Beberapa upaya lebih telah dimasukkan ke dalam TrEMBL untuk menggabungkan rilis dengan rilis berikutnya
pembaruan dan pengindeksan untuk EMBOSS:
"d=tidak terkompresi; jika [ ! -d \$d ]; maka mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(cari ftp.ebi.ac.uk -nama '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -nama file=trembl.dat -fields id,acc -auto",
Titik-titik menghubungkan string di Perl. Ini membantu keterbacaan kode. Kapan
menulis skrip ini, harap perhatikan bahwa baris baru tidak memisahkan individu
perintah di sini. Titik koma diperlukan.
merekomendasikan - menyarankan serangkaian paket untuk hadir untuk penggunaan database atau
kinerja pengindeksan.
Informasi ini tidak digunakan saat ini, juga untuk membuat skrip ini lebih berguna untuk
distribusi Linux lain selain Debian.
getWgetOptions - perintah pribadi untuk mendapatkan opsi wget
Ini digunakan pada waktu pengunduhan oleh makefile, tidak dimaksudkan untuk digunakan secara interaktif,
dan bisa dihapus kapan saja.
CONTOH
Berikut ini akan mencantumkan pengidentifikasi dan deskripsi dari 4 database pertama yang:
area yang tersedia melalui getData di sistem Anda.
./getData --mirrordir=/local/databases/mirrored --list | kepala 4
Untuk menginstal database tertentu, hanya berikan namanya sebagai argumen. Jika instalasi
dilakukan di direktori lain selain default, maka --mirrordir perlu lagi
ditetapkan.
./getData swiss.dat
Untuk menghapus database lagi, berikan skrip petunjuk dengan flag --remove
./getData --hapus swiss.dat
Untuk melakukan pengindeksan saja dan menghindari unduhan (perhatian, ini berbahaya
karena file indeks akan terlihat lebih baru daripada database), lakukan
./getData --posting swiss.dat
Pengecualian khusus untuk skrip tambahan ini adalah flag --config yang membutuhkan daftar
argumen tambahan. Masing-masing akan menunjukkan sistem tertentu bahwa database ini mungkin dari:
bunga untuk. Saat ini ada dua sistem yang didukung:
SEMUA
Kami sekarang membutuhkan mekanisme yang dengannya paket dapat menentukan kait yang akan dipanggil dan
pembaruan sebuah basis data. Tetapi kita tidak dapat berasumsi bahwa setiap pengindeksan yang dapat dilakukan
karena instalasi beberapa paket juga diinginkan oleh pengguna. Cara mengonfigurasi
ini benar dibiarkan diputuskan.
Gunakan getData online menggunakan layanan onworks.net