soapdenovo-31mer - Online sa Cloud

Patakbuhin ang soapdenovo-31mer sa OnWorks na libreng hosting provider sa Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

Ito ang command na soapdenovo-31mer na maaaring patakbuhin sa OnWorks free hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

Tumakbo sa Ubuntu Tumakbo sa Fedora Tumakbo sa Windows Sim Tumakbo sa MACOS Sim

PROGRAMA:

NAME

soapdenovo - Paraan ng short-read na pagpupulong na maaaring bumuo ng de novo draft assembly

SINOPSIS

soapdenovo_31mer soapdenovo_63mer soapdenovo_127mer

pagpapakilala

Ang SOAPdenovo ay isang nobelang short-read na paraan ng pagpupulong na maaaring bumuo ng isang de novo draft assembly
para sa mga genome na kasing laki ng tao. Ang programa ay espesyal na idinisenyo upang tipunin ang Illumina GA
maikling pagbabasa. Lumilikha ito ng mga bagong pagkakataon para sa pagbuo ng mga reference sequence at pagdadala
maglabas ng mga tumpak na pagsusuri ng mga hindi pa na-explore na genome sa isang cost-effective na paraan.

1) Suportahan ang malaking kmer hanggang 127 para magamit ang mahabang pagbabasa. Tatlong bersyon ang ibinigay.
I. Ang 31mer na bersyon ay sumusuporta lamang sa kmer <=31.
II. Ang 63mer na bersyon ay sumusuporta lamang sa kmer <=63 at doble ang pagkonsumo ng memory kaysa
31mer na bersyon, kahit na ginagamit sa kmer <=31.
III. Ang 127mer na bersyon ay sumusuporta lamang sa kmer <=127 at doble ang pagkonsumo ng memory kaysa
63mer na bersyon, kahit na ginagamit sa kmer <=63.

Pakipansin na, sa mas mahabang kmer, ang dami ng mga node ay bababa nang malaki,
kaya ang pagkonsumo ng memorya ay karaniwang mas maliit kaysa doble na may inilipat na bersyon.

2) Bagong parameter na idinagdag sa "pregraph" na module. Ang parameter na ito ay nagpapasimula ng memorya
pag-aakalang maiwasan ang karagdagang relokasyon. Ang unit ng parameter ay GB. Nang walang karagdagang
reallocation, ang SOAPdenovo ay tumatakbo nang mas mabilis at nagbibigay ng potensyal na kainin ang lahat ng memorya ng
ang makina. Halimbawa, kung ang workstation ay nagbibigay ng 50g na libreng memorya, gumamit ng -a 50 in
pregraph na hakbang, pagkatapos ay isang static na halaga ng 50g memory ang ilalaan bago iproseso
nagbabasa. Maiiwasan din nitong magambala ng ibang mga user na nagbabahagi ng parehong makina.

3) Ang mga base na puno ng gap ay kinakatawan na ngayon ng mga maliliit na character sa 'scafSeq' na file.

4) Ipinakilala ang mga tagubilin sa SIMD upang palakasin ang pagganap.

Configuration file

Para sa malalaking proyekto ng genome na may malalim na pagkakasunud-sunod, ang data ay karaniwang nakaayos bilang maramihang
basahin ang mga sequence file na nabuo mula sa maraming library. Ang configuration file ay nagsasabi sa
assembler kung saan mahahanap ang mga file na ito at ang nauugnay na impormasyon. Ang “example.config” ay isang
halimbawa ng naturang file.

Ang configuration file ay may seksyon para sa pandaigdigang impormasyon, at pagkatapos ay maramihang library
mga seksyon. Sa ngayon, tanging "max_rd_len" lang ang kasama sa seksyong pandaigdigang impormasyon. Anuman
magbasa nang mas mahaba kaysa sa max_rd_len ay puputulin sa ganitong haba.

Ang impormasyon sa library at ang impormasyon ng sequencing data na nabuo mula sa library
dapat ayusin sa kaukulang seksyon ng aklatan. Magsisimula ang bawat seksyon ng library
na may tag na [LIB] at kasama ang mga sumusunod na item:

avg_ins
Isinasaad ng value na ito ang average na laki ng insert ng library na ito o ang peak value
posisyon sa insert size distribution figure.

reverse_seq
Ang pagpipiliang ito ay tumatagal ng halaga 0 o 1. Sinasabi nito sa assembler kung kailangan ng mga read sequence
upang maging komplementaryong baligtad. Ang Illumima GA ay gumagawa ng dalawang uri ng paired-end
mga aklatan: a) forward-reverse, na nabuo mula sa pira-pirasong DNA na nagtatapos sa tipikal
laki ng insert na mas mababa sa 500 bp; b) pasulong-pasulong, nabuo mula sa circularizing
mga aklatan na may karaniwang laki ng insert na higit sa 2 Kb. Ang parameter na "reverse_seq"
dapat itakda upang ipahiwatig ito: 0, forward-reverse; 1, pasulong-pasulong.

asm_flags=3
Ang indicator na ito ang nagpapasya kung saang bahagi (mga) ginagamit ang mga reads. Ito ay tumatagal ng halaga 1(lamang
contig assembly), 2 (tanging scaffold assembly), 3(parehong contig at scaffold assembly),
o 4 (tanging pagsasara ng gap).

rd_len_cutoff
Ang assembler ay puputulin ang mga nabasa mula sa kasalukuyang library hanggang sa haba na ito.

rank Ito ay tumatagal ng mga halaga ng integer at nagpapasya kung aling pagkakasunud-sunod ang mga pagbabasa ay ginagamit para sa scaffold
pagpupulong. Ang mga aklatan na may parehong "ranggo" ay ginagamit sa parehong oras sa panahon ng scaffold
pagpupulong.

pair_num_cutoff
Ang parameter na ito ay ang cutoff value ng numero ng pares para sa isang maaasahang koneksyon sa pagitan
dalawang contigs o pre-scaffolds.

map_len
Nagkakabisa ito sa hakbang na "mapa" at ang pinakamababang haba ng pagkakahanay sa pagitan ng a
basahin at isang contig na kinakailangan para sa isang maaasahang lokasyon ng pagbabasa.

Tumatanggap ang assembler ng read file sa dalawang format: FASTA o FASTQ. Relasyon ng mag-asawa
maaaring ipahiwatig sa dalawang paraan: dalawang sequence file na may mga reads sa parehong pagkakasunod-sunod na pagmamay-ari
sa isang pares, o dalawang katabing reads sa isang file (FASTA lang) na kabilang sa isang pares.

Sa configuration file, ang mga single end file ay ipinahiwatig ng “f=/path/filename” o
“q=/pah/filename” para sa mga fasta o fastq na format nang hiwalay. Ipinares ang mga pagbabasa sa dalawang fasta
Ang mga sequence file ay ipinahiwatig ng "f1=" at "f2=". Habang binasa ang ipinares sa dalawang fastq sequence
Ang mga file ay ipinahiwatig ng "q1=" at "q2=". Ang mga ipinares na pagbabasa sa iisang fasta sequence file ay
ipinahiwatig ng item na "p=".

Ang lahat ng mga item sa itaas sa bawat seksyon ng library ay opsyonal. Ang assembler ay nagtatalaga ng default
mga halaga para sa karamihan sa kanila. Kung hindi ka sigurado kung paano magtakda ng parameter, maaari mo itong alisin
mula sa iyong configuration file.

Magsimula it Nagsimula

Kapag available na ang configuration file, ang karaniwang paraan para patakbuhin ang assembler ay: ${bin}
lahat –s config_file –K 63 –R –o graph_prefix

Maaari ding piliin ng user na patakbuhin ang proseso ng pagpupulong nang sunud-sunod bilang: ${bin} pregraph
\[u2013]s config_file \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o graph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} map \[u2013]s
config_file \[u2013]g graph_prefix [-p] ${bin} scaff \[u2013]g graph_prefix [\[u2013]F -u
-G -p]

Options

-a INT Simulan ang memory assumption (GB) upang maiwasan ang karagdagang relokasyon

-s STR configuration file

-o STR output graph file prefix

-g STR input graph file prefix

-K INT K-mer na laki [default 23, min 13, max 127]

-p INT multithreads, n thread [default 8]

-R use reads para malutas ang maliliit na pag-uulit [default no]

-d Inalis ng INT ang mababang-frequency na K-mer na may dalas na hindi mas malaki kaysa sa [default 0]

-D INT tanggalin ang mga gilid na may saklaw na hindi mas malaki kaysa [default 1]

-M INT lakas ng pagsasama-sama ng mga katulad na pagkakasunud-sunod sa panahon ng contiging [default 1, min 0, max
3]

-F intra-scaffold gap closure [default no]

-u-un-mask ang mataas na coverage contigs bago scaffolding [default mask]

-G INT pinapayagan ang pagkakaiba sa haba sa pagitan ng tinantyang at napunang gap

-L pinakamababang haba ng contigs na ginagamit para sa scaffolding

Pagbubuhos file

Ang mga file na ito ay output bilang mga resulta ng pagpupulong:

a. *.contig

contig sequences nang hindi gumagamit ng impormasyon ng mate pair

b. *.scafSeq

mga pagkakasunud-sunod ng scaffold (maaaring makuha ang mga huling contig sequence sa pamamagitan ng pagsira ng scaffold
mga sequence sa mga rehiyon ng gap)

Mayroong ilang iba pang mga file na nagbibigay ng kapaki-pakinabang na impormasyon para sa mga advanced na user, na
nakalista sa Appendix B.

FAQ

Gaano sa itakda K-mer laki?
Ang programa ay tumatanggap ng mga kakaibang numero sa pagitan ng 13 at 31. Ang mas malalaking K-mer ay magkakaroon ng mas mataas na rate ng
pagiging natatangi sa genome at gagawing mas simple ang graph, ngunit nangangailangan ito ng malalim na pagkakasunud-sunod
lalim at mas mahabang haba ng pagbabasa upang magarantiya ang overlap sa anumang genomic na lokasyon.

Gaano sa itakda aklatan ranggo?
Gagamitin ng SOAPdenovo ang mga pares-end na aklatan na may laki ng insert mula sa mas maliit hanggang sa mas malaki
gumawa ng scaffolds. Ang mga aklatan na may parehong ranggo ay gagamitin sa parehong oras. Para sa
halimbawa, sa isang dataset ng isang genome ng tao, nagtakda kami ng limang rank para sa limang library na may insert
laki 200-bp, 500-bp, 2-Kb, 5-Kb at 10-Kb, magkahiwalay. Ito ay ninanais na ang mga pares sa
bawat ranggo ay nagbibigay ng sapat na pisikal na saklaw ng genome.

APPENDIX A: an halimbawa.config

#maximal read length
max_rd_len=50
[LIB]
#average na laki ng insert
avg_ins=200
#kung kailangang baligtarin ang sequence
reverse_seq=0
#kung saang bahagi (mga) ginagamit ang mga nabasa
asm_flags=3
#gumamit lamang ng unang 50 bps ng bawat pagbabasa
rd_len_cutoff=50
#kung saan ang pagkakasunud-sunod ng mga nabasa ay ginagamit habang scaffolding
ranggo=1
# cutoff ng numero ng pares para sa isang maaasahang koneksyon (default 3)
pair_num_cutoff=3
#minimum na naka-align na haba sa contigs para sa isang maaasahang lokasyon ng pagbabasa (default 32)
map_len=32
#fastq file para basahin 1
q1=/path/**LIBNAMEA**/fastq_read_1.fq
Ang #fastq file para sa read 2 ay palaging sumusunod sa fastq file para sa read 1
q2=/path/**LIBNAMEA**/fastq_read_2.fq
#fasta file para basahin 1
f1=/path/**LIBNAMEA**/fasta_read_1.fa
Ang #fastq file para sa read 2 ay palaging sumusunod sa fastq file para sa read 1
f2=/path/**LIBNAMEA**/fasta_read_2.fa
#fastq file para sa iisang pagbabasa
q=/path/**LIBNAMEA**/fastq_read_single.fq
#fasta file para sa iisang pagbabasa
f=/path/**LIBNAMEA**/fasta_read_single.fa
#a solong fasta file para sa mga ipinares na pagbabasa
p=/path/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
avg_ins=2000
reverse_seq=1
asm_flags=2
ranggo=2
# cutoff ng numero ng pares para sa isang maaasahang koneksyon
#(default 5 para sa malaking laki ng insert)
pair_num_cutoff=5
#minimum na naka-align na haba sa contigs para sa isang maaasahang lokasyon ng pagbabasa
#(default 35 para sa malaking laki ng insert)
map_len=35
q1=/path/**LIBNAMEB**/fastq_read_1.fq
q2=/path/**LIBNAMEB**/fastq_read_2.fq
q=/path/**LIBNAMEB**/fastq_read_single.fq
f=/path/**LIBNAMEB**/fasta_read_single.fa

Apendiks B: output file

1. Mag-output ng mga file mula sa command na "pregraph"

a. *.kmerFreq

Ipinapakita ng bawat hilera ang bilang ng mga Kmers na may dalas na katumbas ng numero ng row.

b. *.gilid

Ang bawat tala ay nagbibigay ng impormasyon ng isang gilid sa pre-graph: haba, Kmers sa magkabilang dulo,
average na saklaw ng kmer, ito man ay reverse-complementarily identical at ang sequence.

c. *.markOnEdge & *.path

Ang dalawang file na ito ay para sa paggamit ng mga pagbabasa upang malutas ang maliliit na pag-uulit

e. *.preArc

Mga koneksyon sa pagitan ng mga gilid na itinatag ng mga read path.

f. *.vertex

Kmers sa mga dulo ng mga gilid.

g. *.preGraphBasic

Ilang pangunahing impormasyon tungkol sa pre-graph: bilang ng vertex, K value, bilang ng mga gilid,
maximum na haba ng pagbasa atbp.

2. Mag-output ng mga file mula sa command na "contig"

a. *.contig

Contig information: kaukulang edge index, haba, saklaw ng kmer, tip man ito at
Ang pagkakasunod-sunod. Alinman sa isang contig o sa reverse complementry counterpart nito ay kasama. Bawat isa
Ang reverse complementary contig index ay ipinahiwatig sa *.ContigIndex file.

b. *.Arc

Mga arko na lumalabas sa bawat gilid at ang kaukulang saklaw nito sa pamamagitan ng mga nabasa

c. *.updated.edge

Ilang impormasyon para sa bawat gilid sa graph: haba, Kmers sa magkabilang dulo, pagkakaiba sa index
sa pagitan ng reverse-complementary na gilid at ito.

d. *.ContigIndex

Ang bawat record ay nagbibigay ng impormasyon tungkol sa bawat contig sa *.contig: ito ay edge index, haba,
ang pagkakaiba ng index sa pagitan ng reverse-complementary na katapat nito at ng sarili nito.

3. Mag-output ng mga file mula sa command na "mapa"

a. *.peGrads

Impormasyon para sa bawat clone library: insert-size, read index upper bound, rank at pares
cutoff ng numero para sa isang maaasahang link.

Ang file na ito ay maaaring manual na baguhin para sa scaffolding tuning.

b. *.readOnContig

Basahin ang mga lokasyon sa contigs. Dito tinutukoy ang mga contig sa pamamagitan ng kanilang edge index. Gayunpaman tungkol sa
kalahati ng mga ito ay hindi nakalista sa *.contig file para sa kanilang reverse-complementary
kasama na ang mga katapat.

c. *.readInGap

Kasama sa file na ito ang mga nabasa na maaaring matatagpuan sa mga puwang sa pagitan ng mga contig. Ang impormasyong ito
ay gagamitin upang isara ang mga puwang sa scaffolds.

4. Mag-output ng mga file mula sa command na "scaff"

a. *.newContigIndex

Ang mga contig ay pinagsunod-sunod ayon sa kanilang haba bago ang scaffolding. Nakalista ang kanilang bagong index
sa file na ito. Ito ay kapaki-pakinabang kung nais ng isa na tumutugma sa contigs sa *.contig sa mga iyon
sa *.links.

b. *.links

Mga link sa pagitan ng mga contig na itinatag ng mga pares na binasa. Bagong index ang ginagamit.

c. *.scaf_gap

Contigs sa gaps na natagpuan sa pamamagitan ng contig graph na nai-output ng contiging procedure. Narito ang bagong index
ay ginagamit.

d. *.scaf

Contigs para sa bawat scaffold: contig index (kaayon sa index sa *.contig), tinatayang
panimulang posisyon sa scaffold, oryentasyon, haba ng contig, at mga link nito sa iba.

e. *.gapSeq

Gap sequences sa pagitan ng contigs.

f. *.scafSeq

Pagkakasunud-sunod ng bawat scaffold.

Gumamit ng soapdenovo-31mer online gamit ang mga serbisyo ng onworks.net