murasaki-mpi - Online sa Cloud

Ito ang command na murasaki-mpi na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

PROGRAMA:

NAME


murasaki - kalkulahin ang mga anchor sa pagitan ng maraming pagkakasunud-sunod

SINOPSIS


murasaki [OPTIONS] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #compute anchors between seq1.fa at seq2.gbk gamit ang [pattern]
mpirun murasaki [OPSYON] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #compute ang mga anchor sa pagitan ng seq1.fa at seq2.gbk gamit ang [pattern] na kahanay sa pamamagitan ng MPI

DESCRIPTION


Bumubuo ang Murasaki ng mga anchor batay sa lahat ng ibinigay na sequence batay sa ibinigay ng user
huwaran at mga hash table. Sa pangkalahatan, ang bawat base ng bawat pagkakasunod-sunod ay natatakpan ng pattern,
bumubuo ng a magbigay ng binhi na ginagamit upang makabuo ng hash. Ang lokasyon ng buto ay nakaimbak sa
sumira mesa. Kapag ang lahat ng mga buto ay na-hash at naimbak, Murasaki ay nag-scan sa hash table,
pagbuo ng mga anchor para sa lahat ng katugmang mga buto. Ang anchor ay tumutukoy sa isang set na pagitan sa kabuuan ng a
subset ng mga sequence ng input. Ang mga ito ay nakaimbak sa pangalan.anchors file, at inilarawan sa
"FILE FORMATS". Bilang default, ang mga anchor ay pinalawak nang husto hanggang sa kanilang pinakamababang pairwise
Bumababa sa ilalim ng threshold ang hindi nagamit na marka ng alignment sa parehong paraan ng X-drop na parameter
sa BLAST at parang BLAST na paghahanap.

MGA pattern
Ginagamit ni Murasaki may pagitan magbigay ng binhi pattern sa sa pagsasaalang-alang ng mga buto. A may pagitan magbigay ng binhi huwaran is
karaniwang ipinahayag bilang isang string ng 1s at 0s na kinakailangang nagsisimula at nagtatapos sa isang 1. 1s
ipahiwatig na ang base na ito ay itinuturing na bahagi ng buto, habang ang mga base sa 0 na posisyon ay
hindi. Halimbawa sa isang pattern na "1011" ang sequence na "ACGT" ay tutugma sa mga sequence na "AGGT"
at "ATGT" ngunit hindi "ACTT". Ang bilang ng mga 1 sa pattern ay kilala bilang ang "timbang" ng
pattern, at ang bilang ng 1s at 0s na pinagsama ay ang "haba" ng pattern. Murasaki
nagbibigay-daan sa paggamit ng anumang arbitrary na pattern na ipinahayag bilang isang string ng 1s at 0s, at gayundin
binibigyang-kahulugan ang mga pattern ng anyong "x:y" na nangangahulugang isang "random na pattern ng timbang x at haba y."

Ang pagpili ng pattern ay malinaw na may epekto sa sensitivity at specificity, ngunit kung
ang isang pattern ay "mas mahusay" kaysa sa isa pa ay depende sa application at ang mga sequence ng input
kasalukuyang isinasaalang-alang. Ang pagkalkula ng "maximally sensitive spaced seed patterns" ay a
computationally mahirap problema at mayroong isang bilang ng mga research paper na naglalarawan
iba't ibang paraan para sa pagtatantya ("KAUGNAY NA PAGBASA"). Sa pangkalahatan, gayunpaman, "mas mabigat"
hindi gaanong sensitibo ang mga pattern ng mga buto na may pagitan, ngunit mas tiyak, kaysa sa mas magaan na mga buto.
Sa anecdotally, nalaman namin na ang mga buto na may timbang na humigit-kumulang 60% hanggang 75% (na may mga haba sa paligid
24 para sa bakterya, at 36 hanggang 48 para sa mga mammal) ay mabuti para sa karamihan ng mga aplikasyon. sukdulan
ang mga katulad na species (halimbawa, tao at chimp) ay nakikinabang sa mas mahaba, mas mabigat, mga buto.

HASH Mga function
Ang mga function ng hash (pati na rin ang mga parameter ng hash) ay awtomatikong nabuo batay sa system
kapaligiran at mga pagkakasunud-sunod ng input. Mayroong dalawang uri ng hash function
available sa Murasaki: adaptive at cryptoraphic na mga hash. Ang mga adaptive na hash ay XOR
kumbinasyon ng iba't ibang bitwise shifts ng buto na idinisenyo sa pamamagitan ng pagsusuri sa may pagitan magbigay ng binhi
huwaran upang i-maximize ang entropy ng resultang hash. Available ang mga cryptographic na hash
sa pamamagitan ng CryptoPP library at gamitin ang buo spaced seed pattern upang makabuo ng hash gamit
isa sa mga karaniwang cryptographic na hash tulad ng MD5 o SHA-1. Ang mga adaptive hash function ay
halos palaging mas mabilis at mas mahusay kaysa sa MD5 at SHA-1, ngunit ang cryptographic
Ang mga function ay magagamit para sa sanggunian at maaaring maging kapaki-pakinabang bilang isang alternatibo sa hindi malamang
kaganapang kinakaharap mo ang isang kapaligiran kung saan ang adaptive hasher ay hindi angkop (para sa
halimbawa isang pagkakasunud-sunod na binubuo lamang ng A at T (nag-iiwan ng 1 sa bawat 2 bit na unitilized)).

ALAALA PAGSASAKA
Murasaki ay maaaring tumagal ng maraming memorya. Ang pag-iimbak ng lokasyon ng bawat buto sa hash table ay
ang pinakamahal na bahagi ng operasyon, na nangangailangan ng humigit-kumulang "ceil(log_2(N))" bits bawat
seed kung saan ang "N" ay ang kabuuang haba ng sequence. Ang mga lokasyon, bilang default, ay naka-imbak sa a
bitpacked na format upang lapitan ang teoretikal na minimum. Ang pangalawang pinakamahal na elemento ay ang
hash table structure, kung saan ang bawat bucket ay may dalang maliit na overhead at hindi ginagamit ay simple
nasayang na espasyo. Mas maraming hash table bucket (ibig sabihin, mas mahabang hash table) ang nagpapababa sa inaasahan
bilang ng mga banggaan, na humahantong sa mas mabilis na oras ng pagpapatupad. Kaya't sinubukan ni Murasaki na gamitin
ng maraming bucket hangga't maaari sa pamamagitan ng pag-inspeksyon sa magagamit na memorya ng system at paggamit ng mas maraming bilang
maaari itong habang iniimbak pa rin ang lahat ng mga lokasyon ng binhi. Kung ang awtomatikong pag-scale na ito ay
hindi epektibo, ang pagtatakda ng laki ng hash table nang direkta sa pamamagitan ng --hashbits|-b na mga opsyon ay maaaring pilitin
isang partikular na laki ng hash table. Kung ang memorya ng isang computer ay hindi sapat upang maiimbak ang
gustong hash table, PARALLELIZATION ay maaaring gamitin upang ipamahagi ang hash table sa kabuuan
maramihang mga computer.

PARALELISASYON
Ang Murasaki ay idinisenyo upang tumakbo nang magkatulad gamit ang MPI. Kumonsulta sa dokumentasyon para sa
mga partikular na variation ng iyong pagpapatupad ng MPI, gayunpaman sa pangkalahatan ang paraan ng pagpapatupad
mukhang:

mpirun [mga pagpipilian sa MPI] murasaki [mga pagpipilian sa murasaki] -p[pattern] [seq1 ...]

Hinahati ni Murasaki ang bilang ng mga available na processor (NP) sa dalawang grupo:
mga hasher node at storage node. Hinahati ng mga storage node ang hash table sa bawat isa
ang kanilang mga sarili, bawat isa ay responsable para sa ibang bahagi ng talahanayan. Hinahati ang mga node ng Hasher
ang input sequence sa pagitan nila, bawat isa ay nagha-hash ng hiwalay na bahagi ng input
pagkakasunud-sunod, at pagpasa ng lokasyon ng binhi sa naaangkop na node ng imbakan para sa imbakan. Kailan
lahat ng mga hasher node ay tapos na sa pag-hash, ang mga storage node ay ini-scan ang kanilang bahagi ng hash
talahanayan at ipasa ang pagtutugma ng mga hanay ng mga buto sa isang hasher node kung saan sila pinagsasama-sama
anchor at pinalawig. Sa wakas lahat ng mga hasher node ay pinagsama ang kanilang mga independiyenteng anchor set
sa isang huling set sa "ceil(log_2(H))" na mga pag-ulit (kung saan ang "H" ay ang bilang ng hasher
node), sa bawat hasher node number 2h na nagpapasa sa mga anchor nito sa hasher number 2h-1 sa bawat isa
pag-ulit.

Dahil halos wala sa mga parallelization na hakbang ang nangangailangan ng komunikasyon sa pagitan lahat node,
at ang bawat buto at ang bawat anchor ay maaaring iproseso nang magkatulad, ang Murasaki ay napakahusay sa kaliskis
parallel, tumatakbo nang humigit-kumulang dalawang beses nang mas mabilis kapag dalawang beses na mas maraming node ang magagamit.
Higit pa rito, ang hash table ay awtomatikong lumaki upang samantalahin ang pinagsama
memorya mula sa maraming makina.

Opsyon


Karamihan sa mga opsyon ay maaaring tukuyin sa kanilang mahabang anyo (hal. "--directory out" o
"--directory=out") o maikling anyo (hal. "-dout"). Mga opsyon na minarkahan ng expect a string,
isang integer, isang float, at isang boolean value ("yes/on/true/1" para sa true,
"no/off/false/0" para sa false). Karamihan sa mga boolean ay maaaring alisin ang halaga, na i-toggle ang halaga mula sa
anuman ito sa kabaligtaran.

Maraming pagpipilian ang Murasaki. Dito namin pinaghiwalay ang mga ito sa mga kategorya upang makatulong
makilala ang saklaw ng iba't ibang mga opsyon, gayunpaman sa ilang mga sitwasyon ilang opsyon
Ang mga pagpipilian ay maaaring magkaroon ng mga inaasahang kahihinatnan, at siyempre sa huli kung ang tinukoy na output
is malaking-malaki, ang kinakailangang runtime ay kinakailangan mahaba. Ito ay isang pagkakamali na isipin iyon
lahat ng nasa labas ng "mga opsyon sa pag-tune" sa seksyong Pagganap ay walang kinalaman
pagganap.

Angkla parametro na may kaugnayan pagpipilian
Ang mga pagpipiliang ito ay humuhubog sa kung ano ang itinuturing na isang "angkla".

--pattern|-p
tumutukoy sa pattern ng binhi (hal. 11101001010011011). gamit ang format
C<[ : ]> awtomatikong bumubuo ng random na pattern ng timbang
at haba

--repeatmask|-r
Laktawan ang paulit-ulit na naka-mask na data (ibig sabihin: lowercase atgc). Magkaroon ng kamalayan na ang ilang mga sequence file ay
ipinamahagi nang puro sa maliit na titik.

--seedfilter|-f
Laktawan ang mga buto na nangyayari nang higit sa N beses. Pambihirang mabagal. Tingnan ang --hashfilter para sa a
mas mabilis na approximation.

--hashfilter|-m
Tulad ng --seedfilter ngunit gumagana sa mga hash key sa halip na mga buto. Maaaring magdulot ng ilang collateral
pinsala sa kung hindi man kakaibang mga buto, ngunit ito ay mas mabilis.

--skipfwd|-F
Huwag i-hash/itugma ang mga forward strands.

--skiprev|-R
Huwag i-hash/itugma ang reverse complement strands.

--skip1to1|-1
Laktawan ang mga tugma sa linyang 1:1 (mabuti para sa paghahambing sa sarili).

--hashonly|-Q
Hash Lang. Walang anchor output, mga istatistika lang.

--hashskip|-S
Hashes bawat n base. Default ay 1 (ibig sabihin, pag-hash sa lahat ng mga posisyon). Hindi nagsusuplay ng anuman
dinaragdagan ng argumento ng 1 ang halaga ng paglaktaw.

--sumali|-j
Pagsamahin ang mga anchor sa loob ng n base ng bawat isa (default: 0). Ang pagtukoy ng negatibong D ay nagpapahiwatig
-D*patternLength.

--bitscore|-B
i-toggle ang pag-compute ng isang bitscore para sa lahat ng anchor (naka-on ang default).

--seedterms|-T
i-toggle ang pagpapanatili ng mga termino ng binhi (naka-off ang default). Ang mga ito ay kinakailangan para sa pag-compute
mga marka ng TF-IDF).

--sectime|-e
Palaging ipakita ang mga oras sa ilang segundo kumpara sa nababasa ng tao na istilong "1d 3h 45m 5s"
beses.

--mergefilter|-Y
I-filter ang mga tugma na magdudulot ng higit sa D maraming mga anchor na mabubuo
mula sa 1 buto (default -Y100). Gamitin ang -Y0 upang huwag paganahin.

--scorefilter
Magtakda ng pinakamababang hindi nakuhang marka para sa mga buto.

--rifts|-/
Payagan ang mga anchor na laktawan ang mga D sequence (default 0).

--isla|-%
Kapareho ng --rifts=SD (kung saan ang S ay bilang ng mga input seqs).

--fuzzyextend|-z
Paganahin (default) o huwag paganahin ang fuzzy extension (ibig sabihin, hindi naka-align na pagkakahanay) ng mga anchor.

--fuzzyextendlosslimit|-Z
Itakda ang cutoff kung saan ihihinto ang pagpapalawak ng mga malabo na hit (ibig sabihin, ang BLAST X na parameter).

--gappedanchors
Gumamit ng gapped (true) o ungapped (false (default)) anchor.

--score sa pamamagitan ng pinakamababa
Gumawa ng anchor scoring ayon sa pinakamababang pares kung naaangkop (default). Ang alternatibo ay
arithmatic mean (bihirang kapaki-pakinabang, ngunit theoretically mas mabilis). =item --rifts|-/

Payagan ang mga anchor na laktawan ang mga D sequence (default 0).

--isla|-%
Kapareho ng --rifts=SD (kung saan ang S ay bilang ng mga input seqs).

--fuzzyextend|-z
Paganahin (default) o huwag paganahin ang fuzzy extension (ibig sabihin, hindi naka-align na pagkakahanay) ng mga anchor.

--fuzzyextendlosslimit|-Z
Itakda ang cutoff kung saan ihihinto ang pagpapalawak ng mga malabo na hit (ibig sabihin, ang BLAST X na parameter).

--gappedanchors
Gumamit ng gapped (true) o ungapped (false (default)) anchor.

--score sa pamamagitan ng pinakamababa
Gumawa ng anchor scoring ayon sa pinakamababang pares kung naaangkop (default). Ang alternatibo ay
arithmatic mean (bihirang kapaki-pakinabang, ngunit theoretically mas mabilis).

Pagbubuhos pagpipilian
Pangunahing nakakaapekto ang mga opsyong ito kung saan inilalabas ang data.

--direktoryo|-d
direktoryo ng output (default: output)

--pangalan|-n
pangalan ng pagkakahanay (default: pagsubok)

--repeatmap|-i
I-toggle ang pagpapanatili ng paulit-ulit na mapa kapag ginamit ang --mergefilter (naka-default sa oo).

--histogram|-H
Antas ng pagkalkula ng histogram: (-H lamang ang nagpapahiwatig -H1)

0 - walang histogram (default)
1 - pangunahing data ng histogram na laki ng bucket/bucketcount
2 - mga markang nakabatay sa bucket sa mga anchor.detil
3 - data ng perbucket count
4 - perbucket + perpattern count data

Ang anumang mga value sa itaas ng 2 ay puro explorartory at maaaring magresulta sa napakalaking output file.

--tfidf|-k
Magsagawa ng tumpak na tfidf scoring mula sa loob ng murasaki (nangangailangan ng dagdag na memorya sa anchor
oras ng henerasyon). Default ay hindi.

Pag-ayos ng performance pagpipilian
Pangunahing nakakaapekto ang mga opsyong ito sa performance, at hindi (sa pangkalahatan) nakakaapekto sa output.

--quickhash|-q
tukuyin ang isang pag-andar ng hashing:

0 - adaptive na may mga S-box (default kapag maraming hash table ang matitira)
1 - huwag mag-empake ng mga piraso upang makagawa ng hash (gamitin lamang ang unang salita)
2 - walang muwang na gamitin ang unang hashbit na halaga ng pattern
3 - madaling makahanap ng magandang hash (default)
**pang-eksperimentong CryptoPP na mga hash**
4 - MD5
5 - SHA1
6 - Whirlpool
7 - CRC-32
8 - Adler-32

Tandaan: Ang 3 at 0 lang ang "inirerekomenda" na hash function, at ang mga ito lang
awtomatikong napili. Ang iba ay ibinigay lamang para sa sanggunian. 1, 7, at 8
ay hindi rin inaasahang gagamitin ang buong hash space.

--hashbits|-b
gumamit ng D bit hashes (para sa mga n ng 1 hanggang WORDSIZE. default 26)

--hashtype|-t
piliin ang istraktura ng data ng hash table na gagamitin:

OpenHash - buksan ang sub-word packing ng mga hashbits (default kapag maraming hash
mesa na matitira)
EcoHash - nakakadena na sub-word packing ng mga hashbit (default)
ArrayHash - malloc/realloc (mabilis ngunit madaling mag-fragmentation)
MSetHash - napakalaki ng memorya, halos walang kabuluhan.
--nagsusuri
0 - linear, 1 - parisukat (default). Naaangkop lamang para sa --hashtype=OpenHash.

--hitfilter|-h
Minimum na bilang ng mga hit na ilalabas bilang anchor (default 1). Sa PatternHunter ito
ay 2.

--rseed|-s
Random na number seed para sa mga non-deterministic na algorithm (ibig sabihin: adative hash function
henerasyon). Kung gumagawa ka ng anumang mga paghahambing sa pagganap, malamang na ito ay kinakailangan
na gumagamit ka ng parehong binhi para sa bawat pagtakbo ng parehong mga setting. Default ay nakuha
mula oras() (ibig sabihin: segundo mula noong 1970).

--alaala|-M [ | ]
Itakda ang target na halaga ng kabuuang memory (alinman sa gb o bilang % kabuuang memory).

--reverseotf|-o
Bumuo ng reverse complement on the fly (defaults to on). Ino-off ito sa mga precompute
ang lahat ng reverse complement strands at iniimbak ang mga ito sa memorya, na bihirang nagbibigay ng a
nasusukat na pagpapabuti ng pagganap.

--binaryseq
Paganahin (default) o huwag paganahin ang binary sequence read/write

Agpang sumira tungkulin may kaugnayan:

Mga opsyon sa pagganap na nauugnay sa pagbuo ng adaptive hash function.

--hasherFairEntropy
Gumamit ng mas balanseng pagtatantya ng entropy (default: oo).

--hasherCorrelationAdjust
Ayusin ang mga pagtatantya ng entropy para sa mga kalapit na mapagkukunan na ipinapalagay ang ilang ugnayan (default: oo).

--hasherTargetGACycles
Adaptive hash function generation genetic algorithm cutoff cycle.

--hasherEntropyAgro
Gaano ka agresibo ang tungkol sa pagpupursige sa maximum na entropy hash functions (tumatagal ng real.
ang default ay 1).

mga lampara Specific:
--hashers|-A [ | ]
Tukuyin ang bilang ng mga prosesong gagamitin bilang mga hasher (nalalapat lamang sa MPI. Kung a
bilang sa pagitan ng 0 at 1 ito ay tumutukoy sa isang ratio ng np).

--localhash|-K
Magsagawa ng lokal na pag-hash sa bawat storage node sa halip na ipadala ito sa network
(nakakatulong para sa mabagal na network).

--mpidistro|-L
I-toggle ang paggamit ng MPI para ipamahagi ang data ng sequence (kung available ang sequence sa
lokal na disk sa bawat node pagkatapos ay i-off ito ay maaaring potensyal na mapabilis ang inisyal
sequence loading).

--waittoanchor|-w
Ipagpaliban ang aktwal na pag-compute ng anchor hanggang sa matanggap ang lahat ng set ng lokasyon (bilang
laban sa pagsisikap na magtrabaho sa pagitan ng pagtanggap ng mga pakete ng binhi).

--buffers|-u
Pinakamataas na bilang ng mga hindi natapos na buffer na payagan habang nagpapasa ng mensahe (0 ibig sabihin
walang limitasyon). Ang default ay itinakda batay sa bilang ng mga node na kalahok. Maaaring bumagsak ang MPI
o gumanap napaka hindi maganda kung ang halagang ito ay masyadong mataas.

--nobuffers|-U
Kapareho ng --buffers=1.

--bigfirst|-ako
Magtalaga muna ng mga hasher sa malalaking memory node.

--hostbalance|-l
Kung oo (default): ikalat ang mga hasher nang pantay-pantay sa lahat ng mga node.
Kung hindi: huwag pansinin ang pangalan ng host kapag nagtatalaga ng mga trabaho.
--memorybalance|-a
Kung oo (default): balansehin ang imbakan ng hash sa pagitan ng mga node batay sa dami ng available
RAM.
Kung hindi: ipamahagi ang storage nang may kaganapan. Ito ay mas malamang na makamit ang pinakamainam na oras ng pagtakbo, ngunit
maaaring hindi gumamit ng memorya nang mahusay.
--distmerge|-<
kung oo (default): sa panahon ng merge step, ang mga storage node ay nagpapadala ng mga buto sa anumang available
hasher.
kung hindi: ipadala ang lahat ng mga buto sa isang node lamang.
--distcollect|->
kung oo (default): mangolekta ng data ng anchor mula sa lahat ng mga hasher.
kung hindi: ipadala ang lahat ng mga buto sa huling assembly node lamang.
--mpiredirectoutput
kung oo (default): nire-redirect ng bawat ranggo ang stdout/stderr nito sa isang hiwalay na file
(murasaki-mpiout-N).
kung hindi: gawin kung ano ang natural (ibig sabihin: pinamamahalaan ng mpirun (para sa OpenMPI tingnan
--output-filename at --tag-output in mpirun(1))).
--keepstdoe
Huwag burahin ang mga murasaki-mpiout file sa tagumpay.

--sysvipc|-V
Gamitin ang System V IPC para makipag-ayos sa mga shared memory region (nagse-save ng memory kapag tumatakbo ang isang host
maramihang mga node). Ang default ay totoo.

pandaigdig na pagpipilian:
--verbose|-v
Nagpapataas ng verbosity.

--bersyon|-V
Nagpi-print ng impormasyon ng bersyon at huminto.

--tulong|-?
Nagpi-print ng mensahe ng tulong at huminto.

FILE FORMATS


Ang Murasaki ay may malawak na hanay ng mga output file, ang mga format na karamihan ay nilayon
intuitive. Ang lahat ng mga output file ay prefix ng halaga ng --name parameter. Ang pangunahin
inilarawan dito ang mga format ng output file. Ang mga file ay nakabatay sa linya at tab na may delimited maliban kung
kung hindi man ay tinukoy.

.seqs
Ipinapakita ng .seqs kung anong mga sequence ang ginamit bilang input, 1 bawat linya. Ang file na ito ay ginagamit ng
iba't ibang mga programa kasabay ng .anchors file, kaya sa pangkalahatan ay mahalaga iyon
ang mga nilalaman ay sumasalamin sa tamang pagkakasunod-sunod ng mga file. Ang paglipat ng mga resulta ng anchor sa pagitan ng mga computer
maaaring magresulta sa pagbabago ng mga landas, na nangangailangan ng user na i-update ang .seqs file. Bilang isang
alternatibo, palaging gumagamit ng mga kamag-anak na landas ay maaaring magpakalma sa problemang ito.

.angkla file
Ang mga file na ito ay 1 anchor bawat linya, na may 3-tuple bawat sequence. Ang bawat touple ay kumakatawan sa
simulan at ihinto ang mga coordinate at strand ng naka-angkla na pagitan sa bawat sequence. Ang
ang pagkakasunod-sunod ay tumutugma sa pagkakasunud-sunod sa .seqs file. Ang mga coordinate ay nakabalangkas
na ang 1 ay tumutukoy sa unang base sa sequence, 2 sa pangalawa, atbp. Negatibo
ang mga halaga ay tumutukoy sa reverse complement sequence kung saan ang -1 ay ang huli base ng kabaligtaran
complement sequence (ibig sabihin: ang complement first base sa forward sequence). Ang "strand"
Ang elemento ay isang '+' o '-' na tumutugma lamang sa tanda ng mga coordinate (ito ay kalabisan
impormasyon, ngunit pinapanatili upang gawing mas simple ang pag-parse o pag-filter).

Halimbawa:

1 18 + -1 -18 -

Inilalarawan ng linyang ito ang isang anchor kung saan ang unang 18 base ng unang sequence ay tumutugma sa
unang 18 base ng reverse complement ng pangalawang sequence.

.anchors.detalye
Ito ay isang lumang format ng file, ngunit ginagamit ng GMV upang kalkulahin ang mga istatistika tulad ng TF-IDF
mga marka, at itinago sa dahilang iyon. Ang .anchors.details file ay pareho
format at impormasyon bilang .anchors file, gayunpaman pagkatapos ng anchor touple ay dalawa pa
mga termino: isang marka, at isang kuwit (,) delimited na listahan ng mga pares ng termino at bilang (nakasulat
"term:count"). Maaaring iba-iba ang data ng marka at bilang depende sa "--histogram"
mga pagpipiliang pagpipilian.

.anchors.bitscore
Ang terminong "bitscore" dito ay isang maling pangalan, ngunit pinananatili para sa makasaysayang mga kadahilanan. Sa totoo,
ang file na ito ay naglalaman ng ibig sabihin ng bilang ng mga tumutugmang base at haba ng bawat anchor
(kaugnay na linya sa linya sa .anchors file).

.stats.tfidf
Naglalaman ng mga anchor na marka ng TF-IDF (naaayon sa bawat linya sa .anchors file).

.histogram
Naglalaman ng isang simpleng histogram ng paggamit ng hash table. Ang unang field ay ang laki ng bucket,
at ang pangalawa ay ang dalas. Halimbawa, isang .histogram file tulad nito:

1 24
2 1

Ipapahiwatig na mayroong 24 na hash bucket na nag-imbak lamang ng 1 lokasyon (ibig sabihin, 24 na kakaiba
seeds), at 1 hash bucket na nag-imbak ng 2 lokasyon (ibig sabihin, 1 seed na tumugma sa 2 lokasyon (o 2
non-matching seeds na nagresulta sa hash collision)).

.mga pagpipilian
Nagpapanatili ng talaan ng mga opsyon na ginamit kapag nagpapatakbo ng Murasaki.

.uulit
Ang .repeats file ay nag-iimbak ng talaan ng "repeats" gaya ng tinukoy ng --mergefilter na opsyon
(ibig sabihin, mga buto na sana ay nag-udyok ng mas maraming anchor kaysa sa pinahihintulutan). Sa file na ito, bawat isa
ang pag-uulit ng tala ay pinaghihiwalay ng isang blangkong linya. Ang isang umuulit na tala ay ganito ang hitsura:

R: G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
1: 2480929222 -1874514626 2543723555 -2550045172

Ang unang linya (palaging may prefix na "R:") ay nagpapakita ng umuulit na binhi mismo (kung saan ang . ay ang
mga base na natatakpan ng pattern). Ang mga kasunod na linya ay nagpapakita kung saan naganap ang mga butong ito sa
input sequence (sa una (0) at pangalawang (1) sequence). Tandaan na kung wala
mga hit sa isang partikular na sequence, hindi ito nagsasama ng blangkong linya para sa sequence na iyon. Para sa
halimbawa:

R: G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
2: 2480929222 -1874514626 2543723555 -2550045172

ay isa ring wastong .repeats na file.

Gumamit ng murasaki-mpi online gamit ang mga serbisyo ng onworks.net



Pinakabagong Linux at Windows online na mga programa