Aceasta este comanda vsearch-bz care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
vsearch — detectarea himerei, grupare, dereplicare, mascare, aliniere în perechi,
căutarea, amestecarea și sortarea ampliconilor din proiecte metagenomice.
REZUMAT
Detectarea himerei:
vsearch --uchime_denovo fastafile (--himere | --nonchimere | --uchimealns |
--uchimeout) fisier de iesire [Opțiuni]
vsearch --uchime_ref fastafile (--himere | --nonchimere | --uchimealns |
--uchimeout) fisier de iesire --db fastafile [Opțiuni]
clustering:
vsearch (--cluster_fast | --cluster_size | --cluster_smallmem) fastafile (--alnout
| --blast6out | --centroide | --clustere | --msaout | --samout | --uc | --userout)
fisier de iesire --id real [Opțiuni]
Dereplicare:
vsearch --derep_fulllength fastafile (--ieșire | --uc) fisier de iesire [Opțiuni]
Mascare:
vsearch --maskfasta fastafile --ieșire fisier de iesire [Opțiuni]
Alinierea în perechi:
vsearch --allpairs_global fastafile (--alnout | --blast6out | --matched |
--nepotrivită | --samout | --uc | --userout) fisier de iesire (--acceptall | --id real)
[Opțiuni]
In cautarea:
vsearch --usearch_global fastafile --db fastafile (--alnout | --blast6out |
--samout | --uc | --userout) fisier de iesire --id real [Opțiuni]
Amestecare:
vsearch --amesteca fastafile --ieșire fisier de iesire [Opțiuni]
Triere:
vsearch (--sortbylength | --sortbysize) fastafile --ieșire fisier de iesire [Opțiuni]
DESCRIERE
Studiile de mediu sau clinice asupra diversităţii moleculare generează volume mari de ampliconi
(de exemplu, secvențe SSU-rARN) care trebuie verificate pentru himere, dereplicate, mascate,
sortate, căutate, grupate sau comparate cu secvențe de referință. Scopul de vsearch este acela de a
oferă un instrument open source all-in-one pentru a îndeplini aceste sarcini, folosind algoritm optimizat
implementări și exploatarea întregului potențial al computerelor moderne, oferind astfel rapiditate
și prelucrarea corectă a datelor.
Compararea secvențelor de nucleotide este în centrul vsearch. Pentru a accelera comparațiile, vsearch
implementează o implementare extrem de rapidă a algoritmului Needleman-Wunsch, folosindu-se
a extensiilor SIMD de streaming (SSE2) ale procesoarelor x86-64 moderne. Dacă instrucțiunile SSE2 sunt
nu e disponibil, vsearch iese cu un mesaj de eroare. Pentru comparații care implică secvențe
mai mult de 5,000 de nucleotide, vsearch folosește o metodă de aliniere mai lentă cu memorie mai mică
cerințe.
Intrare
vsearch intrarea este un fișier fasta care conține una sau mai multe secvențe de nucleotide. Pentru fiecare
secvență, identificatorul secvenței este definit ca șirul cuprins între „>”
simbol și primul spațiu, sau sfârșitul liniei, oricare dintre acestea survine primul. În plus,
dacă linia începe cu „>[;]size=întreg;label", conține „>label;size=întreg;etichetă" sau
se termină cu „>label;size=întreg[;]", vsearch va elimina modelul [;]size=întreg[;]
din antet și interpretați întreg ca numărul de apariții (sau abundență) a
secvență în studiu. Aceste informații despre abundență sunt folosite sau create în timpul himerei
detectarea, gruparea, dereplicarea, sortarea și căutarea.
Secvența de nucleotide este definită ca un șir de simboluri IUPAC (ACGTURYSWKMDBHVN),
care începe după sfârșitul liniei de identificare și se termină înainte de următoarea linie de identificare,
sau sfârșitul fișierului. vsearch ignoră în tăcere caracterele ascii de la 9 la 13 și iese cu un
mesaj de eroare dacă caractere ASCII de la 0 la 8, de la 14 la 31, "." sau „-” sunt prezente. Toti ceilalti
Caracterele ascii sau non-ascii sunt eliminate și reclamate într-un avertisment de non-blocare
mesaj.
vsearch operațiunile nu fac distincție între majuscule și minuscule, cu excepția cazului în care este activată mascarea soft. Atunci când se utilizează
comenzile de grupare, mascare sau căutare, cazul este important dacă se utilizează mascarea soft.
Mascarea soft este specificată cu opțiunile „--dbmask soft” (pentru căutare) sau „--qmask
soft" (pentru căutare, grupare și mascare). Când utilizați mascarea soft, litere mici
indică simboluri mascate, în timp ce literele mari indică simboluri obișnuite. Simboluri mascate
nu sunt niciodată incluse în unic k-mers utilizați în căutare. Când mascarea moale nu este
activat, toate literele sunt convertite în majuscule intern și utilizate în fișierele rezultate.
Când se compară secvențele în timpul detectării himerei, dereplicarii, căutării și
clustering, T și U sunt considerate identice, indiferent de cazul lor. Dacă două simboluri sunt
nu sunt identice, alinierea lor va avea ca rezultat un scor negativ de nepotrivire (implicit -4),
cu excepția cazului în care unul sau ambele simboluri sunt ambigue (RYSWKMDBHVN), caz în care scorul
este zero. Alinierea a două simboluri ambigue identice (de exemplu R vs R) primește, de asemenea, un scor
de zero.
vsearch poate fi compilat în fișierele Fasta comprimate acceptate ca intrare (gz și bzip2
formate). Pe de altă parte, fișierele speciale, cum ar fi țevi, țevi numite sau prize, nu pot fi
folosit ca intrare. Pentru a prezenta un indicator de progres, vsearch trebuie să caute până la capătul
nume de fișier pentru a-i găsi lungimea. Prin urmare, nume de fișier trebuie să fie un fișier obișnuit, nu un flux.
Opţiuni
vsearch recunoaște un număr mare de opțiuni de linie de comandă. Pentru o navigare mai ușoară, opțiuni
sunt grupate mai jos după temă (detecția himerei, gruparea, dereplicarea, mascarea,
amestecare, sortare și căutare). Începem cu opțiuni generale care se aplică tuturor
teme.
Optiuni generale:
--fasta_width pozitiv întreg
Fișierele Fasta produse de vsearch sunt împachetate (secvențele sunt scrise pe
linii de întreg nucleotide, 80 implicit). Setați acea valoare la 0 la
eliminați ambalajul.
--Ajutor Afișați un scurt ajutor și ieșiți.
--Buturuga nume de fișier
Scrieți mesaje în fișierul jurnal specificat. Informațiile scrise includ
versiunea programului, cantitatea de memorie disponibilă, numărul de nuclee și comandă
opțiuni de linie. Sunt înregistrate, de asemenea, orele de început și de sfârșit, precum și
timpul scurs. Este inclusă cantitatea maximă de memorie consumată. The
diferite comenzi vor scrie de obicei și unele informații despre lor
rezultate. Sunt scrise atât mesaje fatale, de avertizare, cât și de informare.
--maxseqlength pozitiv întreg
TOATE vsearch operațiunile vor elimina secvențe de lungime egală sau mai mare
decât întreg (50,000 de nucleotide implicit).
--minseqlength pozitiv întreg
TOATE vsearch operațiunile vor elimina secvențele de lungime mai mică decât
întreg (1 nucleotidă în mod implicit pentru sortare sau amestecare, 32 de nucleotide
pentru grupare, dereplicare sau căutare).
--notrunclabels
Nu trunchiați etichetele secvenței la primul spațiu, folosiți antetul complet
fișiere de ieșire.
--Liniște Suprimați toate ieșirile către stdout și stdout, cu excepția avertismentelor și fatale
mesaje de eroare.
--versiune
Ieșiți informații despre versiune și ieșiți.
Opțiuni de detectare a himerei:
Detectarea himerei se bazează pe o funcție de scor controlată de cinci opțiuni (--dn,
--mindiffs, --mindiv, --minh, --xn). Secvențele sunt mai întâi sortate descrescător
abundență (dacă este disponibilă) și comparate pe baza lor la care se adauga numai șuviță (caz
insensibil).
In de nou modul, fișierul fasta de intrare ar trebui să prezinte adnotări de abundență (model
[;]dimensiune=întreg[;] în antetul fasta). Ordinea de intrare influențează himera
detecție, așa că vă recomandăm să sortați secvențele prin scăderea abundenței (implicit de
comanda --derep_fulllength). Dacă setul de secvențe trebuie sortat, consultați
comanda --sortbysize din secțiunea de sortare.
--inclinat real
Când se folosește --uchime_denovo, abundența este folosită pentru a distinge în a
Aliniere în trei căi care secvență este himera și care sunt părinții.
Presupunerea este că himerele apar mai târziu în amplificarea PCR
proces și, prin urmare, sunt mai puțin abundente decât părinții lor. Implicit
valoarea este 2.0, ceea ce înseamnă că părinții ar trebui să fie de cel puțin 2 ori mai mulți
abundent decât himera lor. Orice valoare pozitivă mai mare de 1.0 poate fi
folosit.
--alignwidth pozitiv întreg
Lățimea aliniamentelor cu 3 căi în ieșirea --uchimealns. Valoarea implicită este
80. Setați la 0 pentru a elimina ambalarea.
--himere nume de fișier
Ieșire secvențe himerice la nume de fișier, în format fasta. Ordinea de ieșire poate
variază atunci când utilizați mai multe fire.
--db nume de fișier
Când utilizați --uchime_ref, detectați himere folosind formatul fasta
secvențe de referință conținute în nume de fișier. Se presupun secvențe de referință
să fie fără himere. Himerele nu vor fi detectate dacă părinții lor (sau
rude suficient de apropiate) nu sunt prezente în baza de date.
--dn real
Pseudo-numărarea voturilor (parametrul n în funcția de punctare himeră)
(valoarea implicită este 1.4).
--mindiffs pozitiv întreg
Număr minim de diferențe pe segment (valoarea implicită este 3).
--mindiv real
Divergență minimă față de cel mai apropiat părinte (valoarea implicită este 0.8).
--minh real
Scorul minim (h). Creșterea acestei valori tinde să reducă numărul de
fals pozitive și pentru a scădea sensibilitatea. Valoarea implicită este 0.28 și
sunt acceptate valori cuprinse între 0.0 și 1.0.
--nonchimere nume de fișier
Ieșiți secvențe non-himerice către nume de fișier, în format fasta. Ordinea de ieșire
poate varia atunci când utilizați mai multe fire.
--de sine Când utilizați --uchime_ref, ignorați o secvență de referință când eticheta acesteia
se potrivește cu eticheta secvenței de interogare (utilă pentru estimarea pozitivă fals
rata în secvenţe de referinţă).
--autoid Când utilizați --uchime_ref, ignorați o secvență de referință atunci când este nucleotida
secvența este strict identică cu secvența de interogare.
--fire pozitiv întreg
Numărul de fire de calcul de utilizat (de la 1 la 256) cu --uchime_ref. The
numărul de fire ar trebui să fie mai mic sau egal cu numărul de CPU disponibil
miezuri. Implicit este să utilizați toate resursele disponibile și să lansați una
fir pe nucleu logic.
--uchime_denovo nume de fișier
Detectați himerele prezente în formatul fasta nume de fișier, fara exterior
referințe (de ex de nou). Sortați automat secvențele nume de fișier by
scăderea abundenței în prealabil (a se vedea secțiunea de sortare pentru detalii).
Multithreading nu este acceptat.
--uchime_ref nume de fișier
Detectați himerele prezente în formatul fasta nume de fișier prin compararea acestora
cu secvențe de referință (opțiunea --db). Multithreading este acceptat.
--uchimealns nume de fișier
Scrieți aliniamentele globale cu trei căi (parentA, părinteB, himeră) la nume de fișier
folosind un format care poate fi citit de om. Utilizați --alignwidth pentru a modifica alinierea
lungime. Ordinea de ieșire poate varia atunci când utilizați mai multe fire.
--uchimeout nume de fișier
Scrieți rezultatele detectării himerei în nume de fișier folosind tab-ul uchime separat
format de 18 câmpuri (vezi lista de mai jos). Utilizați --uchimeout5 pentru a utiliza un format
compatibil cu usearch v5 și versiunile anterioare. Ordinea de ieșire a rândurilor poate
variază atunci când utilizați mai multe fire.
1. scor: scorul mai mare înseamnă o aliniere himerică mai probabilă.
2. Î: eticheta secvenței de interogare.
3. A: părinte A etichetă secvență.
4. B: eticheta secvenței părinte B.
5. T: eticheta secvenței părinte de top (adică părintele cel mai asemănător cu cel
interogare). Acel câmp este eliminat când se utilizează --uchimeout5.
6. idQM: procentul de similitudine a interogării (Q) și a modelului (M)
construit ca parte a părintelui A și ca parte a părintelui B.
7. idQA: procentul de similitudine a interogării (Q) și a părintelui A.
8. idQB: procentul de similitudine a interogării (Q) și părinte B.
9. idAB: procentul de similaritate dintre părintele A și părintele B.
10. idQT: procentul de similitudine a interogării (Q) și a părintelui superior (T).
11. LY: da voturi în partea stângă a modelului.
12. LN: fără voturi în partea stângă a modelului.
13. LA: se abține la vot în partea stângă a modelului.
14. RY: da voturi în partea dreaptă a modelului.
15. RN: fără voturi în partea dreaptă a modelului.
16. RA: se abține la vot în partea dreaptă a modelului.
17. div: divergenta, definita ca (idQM - idQT).
18. YN: interogarea este himerică (Y), sau nu (N), sau este un caz limită
(?).
--uchimeout5
Când utilizați --uchimeout, scrieți rezultatele detectării himerei folosind o filă-
format separat de 17 câmpuri (eliminați al 5-lea câmp din --uchimeout),
compatibil cu usearch versiunea 5 și versiunile anterioare.
--xn real
Fără pondere de vot (parametrul beta în funcția de scor) (valoarea implicită este
8.0).
Opțiuni de grupare:
vsearch implementează un algoritm de grupare de stele cu o singură trecere, lacom, similar cu
algoritmi implementați în usearch, DNAclust și sumaclust, de exemplu. Important
parametrii sunt pragul global de clustering (--id) și identitatea pe perechi
definiție (--iddef).
--centroide nume de fișier
Ieșiți secvențele centroide ale clusterului la nume de fișier, în format fasta. The
centroidul este secvența care a însămânțat clusterul (adică prima secvență
a clusterului).
--cluster_fast nume de fișier
Clusterizează secvențele fasta în nume de fișier, efectuează automat a
sortarea prin scăderea lungimii secvenței în prealabil.
--cluster_size nume de fișier
Clusterizează secvențele fasta în nume de fișier, efectuează automat a
sortarea prin scăderea abundenței secvenței în prealabil.
--cluster_smallmem nume de fișier
Clusterizează secvențele fasta în nume de fișier fără modificarea automată
comanda lor dinainte. Secvența este de așteptat să fie sortată descrescător
lungimea secvenței, cu excepția cazului în care se folosește --usersort.
--clustere şir
Ieșiți fiecare cluster într-un fișier fasta separat folosind prefixul şir și
ticker (0, 1, 2, etc.) pentru a construi calea și numele fișierelor.
--consout nume de fișier
Ieșire secvențe de consens cluster la nume de fișier. Pentru fiecare cluster, a
alinierea multiplă este calculată și o secvență consens este construită de
luând simbolul majoritar (nucleotidă sau gol) din fiecare coloană a
aliniere. Coloanele care conțin majoritatea golurilor sunt omise, cu excepția
goluri terminale.
--id real
Nu adăugați ținta la cluster dacă identitatea perechilor cu
centroidul este mai mic decât real (valoare cuprinsă între 0.0 și 1.0). The
identitatea perechi este definită ca numărul de (coloane care se potrivesc) /
(lungimea de aliniere - goluri terminale). Această definiție poate fi modificată prin
--iddef.
--iddef 0|1|2|3|4
Modificați definiția identității pe perechi utilizată în --id. Valorile acceptate sunt:
0. Definiție CD-HIT: (potrivire coloane) / (cea mai scurtă secvență
lungime).
1. editați distanța: (coloane care se potrivesc) / (lungimea alinierii).
2. editați distanța, excluzând golurile terminale (la fel ca --id).
3. Definiția Laboratorului de Biologie Marină numărând fiecare decalaj extins
(internă sau terminală) ca o singură diferență: 1.0 -
[(nepotriviri + goluri)/(lungimea cea mai lungă a secvenței)]
4. Definiție BLAST, echivalentă cu --iddef 2 într-un context de
alinierea globală pe perechi.
--msaout nume de fișier
Produceți o aliniere a secvenței multiple și o secvență consens pentru fiecare
cluster to nume de fișier, în format fasta. Secvența de consens este
construit prin luarea simbolului majoritar (nucleotidă sau gol) din fiecare
coloana aliniamentului. Coloanele care conțin majoritatea golurilor sunt
omis, cu excepția golurilor terminale.
--qmask niciunul|praf|moale
Mascați repetări simple și regiuni cu complexitate redusă în secvențe folosind praf
sau moale algoritmi sau nu mascați (nici unul). Atenție, la utilizare moale
mascarea, gruparea devine sensibilă la majuscule și minuscule. Valoarea implicită este mascarea utilizării
praf.
--sizein Luați în considerare adnotările de abundență prezente în fasta de intrare
fișier (căutați modelul „[>;]size=întreg[;]" în anteturile secvenței).
--sizeout
Adăugați adnotări de abundență la fișierele fasta de ieșire (adăugați modelul
";dimensiune=întreg;" la antetele secvenței). Dacă este specificat --sizein, abundență
adnotările sunt raportate la fișierele de ieșire și fiecare centroid de cluster
primește o nouă valoare de abundență corespunzătoare abundenței totale a
ampliconi incluse în cluster (opțiunea --centroids). Dacă --sizein nu este
specificat, abundența de intrare este setată la 1 pentru ampliconi și la număr
de ampliconi pe cluster pentru centroizi.
--suvita plus|ambele
Când comparați secvențele cu sămânța clusterului, verificați la care se adauga numai șuviță
(implicit) sau verificați atât suvite.
--fire pozitiv întreg
Numărul de fire de calcul de utilizat (de la 1 la 256). Numărul de fire
ar trebui să fie mai mic sau egal cu numărul de nuclee CPU disponibile. The
implicit este să utilizați toate resursele disponibile și să lansați un fir per fiecare
nucleu logic.
--uc nume de fișier
Agruparea ieșirilor are ca rezultat nume de fișier folosind un format asemănător uclust. Pentru o
descrierea formatului, vezi
<http://www.drive5.com/usearch/manual/ucout.html>.
--usersort
Când utilizați --cluster_smallmem, permiteți orice ordine de introducere a secvenței, nu doar a
ordonarea în scădere a lungimii.
Cele mai multe opțiuni de căutare se aplică și grupării:
--alnout, --blast6out, --fastapairs, --matched, --notmatched, --maxaccept,
--maxreject, --samout, --userout, --userfields, filtrare scor, gap
pedepse, mascare. (vezi secțiunea Căutare).
Opțiuni de dereplicare:
--derep_fulllength nume de fișier
Îmbină secvențe strict identice conținute în nume de fișier. Identic
secvențele sunt definite ca având aceeași lungime și același șir de
nucleotide (insensibile la caz, T și U sunt considerate la fel).
--maxuniceze pozitiv întreg
Aruncați secvențele cu o valoare a abundenței mai mare decât întreg.
--minimizează pozitiv întreg
Aruncați secvențele cu o valoare a abundenței mai mică decât întreg.
--ieșire nume de fișier
Scrieți secvențele dereplicate la nume de fișier, în format fasta și sortat
prin scăderea abundenţei. Secvențe identice primesc antetul
prima secvență a grupului lor. Dacă se utilizează --sizeout, numărul de
aparițiile (adică abundența) fiecărei secvențe sunt indicate la sfârșitul
antetul lor fasta folosind modelul „;size=întreg; ".
--sizein Luați în considerare adnotările de abundență prezente în fasta de intrare
fișier (căutați modelul „[>;]size=întreg[;]" în anteturile secvenței).
--sizeout
Adăugați adnotări de abundență la fișierul fasta de ieșire (adăugați modelul
";dimensiune=întreg;" la anteturile secvenței). Dacă este specificat --sizein, fiecare
secvența unică primește o nouă valoare de abundență corespunzătoare totalului său
abundență (suma abundențelor aparițiilor sale). Dacă --sizein nu este
specificat, abundența de intrare este setată la 1 și fiecare secvență unică
primește o nouă valoare de abundență corespunzătoare numărului său de apariții
în fișierul de intrare.
--suvita plus|ambele
Când căutați secvențe strict identice, verificați la care se adauga șuviță
numai (implicit) sau verificați atât suvite.
--topn pozitiv întreg
Ieșiți numai partea de sus întreg secvențe (adică cele mai abundente).
--uc nume de fișier
Dereplicarea ieșirii are ca rezultat nume de fișier folosind un format asemănător uclust. Pentru o
descrierea formatului, vezi
<http://www.drive5.com/usearch/manual/ucout.html>. In contextul
dereplicare, opțiunea --uc_allhits nu are niciun efect asupra ieșirii --uc.
Opțiuni de mascare:
O secvență de intrare poate fi compusă din nucleotide mici sau majuscule. Litere mici
nucleotidele sunt setate silențios la majuscule înainte de mascare, cu excepția cazului în care --qmask este moale
este folosită opțiunea. Iată rezultatele opțiunilor de mascare combinate --qmask (sau
--dbmask pentru secvențele de baze de date) și --hardmask, presupunând fiecare secvență de intrare
conține atât nucleotide mai mici, cât și majuscule:
qmask hardmask acțiune
────────────────────────────────────────────────── ─────────────────
niciunul fără mascare, toate simbolurile cu majuscule
niciunul fără mascare, toate simbolurile cu majuscule
îndepărtați praful simbolurile mascate cu litere mici, altele cu majuscule
praful de pe simbolurile mascate s-a schimbat în Ns, altele cu majuscule
simbolurile minuscule sunt mascate, fără modificări de majuscule
soft pe simboluri minuscule mascate și schimbate în Ns
--mască tare
Mascați regiunile cu complexitate redusă înlocuindu-le cu Ns în loc de setare
ele cu litere mici.
--maskfasta nume de fișier
Mascați repetări simple și regiuni cu complexitate scăzută în secvențele conținute în
nume de fișier. Valoarea implicită este mascarea utilizării praf (utilizați --qmask pentru a modifica asta
comportament).
--ieșire nume de fișier
Scrieți secvențele mascate la nume de fișier, în format fasta.
--qmask niciunul|praf|moale
Mascați repetări simple și regiuni cu complexitate redusă în secvențe folosind praf
sau moale algoritmi sau nu mascați (nici unul). Implicit este mascarea
folosind praf.
--fire pozitiv întreg
Numărul de fire de calcul de utilizat (de la 1 la 256). Numărul de fire
ar trebui să fie mai mic sau egal cu numărul de nuclee CPU disponibile. The
implicit este să utilizați toate resursele disponibile și să lansați un fir per fiecare
nucleu logic.
Opțiuni de aliniere în perechi:
Rezultatele n * (n - 1) / 2 aliniamente perechi sunt scrise în rezultat
fișierele specificate cu --alnout, --blast6out, --fastapairs --matched, --notmatched,
--samout, --uc sau --userout (consultați secțiunea Căutare de mai jos). Specificați fie
--acceptall opțiunea pentru a scoate toate aliniamentele pe perechi sau pentru a specifica un nivel de identitate
cu --id pentru a elimina aliniamentele slabe. Majoritatea celorlalte opțiuni de acceptare/respinge (vezi
Opțiunile de căutare de mai jos) pot fi, de asemenea, utilizate. Secvențele sunt aliniate pe lor la care se adauga
numai șuviță.
--accepta toate
Scrieți rezultatele tuturor aliniamentelor la fișierele de ieșire. Această opțiune anulează
toate celelalte opțiuni de acceptare/respingere (inclusiv --id).
--allpairs_global nume de fișier
Efectuați aliniamente globale optime în perechi ale tuturor secvențelor fasta față de toate secvențele
cuprins în nume de fișier. Această comandă este multi-threaded.
--id real
Respinge potrivirea secvenței dacă identitatea perechilor este mai mică decât real
(valoare cuprinsă între 0.0 și 1.0).
--fire pozitiv întreg
Numărul de fire de calcul de utilizat (de la 1 la 256). Numărul de fire
ar trebui să fie mai mic sau egal cu numărul de nuclee CPU disponibile. The
implicit este să utilizați toate resursele disponibile și să lansați un fir per fiecare
nucleu logic.
Opțiuni de căutare:
--alnout nume de fișier
Scrieți aliniamente globale pe perechi la nume de fișier folosind un instrument care poate fi citit de om
format. Utilizați --rowlen pentru a modifica lungimea alinierii. Ordinea de ieșire poate varia
atunci când utilizați mai multe fire.
--blast6out nume de fișier
Scrie rezultatele căutării la nume de fișier folosind un format asemănător exploziei separate prin file
din douăsprezece câmpuri (enumerate mai jos), cu o linie per potrivire interogare-țintă
(sau lipsa potrivirii dacă se folosește --output_no_hits). Ordinea de ieșire poate varia
atunci când utilizați mai multe fire. O ieșire similară poate fi obținută cu --userout
nume de fișier și --câmpuri de utilizator
query+target+id+alnlen+mism+deschide+qlo+qhi+tlo+thi+evalue+bits. Complet
lista și descrierea sunt disponibile în secțiunea „Userfields” din aceasta
manuală.
1. întrebare: etichetă de interogare.
2. ţintă: etichetă țintă (secvența bazei de date). Câmpul este setat la
„*” dacă nu există nicio aliniere.
3. id: procent de identitate (valoare reală variind de la 0.0 la
100.0). Identitatea procentuală este definită ca 100 * (potrivire
stâlpi) / (lungimea de aliniere - goluri terminale). Vezi câmpurile id0
la id4 pentru alte definiții.
4. allnlen: lungimea alinierii interogare-țintă (număr de
coloane). Câmpul este setat la 0 dacă nu există nicio aliniere.
5. la fel: numărul de nepotriviri în aliniere (zero sau pozitiv
valoare intreaga).
6. deschide: numărul de coloane care conțin o deschidere de gol (zero sau
valoare întreagă pozitivă).
7. qlo: prima nucleotidă a interogării aliniată cu ținta.
Întotdeauna egal cu 1 dacă există o aliniere, 0 în caz contrar.
8. qhi: ultima nucleotidă a interogării aliniată cu ținta.
Întotdeauna egală cu lungimea alinierii în perechi. Campul
este setat la 0 dacă nu există nicio aliniere.
9. sol: prima nucleotidă a țintei aliniată cu interogarea.
Întotdeauna egal cu 1 dacă există o aliniere, 0 în caz contrar.
10. Thi: ultima nucleotidă a țintei aliniată cu interogarea.
Întotdeauna egală cu lungimea alinierii în perechi. Campul
este setat la 0 dacă nu există nicio aliniere.
11. evalua: valoarea așteptării (necalculată pentru nucleotide
aliniamente). Setați întotdeauna la -1.
12. biţi: scor de biți (nu este calculat pentru alinierea nucleotidelor).
Întotdeauna setat la 0.
--db nume de fișier
Comparați secvențele de interogare (specificate cu --usearch_global) cu fasta-
secvențe țintă formatate conținute în nume de fișier, folosind global perechi
aliniere.
--dbmask niciunul|praf|moale
Mascați repetări simple și regiuni cu complexitate redusă în baza de date țintă
secvențe folosind praf sau moale algoritmi sau nu mascați (nici unul).
Atenție, la utilizare moale comenzile de căutare de mascare devin sensibile la majuscule și minuscule.
Valoarea implicită este mascarea utilizării praf.
--dbmatched nume de fișier
Scrieți secvențe țintă a bazei de date care se potrivesc cu cel puțin o secvență de interogare
nume de fișier, în format fasta. Dacă se utilizează opțiunea --sizeout, numărul de
interogările care se potrivesc cu fiecare secvență țintă sunt indicate folosind modelul
";dimensiune=întreg; ".
--dbnotmatched nume de fișier
Scrieți secvențele țintă a bazei de date care nu se potrivesc cu secvențele de interogare nume de fișier,
în format fasta.
--fastaperechi nume de fișier
Scrieți aliniamente în perechi ale secvențelor de interogare și țintă nume de fișier, În
format fasta.
--fulldp Opțiune simulată pentru compatibilitate cu usearch. Pentru a maximiza căutarea
sensibilitate, vsearch utilizează o dinamică completă vectorizată SIMD cu 8 căi pe 16 biți
algoritm de programare (Needleman-Wunsch), indiferent dacă este sau nu --fulldp
specificat.
--gapext şir
Stabiliți penalități pentru extinderea decalajului. Vezi --gapopen pentru o completare
descrierea sistemului de declarare a pedepselor. Valoarea implicită este să
inițializați cele șase penalități de extindere a decalajului folosind o penalizare de 2 pentru
extinderea golurilor interne și o penalizare de 1 pentru extinderea golurilor terminale, în
ambele secvențe de interogare și țintă (adică 2I/1E).
--gapopen şir
Stabiliți penalități pentru deschiderea unui gol. O deschidere a golului poate apărea în șase diferite
contexte: în interogarea (Q) sau în secvența țintă (T), în stânga (L)
sau extremitatea dreaptă (R) a secvenței sau în interiorul secvenței (I).
Simbolurile de secvență (Q și T) pot fi combinate cu simboluri de locație (L, I,
și R), și valori numerice pentru a declara penalizări pentru toate posibilele
contexte: aQL/bQI/cQR/dTL/eTI/fTR, unde abcdef sunt zero sau pozitive
numere întregi, iar „/” este folosit ca separator.
Pentru a simplifica declarațiile, simbolurile de locație (L, I și R) pot fi
combinate, simbolul (E) poate fi folosit pentru a trata ambele extremități (L și R)
în mod egal, iar simbolurile Q și T pot fi omise pentru a trata interogarea și ținta
secvențe în mod egal. De exemplu, implicit este declararea unei penalități de 20
pentru deschiderea golurilor interne și o penalizare de 2 pentru deschiderea golurilor terminale
(stânga sau dreapta), atât în secvențele de interogare, cât și în secvențele țintă (adică 20I/2E). Doar daca
atunci se dă o valoare numerică, fără nicio secvență sau simbol de locație
penalizarea se aplică tuturor golurilor. A interzice deschiderea golului, an
valoarea penală infinită poate fi declarată cu simbolul „*”. A folosi vsearch
ca alinier semi-global, se poate aplica o penalizare nulă la stânga (L) sau
goluri din dreapta (R).
vsearch inițializează întotdeauna cele șase penalități de deschidere a golului folosind valoarea implicită
parametrii (20I/2E). Utilizatorul este apoi liber să declare numai valorile
el/ea vrea să modifice. The şir este scanat de la stânga la dreapta, acceptat
simbolurile sunt (0123456789/LIREQT*), iar valorile ulterioare suprascrie anterioare
valori.
Vă rugăm să reţineţi că vsearch, spre deosebire de usearch, permite doar intervalul întreg
pedepsele. Deoarece cele mai mici penalizări de decalaj sunt 0.5 în mod implicit în usearch,
toate scorurile implicite și penalitățile de gol în vsearch au fost dublate la
menține penalități echivalente și să producă aliniamente identice.
--mască tare
Mascați regiunile cu complexitate redusă înlocuindu-le cu Ns în loc de setare
ele cu litere mici. Pentru mai multe informații, consultați secțiunea Mascare.
--id real
Respinge potrivirea secvenței dacă identitatea perechilor este mai mică decât real
(valoare cuprinsă între 0.0 și 1.0). Procesul de căutare sortează ținta
secvențe prin număr descrescător de k-mers au în comun cu
secvență de interogare, folosind acele informații ca proxy pentru asemănarea secvenței.
Această prefiltrare eficientă va preveni, de asemenea, alinierea în perechi cu
ținte care se potrivesc slab, deoarece trebuie să fie cel puțin 6 partajate k-mers to
începeți alinierea pe perechi și cel puțin unul din 16 k-mers din
interogarea trebuie să se potrivească cu ținta. În consecință, folosind valori mai mici decât
--id 0.5 nu este probabil să capteze ținte care se potrivesc mai slab. The
identitatea perechi este definită implicit ca numărul de (potrivire
stâlpi) / (lungimea de aliniere - goluri terminale). Această definiție poate fi
modificat de --iddef.
--iddef 0|1|2|3|4
Modificați definiția identității pe perechi utilizată în --id. Valorile acceptate sunt:
0. Definiție CD-HIT: (potrivire coloane) / (cea mai scurtă secvență
lungime).
1. editați distanța: (coloane care se potrivesc) / (lungimea alinierii).
2. editați distanța, excluzând golurile terminale (la fel ca --id).
3. Definiția Laboratorului de Biologie Marină numărând fiecare decalaj extins
(internă sau terminală) ca o singură diferență: 1.0 -
[(nepotriviri + goluri)/(lungimea cea mai lungă a secvenței)]
4. Definiție BLAST, echivalentă cu --iddef 2 într-un context de
alinierea globală pe perechi.
Opțiunea --userfields acceptă câmpurile id0 până la id4, în plus față de
field id, pentru a raporta valorile de identitate pe perechi corespunzătoare
definiții diferite.
--idprefix pozitiv întreg
Respingeți potrivirea secvenței dacă este prima întreg nucleotidele țintei
nu se potrivesc cu interogarea.
--idsufix pozitiv întreg
Respingeți potrivirea secvenței dacă este ultima întreg nucleotidele țintei fac
nu se potrivește cu interogarea.
--stânga doar
Respingeți potrivirea secvenței dacă alinierea pe perechi începe cu goluri.
--Meci întreg
Scorul atribuit unei potriviri (adică nucleotide identice) în perechi
aliniere. Valoarea implicită este 2.
--potrivit nume de fișier
Scrieți secvențe de interogare care potrivesc cu secvențele țintă a bazei de date nume de fișier, În
format fasta.
--maxacceptă pozitiv întreg
Numărul maxim de accesări de acceptat înainte de a opri căutarea. Implicit
valoarea este 1. Această opțiune funcționează în pereche cu --maxrejects. Cautarea
procesul sortează secvențele țintă prin scăderea numărului de k-mers pe care le au în
comun cu secvența de interogare, folosind acele informații ca proxy pentru
asemănarea secvenței. După alinieri perechi, dacă prima țintă
secvența trece criteriile de acceptare, este acceptată ca cea mai bună lovită și
procesul de căutare se oprește pentru acea interogare. Dacă --maxaccepts este setat la a
valoare mai mare, sunt acceptate mai multe accesări. Dacă --maxaccepts și --maxrejects sunt
ambele setate la 0, se caută întreaga bază de date.
--maxdiffs pozitiv întreg
Respingeți potrivirea secvenței dacă alinierea conține cel puțin întreg
substituiri, inserări sau ștergeri.
--maxgaps pozitiv întreg
Respingeți potrivirea secvenței dacă alinierea conține cel puțin întreg
inserții sau ștergeri.
--maxhits pozitiv întreg
Numărul maxim de accesări de afișat odată ce căutarea este încheiată (accesările sunt
sortate după identitate descrescătoare). Nelimitat implicit. Se aplică această opțiune
la --alnout, --blast6out, --fastapairs, --samout, --uc sau --userout
fișiere de ieșire.
--maxid real
Respingeți potrivirea secvenței dacă procentul de identitate dintre cele două
secvențe este mai mare decât real.
--maxqsize pozitiv întreg
Respingeți secvențele de interogare cu o abundență mai mare decât întreg.
--maxqt real
Respingeți dacă raportul lungimii interogare/secvență țintă este mai mare decât real.
--maxrejects pozitiv întreg
Numărul maxim de secvențe țintă care nu se potrivesc de luat în considerare înainte
oprirea căutării. Valoarea implicită este 32. Această opțiune funcționează în pereche
cu --maxaccepts. Procesul de căutare sortează secvențele țintă prin descreștere
număr de k-mers pe care le au în comun cu secvența de interogare, folosind asta
informații ca proxy pentru asemănarea secvenței. După alinierea perechilor,
dacă niciuna dintre primele 32 de secvențe țintă examinate nu trece de acceptare
criteriilor, procesul de căutare se oprește pentru acea interogare (nicio accesare). Dacă
--maxrejects este setat la o valoare mai mare, sunt mai multe secvențe țintă
considerată. Dacă --maxaccepts și --maxrejects sunt ambele setate la 0, atunci
se caută baza de date completă.
--maxsizeratio real
Respingeți dacă raportul interogare/abundență țintă este mai mare decât real.
--maxsl real
Respingeți dacă raportul dintre lungimea secvenței mai scurtă/mai lungă este mai mare decât real.
--maxsubs pozitiv întreg
Respingeți potrivirea secvenței dacă alinierea pe perechi conține mai mult de
întreg substituiri.
--mijlocul real
Respingeți potrivirea secvenței dacă procentul de identitate este mai mic decât real
(ignorând toate golurile, interne și terminale).
--mincols pozitiv întreg
Respingeți potrivirea secvenței dacă lungimea de aliniere este mai mică decât întreg.
--minqt real
Respingeți dacă raportul lungimii interogare/secvență țintă este mai mic decât real.
--minsizeratio real
Respingeți dacă raportul interogare/abundență țintă este mai mic decât real.
--minsl real
Respingeți dacă raportul dintre lungimea secvenței mai scurtă/mai lungă este mai mic decât real.
--mărimea mentă pozitiv întreg
Respingeți secvențele țintă cu o abundență mai mică decât întreg.
--nepotrivire întreg
Scorul atribuit unei nepotriviri (adică diferite nucleotide) în perechi
aliniere. Valoarea implicită este -4.
--nepotrivit nume de fișier
Scrieți secvențe de interogare care nu se potrivesc cu secvențele țintă a bazei de date nume de fișier,
în format fasta.
--output_no_hits
Scrieți atât interogări care se potrivesc, cât și cele care nu se potrivesc în --alnout, --blast6out,
--samout sau --userout fișiere de ieșire (--uc și --uc_allhits fișiere de ieșire
prezintă întotdeauna interogări care nu se potrivesc). Interogările care nu se potrivesc sunt etichetate
„Fără accesări” în fișierele --alnout.
--qmask niciunul|praf|moale
Mascați repetări simple și regiuni cu complexitate redusă în secvențele de interogare folosind
il praf sau moale algoritmi sau nu mascați (nici unul). Atenție, când
folosind moale comenzile de căutare de mascare devin sensibile la majuscule și minuscule. Valoarea implicită este
a masca folosind praf.
--query_cov real
Respingeți dacă fracțiunea de interogare aliniată la secvența țintă este
mai putin decat real. Acoperirea interogării este calculată ca (potriviri + nepotriviri)
/ lungimea secvenței de interogare. Golurile interne sau terminale nu sunt luate în considerare
cont.
--corect
Respingeți potrivirea secvenței dacă alinierea pe perechi se termină cu goluri.
--rowlen pozitiv întreg
Lățimea liniilor de aliniere în ieșirea --alnout. Valoarea implicită este 64. Setați
la 0 pentru a elimina ambalajul.
--samout nume de fișier
Scrieți rezultatele alinierii la nume de fișier în format SAM. Pentru o descriere
a formatului, vezi . Ordinea de ieșire
poate varia atunci când utilizați mai multe fire.
--de sine Respingeți potrivirea secvenței dacă interogarea și etichetele țintă sunt identice.
--autoid Respingeți potrivirea secvenței dacă secvențele de interogare și țintă sunt stricte
identic.
--sizeout
Adăugați adnotări de abundență la rezultatul opțiunii --dbmatched (folosind
modelul „;dimensiune=întreg;"), pentru a raporta numărul de interogări care
potrivit fiecărei ținte.
--suvita plus|ambele
Când căutați secvențe similare, verificați la care se adauga numai fir (implicit)
sau verificați atât suvite.
--target_cov real
Respingeți potrivirea secvenței dacă fracțiunea din secvența țintă este aliniată
la secvența de interogare este mai mică decât real. Acoperirea țintă este calculată
ca (potriviri + nepotriviri) / lungimea secvenței țintă. Intern sau terminal
lacunele nu sunt luate în considerare.
--fire pozitiv întreg
Numărul de fire de calcul de utilizat (de la 1 la 256). Numărul de fire
ar trebui să fie mai mic sau egal cu numărul de nuclee CPU disponibile. The
implicit este să utilizați toate resursele disponibile și să lansați un fir per fiecare
nucleu logic.
--top_hits_only
Ieșiți numai hit-urile cu cel mai mare procent de identitate cu
interogare.
--uc nume de fișier
Rezultatele căutării de ieșire în nume de fișier folosind un format asemănător uclust. Pentru o
descrierea formatului, vezi
<http://www.drive5.com/usearch/manual/ucout.html>. Ordinea de ieșire poate varia
atunci când utilizați mai multe fire.
--uc_allhits
Când utilizați opțiunea --uc, afișați toate accesările, nu doar hit-ul de top pentru fiecare
interogare.
--usearch_global nume de fișier
Comparați secvențele țintă (--db) cu secvențele de interogare formatate fasta
cuprins în nume de fișier, folosind alinierea globală pe perechi.
--câmpuri de utilizator şir
Când utilizați --userout, selectați și ordonați câmpurile scrise în ieșire
fişier. Câmpurile sunt separate prin „+” (de exemplu, interogare+target+id). Vezi
Secțiunea „Câmpuri utilizator” pentru o listă completă de câmpuri.
--userout nume de fișier
Scrie ieșire separată de file definită de utilizator în nume de fișier. Selectați câmpurile
cu opțiunea --userfields. Ordinea de ieșire poate varia când se utilizează mai multe
fire. Dacă --userfields este gol sau nu este prezent, nume de fișier este gol.
--weak_id real
Afișați accesări cu un procent de identitate de cel puțin real, fără
încheierea căutării. O căutare normală se oprește imediat ce sunt suficiente accesări
găsit (așa cum este definit de --maxaccepts, --maxrejects și --id). Ca --weak_id
raportează hit-uri slabe care nu sunt deduse din --maxaccepts, valori mari --id
poate fi folosit, păstrând astfel atât viteza, cât și sensibilitatea. Logic, real
trebuie să fie mai mică decât valoarea indicată de --id.
--lungimea cuvântului pozitiv întreg
Lungimea cuvintelor (ex k-mers) pentru indexarea bazei de date. Gama de posibile
valorile variază de la 3 la 15, dar valorile apropiate de 8 sunt în general recomandate.
Cuvintele mai lungi pot reduce sensibilitatea pentru asemănări slabe, dar pot
crește precizia. Pe de altă parte, cuvintele mai scurte pot crește
sensibilitatea, dar poate reduce precizia. Timpul de calcul va fi în general
crește cu cuvinte mai scurte și scade cu cuvinte mai lungi. Memorie
cerințele pentru o parte a indicelui cresc cu un factor de 4 de fiecare dată
lungimea cuvântului crește cu o nucleotidă, iar aceasta devine în general
semnificativ pentru cuvinte lungi (12 sau mai mult). Valoarea implicită este 8.
Opțiuni de amestecare:
--ieșire nume de fișier
Scrieți secvențele amestecate la nume de fișier, în format fasta.
--samanta pozitiv întreg
Când amestecați ordinea secvenței, utilizați întreg ca sămânță. O sămânță dată va
produce întotdeauna aceeași ordine de ieșire (utilă pentru replicabilitate). Setați la 0
pentru a utiliza o sămânță pseudo-aleatoare (comportament implicit).
--amesteca nume de fișier
Amestecați pseudo-aleatoriu ordinea secvențelor conținute în nume de fișier.
--topn pozitiv întreg
Ieșiți numai partea de sus întreg secvențe.
Opțiuni de sortare:
Intrările Fasta sunt sortate după abundență descrescătoare (--sortbysize) sau lungimea secvenței
(--sortbylength). Pentru a obține o ordine de sortare stabilă, legăturile sunt sortate descrescător
abundența și ordinea alfanumerică crescătoare a etichetei (--sortbylength), sau doar după
etichetă ordine alfanumerică crescătoare (--sortbysize). Sortarea etichetelor presupune că
toate secvențele au etichete unice. Același lucru este valabil și pentru sortarea automată
efectuată în timpul verificării himerei (--uchime_denovo), dereplicare
(--derep_fulllength) și clustering (--cluster_fast și --cluster_size).
--maxsize pozitiv întreg
Când utilizați --sortbysize, eliminați secvențele cu o valoare a abundenței mai mare
decât întreg.
--dimensiunea minimă pozitiv întreg
Când utilizați --sortbysize, eliminați secvențele cu o valoare a abundenței mai mică
decât întreg.
--ieșire nume de fișier
Scrieți secvențele sortate la nume de fișier, în format fasta.
--reetichetare şir
Reetichetați secvența folosind prefixul şir și un ticker (1, 2, 3 etc.) pentru
construiți noile anteturi. Utilizați --sizeout pentru a conserva abundența
adnotări.
--sizeout
Când utilizați --relabel, raportați adnotările de abundență la rezultatul fasta
fișier (folosind modelul „;size=întreg;").
--sortbylength nume de fișier
Sortați după lungimea descrescătoare a secvențelor conținute în nume de fișier. Vezi
opțiunile generale --minseqlength și --maxseqlength pentru a elimina scurt și
secvențe lungi.
--sortare după mărime nume de fișier
Sortați după abundență descrescătoare secvențele conținute în nume de fișier (
model „[>;]size=întreg[;]" trebuie să fie prezent). Vedeți opțiunile
--minsize și --maxsize pentru a elimina secvențele rare și dominante.
--topn pozitiv întreg
Ieșiți numai partea de sus întreg secvențe (adică cele mai lungi sau cele mai multe
abundent).
Câmpuri utilizator (câmpuri acceptate de opțiunea --userfields):
aln Tipăriți un șir de M (potrivire), D (șterge, adică un spațiu în interogare) și I
(inserție, adică un decalaj în țintă) reprezentând alinierea pe perechi.
Câmp gol dacă nu există nicio aliniere.
allnlen Tipăriți lungimea alinierii interogare-țintă (număr de coloane). The
câmpul este setat la 0 dacă nu există nicio aliniere.
biţi Scorul de biți (nu este calculat pentru alinierea nucleotidelor). Întotdeauna setat la 0.
caln Reprezentare compactă a alinierii perechi folosind formatul CIGAR
(Raport de aliniere cu decalaj idiosincratic compact): M (potrivire), D (ștergere)
și eu (inserție). Câmp gol dacă nu există nicio aliniere.
evalua Valoarea E (nu este calculată pentru alinierea nucleotidelor). Setați întotdeauna la -1.
ext Numărul de coloane care conțin o extensie de decalaj (zero sau întreg pozitiv
valoare).
lacune Numărul de coloane care conțin un interval (valoare întreagă zero sau pozitivă).
id Procentul de identitate (valoarea reală variind de la 0.0 la 100.0). The
identitatea procentuală este definită ca 100 * (coloane care se potrivesc) / (aliniere
lungime - goluri terminale).
id0 Definiția CD-HIT a procentului de identitate (valoarea reală variind de la
0.0 la 100.0) folosind lungimea celei mai scurte secvențe în perechi
alinierea ca numitor: 100 * (coloane care se potrivesc) / (cea mai scurtă secvență
lungime).
id1 Procentul de identitate (valoarea reală variind de la 0.0 la 100.0) este
definită ca distanța de editare: 100 * (coloane care se potrivesc) / (aliniere
lungime).
id2 Procentul de identitate (valoarea reală variind de la 0.0 la 100.0) este
definită ca distanța de editare, excluzând golurile terminale. Câmpul id2 este an
alias pentru id-ul câmpului.
id3 Laboratorul de biologie marine definirea procentului de identitate (valoare reală
variind de la 0.0 la 100.0), numărând fiecare decalaj extins (intern sau
terminal) ca o singură diferență și folosind lungimea celui mai lung
secvență în alinierea perechi ca numitor: 100 * (1.0 -
[(nepotriviri + goluri) / (lungimea cea mai lungă a secvenței)]).
id4 Definiția BLAST a procentului de identitate (valoarea reală variind de la
0.0 până la 100.0), echivalent cu --iddef 2 într-un context global perechi
aliniere.
ID-uri Numărul de potriviri în aliniere (zero sau valoare întreagă pozitivă).
la fel Numărul de nepotriviri în aliniere (zero sau valoare întreagă pozitivă).
deschide Numărul de coloane care conțin o deschidere de gol (zero sau întreg pozitiv
valoare).
perechi Numărul de coloane care conțin numai nucleotide. Această valoare îi corespunde
lungimea aliniamentului minus coloanele care conțin decalaj (zero sau
valoare întreagă pozitivă).
pctgaps Numărul de coloane care conțin goluri exprimat ca procent din
lungime de aliniere (valoare reală variind de la 0.0 la 100.0).
pctpv Procentul de coloane pozitive. Când lucrați cu secvențe de nucleotide,
aceasta este echivalentă cu procentul de potriviri (valoarea reală variind de la
0.0 la 100.0).
pv Numărul de coloane pozitive. Când lucrezi cu secvențe de nucleotide, asta
este echivalent cu numărul de potriviri (zero sau valoare întreagă pozitivă).
qcov Fracțiune din secvența de interogare care este aliniată cu secvența țintă
(valoare reală variind de la 0.0 la 100.0). Acoperirea interogării este calculată ca
100.0 * (potriviri + nepotriviri) / lungimea secvenței de interogare. Internă sau
golurile terminale nu sunt luate în considerare. Câmpul este setat la 0.0 dacă există
nu este nici o aliniere.
qframe Cadru de interogare (de la -3 la +3). Acest câmp se referă doar la secvențe de codare și este
necalculat de vsearch. Întotdeauna setat la +0.
qhi Ultima nucleotidă a interogării aliniată cu ținta. Întotdeauna egal cu
lungimea alinierii perechilor. Câmpul este setat la 0 dacă nu există
aliniere.
qihi Ultima nucleotidă a interogării aliniată cu ținta (ignorând terminalul
goluri). Numerotarea nucleotidelor începe de la 1. Câmpul este setat la 0 dacă există
nu este nici o aliniere.
qilo Prima nucleotidă a interogării aliniată cu ținta (ignorând inițiala
goluri). Numerotarea nucleotidelor începe de la 1. Câmpul este setat la 0 dacă există
nu este nici o aliniere.
ql Lungimea secvenței de interogare (valoare întreagă pozitivă). Câmpul este setat la 0 dacă
nu există aliniere.
qlo Prima nucleotidă a interogării aliniată cu ținta. Întotdeauna egal cu 1
dacă există o aliniere, 0 în caz contrar.
qrow Tipăriți secvența segmentului de interogare așa cum se vede în alinierea pe perechi
(adică cu inserții de goluri dacă este necesar). Câmp gol dacă nu există
aliniere.
qs Lungimea segmentului de interogare. Întotdeauna egală cu lungimea secvenței de interogare.
qstrand Interogați orientarea catenei (+ sau - pentru secvențele de nucleotide). Câmp gol dacă
nu există aliniere.
întrebare Etichetă de interogare.
crud Scorul brut de aliniere (valoare întreagă negativă, nulă sau pozitivă). Scorul
este suma recompenselor meciului minus penalizările de nepotrivire, deschiderile de goluri și decalajul
extensii. Câmpul este setat la 0 dacă nu există nicio aliniere.
ţintă Etichetă țintă. Câmpul este setat la „*” dacă nu există nicio aliniere.
tcov Fracțiune din secvența țintă care este aliniată cu secvența de interogare
(valoare reală variind de la 0.0 la 100.0). Acoperirea țintă este calculată ca
100.0 * (potriviri + nepotriviri) / lungimea secvenței țintă. Internă sau
golurile terminale nu sunt luate în considerare. Câmpul este setat la 0.0 dacă
nu există aliniere.
tframe Cadrul țintă (de la -3 la +3). Acest câmp se referă doar la secvențe de codare și este
necalculat de vsearch. Întotdeauna setat la +0.
Thi Ultima nucleotidă a țintei aliniată cu interogarea. Întotdeauna egal cu
lungimea alinierii perechilor. Câmpul este setat la 0 dacă nu există
aliniere.
tihi Ultima nucleotidă a țintei aliniată cu interogarea (ignorând terminalul
goluri). Numerotarea nucleotidelor începe de la 1. Câmpul este setat la 0 dacă există
nu este nici o aliniere.
tei Prima nucleotidă a țintei aliniată cu interogarea (ignorând inițial
goluri). Numerotarea nucleotidelor începe de la 1. Câmpul este setat la 0 dacă există
nu este nici o aliniere.
tl Lungimea secvenței țintă (valoare întreagă pozitivă). Câmpul este setat la 0 dacă
nu există aliniere.
sol Prima nucleotidă a țintei aliniată cu interogarea. Întotdeauna egal cu 1
dacă există o aliniere, 0 în caz contrar.
Trow Tipăriți secvența segmentului țintă așa cum se vede în alinierea pe perechi
(adică cu inserții de goluri dacă este necesar). Câmp gol dacă nu există
aliniere.
ts Lungimea segmentului țintă. Întotdeauna egală cu lungimea secvenței țintă. Campul
este setat la 0 dacă nu există nicio aliniere.
tstrand Orientarea catenei țintă (+ sau - pentru secvențele de nucleotide). Întotdeauna setat la
„+”, deci potrivirile inverse ale firelor au tstrand „+” și qstrand „-”. Gol
câmp dacă nu există nicio aliniere.
DELIBERA CHANGES
Dacă sunteți utilizator usearch, obiectivul nostru este să vă facem să vă simțiți ca acasă. De aceea vsearch
a fost conceput să se comporte ca usearch, într-o oarecare măsură. Ca orice software complex, usearch este
nu lipsit de ciudatenii și inconsecvențe. Am decis să nu reproducem unele dintre ele și
pentru o transparență deplină, să documentăm aici modificările deliberate pe care le-am făcut.
În timpul unei căutări cu usearch, când utilizați opțiunile --blast6out și --output_no_hits, pentru
interogările fără potrivire cu numărul de câmpuri raportate este 13, unde ar trebui să fie 12. Aceasta este
corectat în vsearch.
Câmpul brut al opțiunii --userfields nu este informativ în usearch. Acest lucru este corectat
in vsearch.
Câmpurile qlo, qhi, tlo, thi au acum omoloage (qilo, qihi, tilo, tihi) de raportare
coordonatele de aliniere ignorând golurile terminale.
În usearch, când se utilizează opțiunea --output_no_hits, interogările care nu primesc nicio potrivire sunt
raportat în fișierul blast6out, dar nu în fișierul de ieșire de aliniere. Acest lucru este corectat în
vsearch.
vsearch introduce o nouă comandă --cluster_size care sortează secvențele prin descreștere
abundență înainte de grupare.
vsearch reintroduce --iddef definiții alternative de identitate perechi care au fost eliminate
de la usearch.
vsearch extinde opțiunea --topn la comenzile de sortare.
vsearch extinde opțiunea --sizein la dereplicare (--derep_fulllength) și clustering
(--cluster_rapid).
vsearch tratează T și U ca nucleotide identice în timpul dereplicării.
vsearch sortarea este stabilizată prin utilizarea abundențelor de secvențe sau a etichetelor de secvențe ca
chei secundare sau terțiare.
NOUĂTĂȚI
vsearch introduce noi opțiuni care nu sunt prezente în usearch 7. Sunt descrise în
Secțiunea „Opțiuni” din acest manual. Iată o listă scurtă:
- alignwidth (verificare himeră)
- cluster_size (clustering)
- fasta_width (opțiune generală)
- iddef (clustering, aliniere în perechi, căutare)
- mărire maximă (dereplicare)
- amestecare (amestecare)
EXEMPLE
Aliniați toate secvențele dintr-o bază de date între ele și scoateți toate aliniamentele pe perechi:
vsearch --allpairs_global baza de date.fas --alnout rezultate.aln --accepta toate
Verificați prezența himerelor (de nou); părinții ar trebui să fie de cel puțin 1.5 ori mai mulți
abundent decât himerele. Ieșiți secvențe non-himerice în format fasta (fără împachetare):
vsearch --uchime_denovo interogări.fas --nonchimere rezultate.fas --fasta_width 0
--abskew 1.5
Cluster cu un prag de similaritate de 97%, colectează centroizii cluster și scrie cluster
descrieri folosind un format asemănător uclust:
vsearch --cluster_fast interogări.fas --id 0.97 --centroide centroizi.fas --uc
clustere.uc
Dereplicați secvențele conținute în queries.fas, luați în considerare abundența
informațiile deja prezente, scrieți secvențe neîmpachetate pentru a ieși cu noua abundență
informații, aruncați toate secvențele cu o abundență de 1:
vsearch --derep_fulllength interogări.fas --ieșire queries_masked.fas --sizein
--sizeout --fasta_width 0 --minuniquesize 2
Mascați repetări simple și regiuni de complexitate scăzută în fișierul fasta de intrare (regiunile mascate sunt
minuscule) și scrieți rezultatele în fișierul de ieșire:
vsearch --maskfasta interogări.fas --ieșire queries_masked.fas --qmask praf
Căutați interogări într-o bază de date de referință, cu un prag de similaritate de 80%, luați terminal
lacunele luate în considerare atunci când se calculează asemănările pe perechi:
vsearch --usearch_global interogări.fas --db referințe.fas --alnout rezultate.aln --id
0.8 --iddef 1
Căutați un set de date secvență față de el însuși (ignorați accesările proprii), obțineți toate potrivirile cu cel puțin
60% identitate și colectați rezultatele într-un format de tip explozie, separat de file:
vsearch --usearch_global interogări.fas --db interogări.fas --id 0.6 --self --blast6out
rezultate.blast6 --maxaccepts 0 --maxrejects 0
Amestecați fișierul fasta de intrare (schimbați ordinea secvențelor) într-un mod repetabil
(sămânță fixă) și scrieți secvențe fasta neîmpachetate în fișierul de ieșire:
vsearch --amesteca interogări.fas --ieșire queries_shuffled.fas --seed 13 --fasta_width
0
Sortați după abundență descrescătoare secvențele conținute în interogări.fas (folosind codul
"dimensiune=întreg„informații), reetichetați secvențele, păstrând în același timp abundența
informații (cu --sizeout), păstrați numai secvențe cu o abundență egală sau mai mare
decât 2:
vsearch --sortare după mărime interogări.fas --ieșire interogări_sortate.fas --relabel sampleA_
--sizeout --minsize 2
AUTORI
Implementare de Torbjørn Rognes și Tomás Flouri, documentare de Frédéric Mahé.
RAPORTAREA GANDACI
Trimiteți sugestii și rapoarte de erori la , Trimite o
trage cererea pe , sau compune un prieten sau
e-mail curmudgeont către Torbjørn Rognes[e-mail protejat]>.
DISPONIBILITATE
Codul sursă și binarele sunt disponibile la .
DREPTURI DE AUTOR
Copyright (C) 2014, 2015 Torbjørn Rognes, Frédéric Mahé și Tomás Flouri.
Acest program este software gratuit: îl puteți redistribui și/sau modifica în condițiile
Licența publică generală GNU Affero, așa cum este publicată de Free Software Foundation, fie
versiunea 3 a Licenței sau orice versiune ulterioară.
Acest program este distribuit in speranta ca va fi de folos, dar FARA NICIO GARANTIE;
fără nici măcar garanția implicită de VANTABILITATE sau ADECVARE PENTRU UN ANUMIT SCOP.
Consultați Licența publică generală GNU Affero pentru mai multe detalii.
Ar fi trebuit să primiți o copie a licenței publice generale GNU Affero împreună cu aceasta
program. Dacă nu, vezihttp://www.gnu.org/licenses/>.
vsearch include cod din proiectul Google CityHash de Geoff Pike și Jyrki Alakuijala,
oferind câteva funcții hash excelente disponibile sub o licență MIT.
vsearch include cod derivat din programul DUST al lui Tatusov și Lipman care este în public
domeniu.
vsearch binarele pot include cod din biblioteca zlib, drepturi de autor Jean-Loup Gailly și
Mark Adler.
vsearch binarele pot include cod din biblioteca bzip2, copyright Julian R. Seward.
Utilizați vsearch-bz online folosind serviciile onworks.net