Aceasta este comanda PerM care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
permanent - Cartografiere eficientă a citirilor scurte cu semințe distanțate periodice
Dacă aveți întrebări despre utilizare, trimiteți un e-mail „yanghoch at usc dot edu”.
REZUMAT
Pentru a utiliza linia de comandă, tastați permanent cu argumentele în ordine.
EXEMPLE
Pentru un singur capăt prevede:
permanent Ref Citește [Opțiuni]
Exemple:
permanent Ref.fasta Reads.fasta -v 5 -o out.mapping -u ummappedReads.fa
permanent RefFilesList.txt ReadsSetFilesList.txt -v 5 -u unmappedReads.fa -E
permanent Ref.fasta Reads.csfasta -v 5 -m -s my.index --delimiter ´,´ --seed F3
permanent my.index SingleEndReads.csfasta -v 5 -o out.sam -k 10 -a ambiguous10.csfasta
Pentru sfârşit pereche prevede:
permanent Ref -1 F3_Citește -2 R3_Citește [Opțiuni]
Exemple:
permanent ref.fa -1 F3.fa -2 R3.fa -U 3000 -L 100 -v 5 -A -m -s -o out.sam
permanent ref.txt -1 F3.fq -2 R3.fq -v 5 -m -s my.index -o out.mapping --seed F3
permanent my.index -1 F3.fq -2 R3.fq -U 3000 -L 100 -v 5 -A -o out.sam
La construi an index numai:
permanent Ref Read_Length --readFormat <.csfasta|.fasta> -m -s index cale --samanta F3
Exemplu:
permanent hg18.txt 50 --readFormat .csfasta -m -s hg18_50_SoliD.index
OPŢIUNI
Necesar Argumente
· Fișierul de referință ar trebui să fie în format FASTA cu fie .fasta, .fna, .fa
extensia de fișier. Pentru un transcriptom cu mai multe gene sau izoforme ca referință,
concatena toate secvențele FASTA într-un singur fișier FASTA. Alternativ, dacă există
multe fișiere, de exemplu unul pe cromozom, de exemplu: chr1.fa la chrY.fa, listați FASTA
nume de fișiere câte unul pe linie într-un fișier care are .TXT extensie. The .TXT este important
deoarece PerM examinează extensia fișierului pentru a ști dacă fișierul de intrare este o listă de
nume de fișiere. Numele fișierelor trebuie să includă calea fișierului (relativă sau absolută), cu excepția cazului în care
fișierele FASTA sunt toate în același director din care rulează PerM.
· Fișierul(ele) citit(e) trebuie să fie în formatul .fasta, .fastq, .csfasta sau .csfastq. Permanent
analizează un fișier în funcție de extensia sa sau de formatul specificat explicit de
--readFormat steag. Dacă există mai multe fișiere citite, enumerați fiecare nume de fișier, unul
pe linie, într-un fișier .txt. PerM îl ia ca intrare și poate mapa mai multe seturi de citire
paralel cu [http://en.wikipedia.org/wiki/OpenMP OpenMP].
Pantaloni scurți Opţiuni (grupate by legate de funcționalitate)
-A producție toate aliniamente în cadrul pragului de nepotrivire (vezi -v opțiune), de la capăt la capăt.
-B producție Cel mai bun aliniamente în ceea ce privește nepotrivirile în prag (vezi -v opțiune). Pentru
de exemplu, dacă o citire nu are aliniamente de potrivire perfectă, două nepotriviri de bază unică
aliniamente și aliniamente suplimentare cu mai multe nepotriviri, doar cele două singure
aliniamentele de nepotrivire de bază vor fi afișate. -B este modul implicit dacă nici unul -A or -B
este specificat.
-E Ieșiți numai citiri mapate unic rămas după il Cel mai bun selecția în jos a fost
aplicat dacă este cazul. Când este combinat cu -A opțiune, citește doar cu o singură
alinierea în cadrul pragului de nepotrivire (vezi -v opțiunea) va fi afișată.
-v Numărul maxim de nepotriviri permis (sau permis la fiecare capăt pentru citirile la capătul perechilor).
Valoarea implicită este numărul de nepotriviri la care sămânța utilizată este complet sensibilă
la.
-k Specifică numărul maxim de aliniamente de ieșit. Valoarea implicită este 200 dacă
-k nu este dat. Alinieri pentru maparea citirilor la un număr mai mare decât numărul maxim
pozițiile nu vor fi afișate. Utilizați opțiunea -a pentru a colecta citirile care au depășit valoarea
maxim.
-t Numărul de baze de la capătul 5' al fiecărei citiri de ignorat. De exemplu, dacă primele 5
bazele sunt folosite ca cod de bare sau pentru a indexa mai multe mostre împreună, utilizați -t 5. Dacă nu
specificate, nicio bază inițială nu va fi ignorată.
-T Numărul de baze din fiecare citire de utilizat, începând după orice baze ignorate de opțiunea -t.
Bazele ulterioare de la 3´ ale citirii sunt ignorate. De exemplu, -T 30 înseamnă numai utilizare
primele 30 de baze (semnale) după orice baze ignorate datorită opțiunii -t.
-m Creați indexul de referință fără a reutiliza indexul salvat, chiar dacă este disponibil.
-s cale
Salvați indexul de referință pentru a accelera maparea în viitor. Dacă cale nu este
specificat, indexul va fi creat în directorul de lucru curent (adică unde
PerM este rulat de la) folosind numele de index implicit. Dacă cale este un director, indexul
va fi creat în directorul specificat folosind numele de index implicit (director
trebuie să existe; nu va fi creat automat). Dacă cale este o cale de fișier, the
indexul va fi creat cu numele specificat.
-o filepath
Numele fișierului de ieșire de mapare la maparea unui singur set de citire. Formatul fișierului de ieșire
va fi fie formatul de text delimitat de tabele .mapping, fie formatul SAM ca
determinat de extensia numelui fișierului de ieșire. De exemplu {{{-o out.sam}}}
va ieși în format SAM; {{{-o /path/to/out.mapping}}} va afișa în .mapping
format. Utilizare --format de iesire pentru a trece peste acest comportament. The -o opțiunea nu se aplică
atunci când mai multe seturi de citiri sunt mapate simultan pentru a profita de mai multe
CPU-uri (nuclee); vezi -d opțiune pentru acest caz.
-d dirpath
Director de ieșire pentru maparea fișierelor de ieșire la maparea mai multor seturi de citire (ieșire
fișierele vor fi denumite automat). Dacă directorul specificat nu există, fișierul
directorul de ieșire va fi creat cu condiția ca directorul părinte să existe. Dacă -d
comutatorul nu este specificat, fișierele vor fi scrise în directorul din care rulează PerM.
Notă: dacă -d filepath este specificat la maparea unui singur set de citire, dirpath va fi
prefacut la filepath; totuși, această utilizare nu este recomandată.
-a filepath
Creați un fișier FASTA (FASTQ) pentru citirile mapate la mai multe poziții decât pragul
specificat de -k sau implicit de 200.
-b filepath
Creați un fișier FASTA (FASTQ) pentru citiri care este mai scurt decât lungimea așteptată sau cu
personaje ciudate.
-u filepath
Creați un fișier FASTA (FASTAQ) cu citiri nemapate. Când un singur set de citit este mapat,
nume de fișier specifică numele fișierului de ieșire. Când sunt mapate mai multe seturi de citit,
nume de fișier este irelevant și ar trebui să fie omis; fișierele secvențelor nemapate vor
fi automat numit și creat în directorul din care rulează PerM.
Lung Opţiuni
--ambiguosReadOnly
Produceți doar maparea ambiguă pentru a găsi repetări (regiuni similare în cadrul substituției
prag). Când această opțiune este specificată, citește numărul mapat la numărul de mapare peste
pragul specificat de -k va fi în continuare tipărit.
--ambiguosReadInOneLine
ieșirea citește mapată la mai mult de k locuri dintr-o linie. Când această opțiune este
specificat, citește cel mapat la pragul de peste mapare specificat de -k will
să fie imprimate în continuare, dar tipărite pe o singură linie.
--noSamHeader
Nu includeți un antet SAM. Acest lucru facilitează concatenarea mai multor SAM
fișiere de ieșire.
--includeReadsWN
Harta citește cu baze N sau ´.´ egale sau mai puține decât pragul specificat de
codificarea N sau ´.´ ca A sau 3. Citirile cu mai mult ´N´ vor fi eliminate. Implicit
setarea aruncărilor citite cu orice „N”.
--statsOnly
Trimiteți statisticile de mapare numai în stdout, fără a salva aliniamentele la fișiere.
--ignoreQS
Ignorați scorurile de calitate din fișierele FASTQ sau QUAL.
--printNM
Când sunt disponibile scoruri de calitate, utilizați acest indicator pentru a imprima numărul de nepotriviri,
în loc de scoruri de nepotrivire în formatul de cartografiere.
--samanta {F,,0,, | F,,1,, | F,,2,, | F,,3,, | F,,4,, | S,,11,, | S,,20,, | S,,12,,}
Specificați modelul semințelor. Semințele F,,0,,, F,,1,,, F,,2,,, F,,3,,, și F,,4,, sunt
complet sensibil la 0-4 nepotriviri, respectiv. Semințele S,,11,, S,,20,, S,,12,,
sunt proiectate pentru secvențiatorul SOLiD. O sămânță S,,kj,, este complet sensibilă la k
perechi de nepotriviri adiacente (semnătura SNP este spațiul de culoare) și j nepotriviri izolate.
Vedea [http://code.google.com/p/perm/wiki/Algorithms pagina de algoritm] pentru mai multe
informații despre modelele semințelor.
--refFormat {fasta | listă | index }
Să presupunem că secvențele de referință sunt în formatul specificat, în loc să ghicească
conform extensiei fișierului.
--readFormat |{fasta | rapidq | csfasta | csfastq}
Să presupunem că citirile sunt în formatul specificat, în loc să ghiciți conform
extensia fișierului (fișierelor).
--format de iesire { sam | cartografiere }
Ignorați opțiunea de format implicit de mapare a ieșirii sau specificați-o în mod explicit atunci când
extensia fișierului de ieșire nu este .sam sau .mapping.
--delimitator car de război
car de război este un caracter folosit ca delimitator pentru a separa ID-ul citit și
informații suplimentare în rândul cu > când citiți un fișier FASTA sau CSFASTA.
--Buturuga filepath
filepath specifică numele fișierului jurnal care conține statisticile de mapare
care va fi tipărit și pe ecran.
--forwardOnly
Harta citește numai pentru componenta înainte: (Acesta este pentru componenta SOLiD specifică
secvențiere).
--reverseOnly
Harta citește numai pe partea inversă: (Acesta este pentru SOLiD Strand specific
secvențiere)
Opţiuni pentru Sfârșit pereche Citește
PerM se ocupă de citirile asociate cu pereche prin maparea fiecărui capăt separat. Toate combinațiile de
perechile împerecheate care se mapează la aceeași secvență de referință vor fi afișate dacă separarea lor este
în intervalul permis, așa cum este specificat de -L si -U steaguri.
-e Excludeți perechile ambigue.
-L / --limita inferioară Int
limita inferioară pentru distanța de separare între pereche
-U / --limită superioară Int
limita superioară pentru distanța de separare între pereche
Limita superioară și limita inferioară pot fi negative, ceea ce poate surprinde rearanjarea
variatii. Folosește -A argument pentru a evita ratarea perechilor corecte. Cu toate acestea, acest lucru poate
crește foarte mult timpul de rulare dacă ambele capete sunt în regiuni repetitive.
--fr Hartați citirile de la capătul împerecheat numai către diferite componente
--ff Hartă sfârșitul împerecheat citește numai pentru aceeași componentă
--printRefSeq
Tipăriți secvența pereche de referință mapată ca ultimele două coloane în .mapping
format. | Opțiunea implicită de ieșire de mapare atât în aceeași componentă, cât și în cea diferită.
DEFAULT SETTINGS
Următoarele sunt setările implicite atunci când opțiunea de linie de comandă corespunzătoare nu este
specificat. Vă rugăm să specificați opțiunea de modificare a setărilor implicite.
· Permiteți doar două nepotriviri numai la fiecare capăt și utilizați semințele F,,2,, S,,11, sau F,,3,,
,selectate în funcție de lungimile și tipurile de citire.
· Imprimați cele mai bune aliniamente pentru fiecare citire în ceea ce privește numărul de nepotriviri.
· Fișiere de ieșire în *.format de cartografiere.
· Caută un index salvat cu numele de fișier implicit înainte de a construi noul index.
· Nu va salva indexul în fișier, decât dacă este specificat {{{-s}}}.
· Pentru citirile de sfârșit pereche, distanța implicită de separare permisă este 0-3000 bp. Schimbare
cu -L si -U opțiuni.
Paralel Maparea
PerM mapează simultan mai multe seturi de citiri într-o listă interogând același index. Se va
detectați câte procesoare (nuclee) sunt disponibile și atribuiți fiecăruia un set de citire. Dacă o lectură
setul este gata, următorul set citit din listă va fi procesat automat. Fiecare set citit
va avea propriul fișier de ieșire de mapare. Pentru a utiliza mai bine toate procesoarele de pe un nod, citiri mari
setul ar trebui să fie împărțit în mai multe seturi mici de citit și pus într-o listă. Când sunt mai multe noduri
utilizat în același sistem de fișiere, indexul ar trebui să fie pre-construit mai întâi de un nod; celălalt
nodurile vor citi indexul pre-construit fără a construi din nou indexul. Fără index pre-construit,
fiecare mașină va încerca să-și construiască propriul index, pierzând timp CPU și spațiu de stocare.
Ieşire Coduri
PerM setează codul de ieșire la 0 după finalizarea cu succes, comportamentul normal Unix. Dacă
programul se încheie prin Ctrl-C (SIGINT), codul de ieșire va fi 2, numărul pentru SIGINT
(A se vedea om ucide). Dacă invocați PerM dintr-o altă limbă, puteți verifica codul de returnare
și fă ceva inteligent. Iată un exemplu de pseudo-cod Perl:
while (... un fel de buclă...) {
my $cmd = "PerM ... argumente și comutatoare";
my $ec = system($cmd);
dacă ($ec == 2) {
print STDERR "PerM terminat prin Ctrl-C. Oprirea rulării.\n\n";
# Poate faceți niște curățări, cum ar fi ștergerea fișierelor mici în care era fișierul citit
# împărțit în pentru procesare paralelă.
ieșire($ec);
}
}
Utilizare Permanent on Galaxie
Mulțumită profesorului Anton Nekrutenko și Kelly Vincent de la PSU, acum puteți utiliza PerM
[http://test.g2.bx.psu.edu/ Galaxy test Server]. Urmați hyperlinkul către pagina Galaxy,
și faceți clic pe NGS:Mapping în meniul de instrumente. Vă rugăm să alegeți Hartă cu Permanent pentru Solid si
Illumina. Vă puteți încărca propria referință sau puteți utiliza indexul hg19 predefinit în sistem.
Vă rugăm să-mi trimiteți un e-mail dacă întâmpinați dificultăți. Odată ce sistemul își dovedește stabilitatea,
va fi mutat pe serverul principal al Galaxy cu mai multe indexuri de referință pre-construite.
Unitate Test
Când a fost dezvoltat PerM, a fost pregătit și un modul de testare unitar cppUnit. Daca esti
sunteți interesat de codul de testare pentru PerM, vă rugăm să-mi trimiteți un e-mail.
Utilizați PerM online folosind serviciile onworks.net