Dit is de opdracht PerM die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
permanent - Efficiënt in kaart brengen van korte leesbewerkingen met periodiek op afstand geplaatste zaden
Als u gebruiksvragen heeft, kunt u een e-mail sturen naar "yanghoch at usc dot edu".
KORTE INHOUD
Om de opdrachtregel te gebruiken, typt u permanent met de args in de volgorde.
Voorbeelden
Voor enkel uiteinde luidt als volgt:
permanent Ref leest [opties]
Voorbeelden:
permanent Ref.fasta Reads.fasta -v 5 -o out.mapping -u ummappedReads.fa
permanent RefFilesList.txt ReadsSetFilesList.txt -v 5 -u unmappedReads.fa -E
permanent Ref.fasta Reads.csfasta -v 5 -m -s my.index --delimiter ´,´ --seed F3
permanent my.index SingleEndReads.csfasta -v 5 -o out.sam -k 10 -a ambigu10.csfasta
Voor gekoppeld einde luidt als volgt:
permanent Ref -1 F3_Leest -2 R3_Leest [opties]
Voorbeelden:
permanent ref.fa -1 F3.fa -2 R3.fa -U 3000 -L 100 -v 5 -A -m -s -o uit.sam
permanent ref.txt -1 F3.fq -2 R3.fq -v 5 -m -s mijn.index -o uit.mapping --seed F3
permanent mijn.index -1 F3.fq -2 R3.fq -U 3000 -L 100 -v 5 -A -o uit.sam
Naar bouw an index Alleen:
permanent Ref Lees_Lengte --readFormat <.csfasta|.fasta> -m -s index pad --zaad F3
Voorbeeld:
permanent hg18.txt 50 --readFormat .csfasta -m -s hg18_50_SOLiD.index
OPTIES
Nodig argumenten
· Het referentiebestand moet de FASTA-indeling hebben met de extensie .vasten, .fnaof .weinig
bestandsextensie. Voor een transcriptoom met meerdere genen of isovormen als referentie,
voeg alle FASTA-reeksen samen in één enkel FASTA-bestand. Als alternatief, als die er zijn
veel bestanden, bijvoorbeeld één per chromosoom, bijvoorbeeld: chr1.fa tot chrY.fa, vermelden de FASTA
bestandsnamen één per regel in een bestand met de extensie . Txt verlenging. De . Txt is belangrijk
omdat PerM de bestandsextensie onderzoekt om te weten of het invoerbestand een lijst is van
bestandsnamen. De bestandsnamen moeten het bestandspad (relatief of absoluut) bevatten, tenzij
de FASTA-bestanden bevinden zich allemaal in dezelfde map van waaruit PerM wordt uitgevoerd.
· De gelezen bestanden moeten de indeling .fasta, .fastq, .csfasta of .csfastq hebben. Permanent
parseert een bestand op basis van de extensie ervan, of het formaat dat expliciet is gespecificeerd door de
--readFormat vlag. Als er meerdere leesbestanden zijn, vermeld dan voor elke bestandsnaam één
per regel, in een .txt-bestand. PerM neemt het als invoer en kan meerdere leessets in kaart brengen
parallel door [http://en.wikipedia.org/wiki/OpenMP OpenMP].
Bermuda's Opties (gegroepeerd by verwant functionaliteit)
-A uitgang allen uitlijningen binnen de mismatchdrempel (zie -v optie), van begin tot eind.
-B uitgang beste afstemmingen in termen van mismatches in de drempel (zie -v keuze). Voor
Als een uitlezing bijvoorbeeld geen perfecte match-uitlijningen heeft, komen twee enkele basen niet overeen
uitlijningen, en extra uitlijningen met meer mismatches, alleen de twee single
basis-mismatch-uitlijningen worden uitgevoerd. -B is de standaardmodus als geen van beide -A or -B
is gespecificeerd.
-E Voer alleen uniek toegewezen waarden uit resterende na the beste downselectie is geweest
indien van toepassing toegepast. In combinatie met de -A optie, leest alleen met een single
uitlijning binnen de mismatchdrempel (zie -v optie) wordt uitgevoerd.
-v Maximaal aantal toegestane mismatches (of toegestaan in elk end voor pair-end-reads).
De standaardwaarde is het aantal mismatches waarvoor het gebruikte zaad volledig gevoelig is
aan.
-k Specificeert het maximale aantal uitlijningen dat moet worden uitgevoerd. De standaardwaarde is 200 als de
-k vlag wordt niet gegeven. Uitlijningen voor leestoewijzingen aan meer dan het maximale aantal
posities worden niet uitgevoerd. Gebruik de optie -a om leesbewerkingen te verzamelen die de limiet overschrijden
maximum.
-t Aantal basen aan het 5'-uiteinde van elke te negeren lezing. Als bijvoorbeeld de eerste 5
bases worden gebruikt als streepjescode of om meerdere monsters samen te indexeren, gebruik dan -t 5. Zo niet
opgegeven, worden geen initiële bases genegeerd.
-T Aantal basen in elke te gebruiken lezing, beginnend na eventuele basen die worden genegeerd door de optie -t.
Latere basen op de 3´ van de read worden genegeerd. -T 30 betekent bijvoorbeeld alleen gebruiken
eerste 30 basen (signalen) na de eventuele basen die worden genegeerd vanwege de optie -t.
-m Maak de referentie-index zonder de opgeslagen index opnieuw te gebruiken, zelfs als deze beschikbaar is.
-s pad
Sla de referentie-index op om het in kaart brengen in de toekomst te versnellen. Als pad is niet
opgegeven, wordt de index gemaakt in de huidige werkmap (dwz waar
PerM wordt uitgevoerd vanuit) met behulp van de standaardindexnaam. Als pad is een map, de index
wordt in de opgegeven map gemaakt met de standaardindexnaam (directory
moet bestaan; het wordt niet automatisch aangemaakt). Als pad is een bestandspad, de
index wordt gemaakt met de opgegeven naam.
-o bestandspad
Naam van het toewijzingsuitvoerbestand bij het toewijzen van een enkele leesset. Het uitvoerbestandsformaat
zal het door tabs gescheiden tekstformaat .mapping zijn of het SAM-formaat as
bepaald door de extensie van de uitvoerbestandsnaam. Bijvoorbeeld {{{-o out.sam}}}
wordt uitgevoerd in SAM-formaat; {{{-o /path/to/out.mapping}}} wordt uitgevoerd in .mapping
formaat. Gebruik --outputFormaat om dit gedrag te onderdrukken. De -o optie is niet van toepassing
wanneer meerdere leessets tegelijk in kaart worden gebracht om van meerdere te profiteren
CPU's (kernen); zie de -d optie voor dat geval.
-d dirpad
Uitvoerdirectory voor het toewijzen van uitvoerbestanden bij het toewijzen van meerdere leessets (output
bestanden krijgen automatisch een naam). Als de opgegeven map niet bestaat, wordt de
output-map wordt gemaakt op voorwaarde dat de bovenliggende map bestaat. Als de -d
switch niet is opgegeven, worden bestanden geschreven naar de map van waaruit PerM wordt uitgevoerd.
Opmerking: als -d bestandspad wordt gespecificeerd bij het toewijzen van een enkele leesset, dirpad zal zijn
voorgestaan bestandspad; Dit gebruik wordt echter niet aanbevolen.
-a bestandspad
Maak een FASTA-bestand (FASTQ) voor leesbewerkingen die zijn toegewezen aan meer posities dan de drempelwaarde
gespecificeerd door -k of de standaardwaarde van 200.
-b bestandspad
Maak een FASTA-bestand (FASTQ) voor leesbewerkingen die korter zijn dan de verwachte lengte of met
vreemde karakters.
-u bestandspad
Maak een FASTA-bestand (FASTAQ) met niet-toegewezen leesbewerkingen. Wanneer een enkele leesset in kaart wordt gebracht,
bestandsnaam specificeert de naam van het uitvoerbestand. Wanneer meerdere leessets in kaart worden gebracht,
bestandsnaam is niet relevant en moet worden weggelaten; de bestanden met niet-toegewezen sequenties zullen dat wel doen
automatisch een naam krijgen en worden aangemaakt in de map van waaruit PerM wordt uitgevoerd.
lang Opties
--ambiguosReadOnly
Voer alleen dubbelzinnige afbeeldingen uit om herhalingen te vinden (soortgelijke regio's binnen substitutie).
drempelwaarde). Wanneer deze optie is opgegeven, wordt het toegewezen nummer gelezen
drempelwaarde die is opgegeven door -k, wordt nog steeds afgedrukt.
--ambiguosReadInOneLine
utput-lezingen toegewezen aan meer dan k plaatsen op één regel. Wanneer deze optie is
gespecificeerd, leest dat toegewezen aan de drempelwaarde voor het toewijzingsnummer gespecificeerd door -k will
nog steeds worden afgedrukt, maar op één regel afgedrukt.
--geenSamHeader
Voeg geen SAM-header toe. Dit maakt het eenvoudiger om meerdere SAM's aan elkaar te koppelen
uitvoer bestanden.
--includeReadsWN
Kaart leest met gelijke of minder N of ´.´ basen dan de opgegeven drempelwaarde
coderen van N of ´.´ als A of 3. Lezingen met meer ´N´ worden weggegooid. De standaard
instelling wordt weggegooid gelezen met een willekeurige 'N'.
--statsOnly
Voer de toewijzingsstatistieken alleen uit naar stdout, zonder uitlijningen in bestanden op te slaan.
--negeer QS
Negeer de kwaliteitsscores in FASTQ- of QUAL-bestanden.
--printNM
Wanneer kwaliteitsscores beschikbaar zijn, gebruikt u deze vlag om het aantal niet-overeenkomende resultaten af te drukken.
in plaats van niet-overeenkomende scores in kaartformaat.
--zaad {F,,0,, | F,,1,, | F,,2,, | F,,3,, | F,,4,, | S,,11,, | S,,20,, | S,,12,,}
Geef het zaadpatroon op. De F,,0,,, F,,1,,, F,,2,,, F,,3,,, en F,,4,, zaden zijn
volledig gevoelig voor respectievelijk 0-4 mismatches. De S,,11,, S,,20,, S,,12,, zaden
zijn ontworpen voor de SOLiD-sequencer. Een S,,kj,, zaadje is volledig gevoelig voor k
aangrenzende mismatch-paren (SNP-signatuur is kleurruimte) en j geïsoleerde mismatches.
Zien [http://code.google.com/p/perm/wiki/Algorithms de algoritmepagina] voor meer informatie
informatie over de zaadpatronen.
--refFormaat {vasten | lijst | index }
Ga ervan uit dat de referentiereeks(en) het opgegeven formaat heeft, in plaats van te raden
volgens de bestandsextensie.
--readFormat |{vasten | snel | csvasta | csfastq}
Ga ervan uit dat de leesbewerkingen het opgegeven formaat hebben, in plaats van te gokken volgens de
bestand(en)' extensie.
--outputFormaat { zat | in kaart brengen }
Overschrijf de standaardoptie voor de uitvoertoewijzingsindeling of geef deze expliciet op wanneer de
uitvoerbestandsextensie is niet .sam of .mapping.
--scheidingsteken verkolen
verkolen is een teken dat wordt gebruikt als scheidingsteken om de lees-ID en de
aanvullende informatie in de regel bij > bij het lezen van een FASTA- of CSFASTA-bestand.
--log bestandspad
bestandspad specificeert de naam van het logbestand dat de toewijzingsstatistieken bevat
die ook op het scherm wordt afgedrukt.
--alleen vooruit
Kaart leest alleen naar de voorste streng: (Dit is specifiek voor SOLiD Strand
volgorde aanbrengen in).
--alleen omgekeerd
Kaart leest alleen naar de omgekeerde streng: (Dit is specifiek voor SOLiD Strand
volgorde aanbrengen in)
Opties voor Gepaard-end leest
PerM houdt zich bezig met mate-gepaarde lezingen door elk uiteinde afzonderlijk in kaart te brengen. Alle combinaties van
gekoppelde paren die naar dezelfde referentiereeks verwijzen, worden uitgevoerd als ze gescheiden zijn
in het toegestane bereik zoals gespecificeerd door de -L en -U vlaggen.
-e Exclusief dubbelzinnig gepaard.
-L / --ondergrens Int
ondergrens voor de scheidingsafstand tussen paren
-U / --bovengrens Int
bovengrens voor scheidingsafstand tussen paren
De boven- en ondergrens kunnen negatief zijn, wat de herschikking kan opvangen
variaties. Gebruik de -A argument om te voorkomen dat u de juiste paren mist. Dit mag echter wel
verleng de looptijd aanzienlijk als beide uiteinden zich in repetitieve gebieden bevinden.
--NS Map paired-end-reads alleen voor verschillende strengen
--ff Map paired-end leest alleen naar dezelfde streng
--printRefSeq
Druk de gekoppelde referentiereeks af als de twee laatste kolommen in .mapping
formaat. | De standaardoptie voor uitvoertoewijzing in dezelfde of een andere streng.
DEFAULT INSTELLINGEN
Hieronder volgen de standaardinstellingen als de overeenkomstige opdrachtregeloptie dat niet is
gespecificeerd. Geef de optie op om de standaardinstellingen te wijzigen.
· Sta slechts twee mismatches toe aan elk uiteinde en gebruik zaad F,,2,, S,,11, of F,,3,,
,geselecteerd op basis van de leeslengtes en typen.
· Druk de beste uitlijningen af voor elke lezing in termen van het aantal mismatches.
· Voer bestanden uit *.mapping-formaat.
· Zoekt naar een opgeslagen index met de standaardbestandsnaam voordat de nieuwe index wordt samengesteld.
· Zal de index niet in een bestand opslaan, tenzij {{{-s}}} is opgegeven.
· Voor gepaarde eindlezingen is de standaard toegestane scheidingsafstand 0-3000 bp. Wijziging
met de -L en -U opties.
Parallel Mapping
PerM wijst tegelijkertijd meerdere leessets in een lijst toe door dezelfde index te bevragen. Het zal
detecteren hoeveel CPU's (cores) beschikbaar zijn en wijs aan elk daarvan een leesset toe. Als een lees
set is voltooid, wordt de volgende leesset in de lijst automatisch verwerkt. Elke leesset
zal zijn eigen mapping-uitvoerbestand hebben. Om alle CPU's op een knooppunt beter te kunnen gebruiken, moeten grote waarden worden gelezen
set moet worden opgesplitst in vele kleine leessets en in een lijst worden geplaatst. Wanneer er meerdere knooppunten zijn
bij gebruik in hetzelfde bestandssysteem moet de index eerst door één knooppunt worden gebouwd; de andere
knooppunten zullen de vooraf gebouwde index lezen zonder de index opnieuw te bouwen. Zonder vooraf gebouwde index,
elke machine zal proberen zijn eigen index op te bouwen, waardoor CPU-tijd en opslagruimte worden verspild.
afrit codes
PerM stelt de afsluitcode in op 0 na succesvolle voltooiing, het normale Unix-gedrag. Als de
programma wordt beëindigd via Ctrl-C (SIGINT), de exitcode is 2, het nummer voor SIGINT
(Zie man doden). Als u PerM vanuit een andere taal aanroept, kunt u de retourcode controleren
en doe iets intelligents. Hier is een voorbeeld van Perl-pseudocode:
terwijl (... een soort lus ...) {
my $cmd = "PerM ... argumenten en schakelaars";
mijn $ec = systeem($cmd);
als ($ec == 2) {
print STDERR "PerM beëindigd via Ctrl-C. Run stoppen.\n\n";
# Misschien wat opruimen, zoals het verwijderen van de kleine bestanden waarin het leesbestand stond
# opgesplitst in voor parallelle verwerking.
afsluiten($ec);
}
}
Te gebruiken Permanent on Melkweg
Dankzij prof. Anton Nekrutenko en Kelly Vincent van PSU kunt u PerM nu gebruiken
[http://test.g2.bx.psu.edu/ Galaxy S proef server]. Volg de hyperlink naar de pagina van Galaxy,
en klik op NGS:Mapping in het toolmenu. Gelieve te kiezen Wereldmap met Permanent voor Stevig en
Illumina. U kunt uw eigen referentie uploaden of de vooraf gebouwde hg19-index in het systeem gebruiken.
Stuur mij een e-mail als u problemen ondervindt. Zodra het systeem zijn stabiliteit heeft bewezen,
het wordt verplaatst naar de hoofdserver van Galaxy met een meer vooraf gebouwde referentie-index.
Eenheid test
Toen PerM werd ontwikkeld, werd ook een unit cppUnit-testmodule voorbereid. Als je bent
Geïnteresseerd in de testcode voor PerM, stuur mij dan een e-mail.
Gebruik PerM online met behulp van onworks.net-services