Dit is de opdracht gmt-music-bmr-calc-covgp die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
gmt muziek bmr calc-covg - Gebruikt calcRoiCovg.c om gedekte basen per gen voor elk te tellen
gegeven tumor-normaal paar BAM's.
VERSIE
Dit document beschrijft gmt music bmr calc-covg versie 0.04 (2016-01-01 om 23:10:19)
KORTE INHOUD
gmt muziek bmr calc-covg --gene-covg-dir=? --roi-bestand=? --referentiereeks=? --bam-lijst=?
--uitvoer-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--normale-min-diepte=?]
[--tumor-min-diepte=?] [--min-mapq=?]
Algemeen gebruik:
... muziek bmr calc-covg \
--bam-lijst input_dir/bam_list \
--output-dir output_dir/ \
--referentievolgorde input_dir/all_sequences.fa \
--roi-bestand input_dir/all_coding_exons.tsv
Om een lijst met commando's te maken die de verwerking van elk tumor-normaal paar mogelijk maken
parallel met een LSF-taakplanner:
... muziek bmr calc-covg \
--bam-lijst input_dir/bam_list \
--output-dir output_dir/ \
--referentievolgorde input_dir/all_sequences.fa \
--roi-bestand input_dir/all_coding_exons.tsv \
--cmd_list_file parallelliseerbare_commando's \
--cmd_prefix bsub
In het bovenstaande geval kunnen de opdrachten die zijn afgedrukt in het uitvoerbestand "parallelizable_commands".
parallel lopen. Nadat ze zijn voltooid, voert u dit script opnieuw uit zoals direct hieronder afgedrukt
(--cmd_list_file en --cmd_prefix zijn verwijderd) om de geparalleliseerde
berekeningen:
... muziek bmr calc-covg \
--bam-lijst input_dir/bam_list \
--output-dir output_dir/ \
--referentievolgorde input_dir/all_sequences.fa \
--roi-bestand input_dir/all_coding_exons.tsv
VERPLICHT ARGUMENTEN
gen-covg-dir Tekst
Directory waar bestanden met gendekking per steekproef zich bevinden
roi-bestand Tekst
Door tabs gescheiden lijst van ROI's [chr start stop gene_name] (zie beschrijving)
referentie-reeks Tekst
Pad naar referentiereeks in FASTA-indeling
bam-lijst Tekst
Door tabs gescheiden lijst van BAM-bestanden [sample_name normal_bam tumor_bam] (zie beschrijving)
uitvoer-dir Tekst
Directory waar uitvoerbestanden en submappen worden geschreven
OPTIONELE ARGUMENTEN
cmd-lijstbestand Tekst
Een bestand om calcRoiCovg-opdrachten naar te schrijven (zie beschrijving)
cmd-voorvoegsel Tekst
Een opdracht die een taak naar uw cluster verzendt (zie beschrijving)
normaal-min-diepte Geheel getal
De minimale leesdiepte om een normale BAM-basis als gedekt te beschouwen
tumor-min-diepte Geheel getal
De minimale leesdiepte om een Tumor BAM-basis als gedekt te beschouwen
min-mapq Geheel getal
De minimale toewijzingskwaliteit van leesbewerkingen waarmee rekening moet worden gehouden bij het aantal leesdieptes
PRODUCTBESCHRIJVING
Dit script telt basen met voldoende dekking in de ROI's van elk gen in het gegeven
paren tumor-normale BAM-bestanden en categoriseert ze in - AT, CG (niet-CpG) en CpG
telt. Het telt ook deze basetellingen op voor alle ROI's van elk gen voor elk monster,
maar gedekte bases die binnen overlappende ROI's liggen, worden niet meer dan één keer meegeteld
deze totaaltellingen.
Dit script voert standaard een op C gebaseerde tool met de naam calcRoiCovg uit voor elk monster erna
een andere, die ~ 30 minuten per monster nodig heeft om basistellingen per ROI te genereren. Als de
resultaten van calcRoiCovg voor een monster bestaan al in de uitvoersubdirectory roi_covgs,
herberekening wordt overgeslagen. Hierdoor kunt u uw eigen calcRoiCovg-taken parallel uitvoeren of
op meerdere machines (Blijf lezen).
Versnel dingen door calcRoiCovg-taken parallel uit te voeren: als een rekencluster of meerdere
machines beschikbaar zijn, voert u dit script twee keer als volgt uit:
· Definieer cmd-list-file en cmd-prefix om een bestand te genereren met commando's die kunnen worden
ingediend bij een cluster of handmatig uitgevoerd. Deze taken schrijven basistellingen per ROI in een
submap roi_covgs.
· Nadat alle geparalleliseerde calcRoiCovg-taken zijn voltooid, voert u dit script opnieuw uit
tel ze op en genereer het uiteindelijke aantal basen per gen in een subdirectory gene_covgs.
Vergeet niet om de argumenten cmd-list-file en cmd-prefix te verwijderen, anders wordt u opnieuw
een lijst met opdrachten maken.
ARGUMENTEN
--roi-bestand
De regio's van belang (ROI's) van elk gen zijn typisch regio's waarop wordt getarget
sequencing of samengevoegde exon loci (van meerdere transcripten) van genen met 2-bp
flanken (splice junctions). ROI's van hetzelfde chromosoom moeten worden vermeld naast:
elkaar in dit bestand. Hierdoor kan de onderliggende C-gebaseerde code veel meer draaien
efficiënt en vermijd hertellingsbases die worden gezien in overlappende ROI's (voor algemeen gedekte)
basistellingen). Voor basetellingen per gen wordt elke keer een overlappende base geteld
het verschijnt in een ROI van hetzelfde gen. Om dit te voorkomen, moet u ervoor zorgen dat u samenvoegt
overlappende ROI's van hetzelfde gen. Het mergeBed van BEDtools kan helpen als het per gen wordt gebruikt.
--referentievolgorde
De referentiesequentie in FASTA-formaat. Als er geen referentiesequentie-index wordt gevonden
naast dit bestand (een .fai-bestand), wordt het gemaakt.
--bam-lijst
Geef voor elk een bestand met voorbeeldnamen en normale/tumor BAM-locaties. Gebruik maken van
het door tabs gescheiden formaat [sample_name normal_bam tumor_bam] per regel. Aanvullend
kolommen zoals klinische gegevens zijn toegestaan, maar worden genegeerd. De sample_name moet hetzelfde zijn
als de namen van de tumormonsters die in het MAF-bestand worden gebruikt (16e kolom, met de koptekst
Tumor_monster_streepjescode).
--uitvoer-dir
Geef een uitvoermap op waarin het volgende wordt gemaakt/geschreven: roi_covgs:
Submap met per-ROI gedekte basistellingen voor elk monster. gene_covgs:
Submap met per gen bedekte basetellingen voor elk monster. totaal_covgs:
Bestand met de totale niet-overlappende dekkingen per monster.
--cmd-lijstbestand
Geef een bestand op waarnaar een lijst met calcRoiCovg-taken zal worden geschreven. Deze kunnen zijn
parallel gepland, en zal per-ROI gedekte base-tellingen in de uitvoer schrijven
submap roi_covgs. Als cmd-list-file ongespecificeerd blijft, wordt dit script uitgevoerd
calcRoiCovg per monster achter elkaar, het duurt ~ 30 minuten per monster, maar het slaat over
voorbeelden waarvan de uitvoer al in roi_covgs staat.
--cmd-voorvoegsel
Geef een taakverzendingsopdracht op die wordt voorafgegaan door elke opdracht in cmd-list-
bestand. Dit maakt het indienen van batches eenvoudiger. Voer gewoon het bestand cmd-list-file uit als een shell
script om vacatures in te dienen. cmd-prefix is "bsub" als uw cluster de LSF-taak gebruikt
planner, of "qsub" in Koppel. Voeg zo nodig argumenten toe. Bijvoorbeeld "bsub -M 4GB"
stelt een zachte geheugenlimiet van 4 GB in.
Gebruik gmt-music-bmr-calc-covgp online met behulp van onworks.net-services