Questo è il comando genome-music-bmr-calc-covgp che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
genome music bmr calc-covg: utilizza calcRoiCovg.c per contare le basi coperte per gene per ciascuno
data coppia di BAM tumore-normale.
VERSIONE
Questo documento descrive la musica del genoma bmr calc-covg versione 0.04 (2016-01-01 alle 23:10:18)
SINOSSI
genoma musicale bmr calc-covg --gene-covg-dir=? --file-roi=? --sequenza-di-riferimento=?
--lista-bam=? --dir-output=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min- Depth=?]
[--tumor-min-profondità=?] [--min-mapq=?]
Uso generale:
... musica bmr calc-covg \
--bam-list dir_input/bam_list \
--dir-output dir_output/ \
--sequenza-riferimento input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
Per creare un elenco di comandi che consentiranno l'elaborazione di ciascuna coppia tumore-normale in
parallelo con un job scheduler LSF:
... musica bmr calc-covg \
--bam-list dir_input/bam_list \
--dir-output dir_output/ \
--sequenza-riferimento input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv \
--cmd_list_file comandi_parallelizzabili \
--cmd_prefisso bsub
Nel caso sopra, i comandi stampati nel file di output "parallelizable_commands" possono
essere eseguito in parallelo. Dopo aver completato, riesegui questo script come stampato direttamente sotto
(--cmd_list_file e --cmd_prefix sono stati rimossi) per unire il parallelizzato
calcoli:
... musica bmr calc-covg \
--bam-list dir_input/bam_list \
--dir-output dir_output/ \
--sequenza-riferimento input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
OBBLIGATORIO ARGOMENTI
gene-covg-dir Testo
Directory in cui si trovano i file di copertura genica per campione
file-roi Testo
Elenco delimitato da tabulazioni di ROI [chr start stop gene_name] (vedi descrizione)
sequenza di riferimento Testo
Percorso alla sequenza di riferimento in formato FASTA
bam-lista Testo
Elenco delimitato da tabulazioni di file BAM [sample_name normal_bam tumor_bam] (vedi descrizione)
dir-output Testo
Directory in cui verranno scritti i file di output e le sottodirectory
OPTIONAL ARGOMENTI
file-elenco-cmd Testo
Un file in cui scrivere i comandi calcRoiCovg (vedi descrizione)
prefisso cmd Testo
Un comando che invia un lavoro al tuo cluster (vedi descrizione)
normale-min-profondità Numero intero
La profondità di lettura minima per considerare coperta una base BAM normale
tumore-min-profondità Numero intero
La profondità di lettura minima per considerare una base Tumore BAM come coperta
min-mapq Numero intero
La qualità di mappatura minima delle letture da considerare per i conteggi della profondità di lettura
DESCRIZIONE
Questo script conta le basi con una copertura sufficiente nelle ROI di ciascun gene nel dato
coppie di file BAM tumore-normali e li classifica in: AT, CG (non CpG) e CpG
conta. Somma anche questi conteggi di base su tutte le ROI di ciascun gene per ciascun campione,
ma le basi coperte che si trovano all'interno di ROI sovrapposte non vengono conteggiate più di una volta per
questi conteggi totali.
Per impostazione predefinita, questo script esegue uno strumento basato su C denominato calcRoiCovg per ogni campione uno dopo
un altro, impiegando ~ 30 minuti per campione per generare conteggi di base coperti per ROI. Se la
i risultati di calcRoiCovg per un campione esistono già nella sottodirectory di output roi_covgs,
il ricalcolo viene saltato. Ciò consente di eseguire i propri lavori calcRoiCovg in parallelo o
su più macchine (continua a leggere).
Velocizza le cose eseguendo lavori calcRoiCovg in parallelo: se un cluster di calcolo o più
macchine sono disponibili, eseguire questo script due volte come segue:
· Definire cmd-list-file e cmd-prefix per generare un file con comandi che possono essere
inviato a un cluster o eseguito manualmente. Questi lavori scriveranno i conteggi di base per ROI in a
sottodirectory roi_covgs.
· Dopo che tutti i lavori di calcRoiCovg parallelizzati sono stati completati, eseguire di nuovo questo script per
sommarli e generare i conteggi finali di base per gene in una sottodirectory gene_covgs.
Ricordati di rimuovere gli argomenti cmd-list-file e cmd-prefix o verrai semplicemente ri-
creazione di un elenco di comandi.
ARGOMENTI
--roi-file
Le regioni di interesse (ROI) di ciascun gene sono tipicamente regioni mirate per
sequenziamento o vengono uniti loci esoni (da più trascrizioni) di geni con 2-bp
fianchi (giunzioni di giunzione). Le ROI dello stesso cromosoma devono essere elencate accanto a
l'un l'altro in questo file. Ciò consente al codice basato su C sottostante di eseguire molto di più
efficiente ed evitare di riconteggiare le basi viste nelle ROI sovrapposte (per la copertura complessiva
conteggi di base). Per i conteggi delle basi per gene, verrà conteggiata una base sovrapposta ogni volta
appare in una ROI dello stesso gene. Per evitare ciò, assicurati di fonderti insieme
ROI sovrapposte dello stesso gene. MergeBed di BEDtools può aiutare se usato per gene.
--sequenza-di-riferimento
La sequenza di riferimento in formato FASTA. Se non viene trovato un indice di sequenza di riferimento
accanto a questo file (un file .fai), verrà creato.
--bam-lista
Fornire un file contenente i nomi dei campioni e le posizioni BAM normali/tumore per ciascuno. Utilizzo
il formato delimitato da tabulazioni [sample_name normal_bam tumor_bam] per riga. Aggiuntivo
colonne come i dati clinici sono consentite, ma ignorate. Il nome_campione deve essere lo stesso
come i nomi dei campioni di tumore utilizzati nel file MAF (16a colonna, con l'intestazione
Tumore_campione_codice a barre).
--dir-output
Specificare una directory di output in cui verrà creato/scritto quanto segue: roi_covgs:
Sottodirectory contenente i conteggi delle basi coperti per ROI per ciascun campione. gene_covgs:
Sottodirectory contenente i conteggi delle basi coperti per gene per ciascun campione. total_covgs:
File contenente le coperture complessive non sovrapposte per campione.
--cmd-elenco-file
Specificare un file in cui verrà scritto un elenco di lavori calcRoiCovg. Questi possono essere
pianificato in parallelo e scriverà i conteggi di base coperti per ROI nell'output
sottodirectory roi_covgs. Se cmd-list-file non viene specificato, questo script viene eseguito
calcRoiCovg per campione uno dopo l'altro, impiegando ~ 30 minuti per campione, ma salta
campioni il cui output è già in roi_covgs.
--cmd-prefisso
Specificare un comando di invio del lavoro che sarà preceduto da ciascun comando in cmd-list-
file. Ciò semplifica l'invio di batch. Basta eseguire il file cmd-list-file come shell
script per inviare lavori. cmd-prefix è "bsub" se il tuo cluster utilizza il lavoro LSF
scheduler, o "qsub" in Torque. Aggiungi argomenti se necessario. Ad esempio, "bsub -M 4GB"
imposta un limite di memoria software di 4 GB.
Utilizza genome-music-bmr-calc-covgp online utilizzando i servizi onworks.net