Este é o comando gmt-music-bmr-calc-covgp que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador Windows online ou emulador MAC OS online
PROGRAMA:
NOME
gmt music bmr calc-covg - Usa calcRoiCovg.c para contar bases cobertas por gene para cada
dado par normal de tumor de BAMs.
VERSÃO
Este documento descreve gmt music bmr calc-covg versão 0.04 (2016-01-01 às 23:10:19)
SINOPSE
música gmt bmr calc-covg --gene-covg-dir =? --roi-file =? --reference-sequence =? --bam-list =?
--output-dir =? [--cmd-list-file =?] [--cmd-prefix =?] [--normal-min-depth =?]
[--tumor-min-depth =?] [--min-mapq =?]
Uso geral:
... musica bmr calc-covg \
--bam-list input_dir / bam_list \
--output-dir output_dir / \
--reference-sequence input_dir / all_sequences.fa \
--roi-file input_dir / all_coding_exons.tsv
Para criar uma lista de comandos que irão permitir o processamento de cada par tumor-normal em
em paralelo com um agendador de trabalho LSF:
... musica bmr calc-covg \
--bam-list input_dir / bam_list \
--output-dir output_dir / \
--reference-sequence input_dir / all_sequences.fa \
--roi-file input_dir / all_coding_exons.tsv \
--cmd_list_file comandos_paralelizáveis \
--cmd_prefixbsub
No caso acima, os comandos impressos no arquivo de saída "parallelizable_commands" podem
ser executado em paralelo. Depois de concluídos, execute novamente este script conforme impresso diretamente abaixo
(--cmd_list_file e --cmd_prefix foram removidos) para mesclar o paralelizado
cálculos:
... musica bmr calc-covg \
--bam-list input_dir / bam_list \
--output-dir output_dir / \
--reference-sequence input_dir / all_sequences.fa \
--roi-file input_dir / all_coding_exons.tsv
É REQUERIDO ARGUMENTOS
gene-covg-dir Texto
Diretório onde os arquivos de cobertura de genes por amostra estão localizados
arquivo roi Texto
Lista delimitada por tabulação de ROIs [chr start stop gene_name] (ver descrição)
sequência de referência Texto
Caminho para a sequência de referência no formato FASTA
lista de bam Texto
Lista delimitada por tabulação de arquivos BAM [sample_name normal_bam tumor_bam] (ver descrição)
diretório de saída Texto
Diretório onde os arquivos de saída e subdiretórios serão gravados
OPCIONAL ARGUMENTOS
arquivo de lista cmd Texto
Um arquivo para escrever comandos calcRoiCovg (ver descrição)
prefixo cmd Texto
Um comando que envia um trabalho para o seu cluster (consulte a descrição)
profundidade mínima normal Número inteiro
A profundidade de leitura mínima para considerar uma base BAM normal como coberta
tumor-min-profundidade Número inteiro
A profundidade de leitura mínima para considerar uma base de Tumor BAM como coberta
min-mapq Número inteiro
A qualidade mínima de mapeamento de leituras a considerar para contagens de profundidade de leitura
DESCRIÇÃO
Este script conta bases com cobertura suficiente nas ROIs de cada gene no dado
pares de arquivos BAM normais de tumor e os categoriza em - AT, CG (não CpG) e CpG
contagens. Ele também adiciona essas contagens de base em todas as ROIs de cada gene para cada amostra,
mas as bases cobertas que se encontram em ROIs sobrepostas não são contadas mais de uma vez para
essas contagens totais.
Por padrão, este script executa uma ferramenta baseada em C chamada calcRoiCovg para cada amostra após
outro, levando cerca de 30 minutos por amostra para gerar contagens de base cobertas por ROI. Se o
resultados de calcRoiCovg para uma amostra já existe no subdiretório de saída roi_covgs,
o recálculo é ignorado. Isso permite que você execute seus próprios trabalhos calcRoiCovg em paralelo ou
em várias máquinas (continue lendo).
Acelere as coisas executando trabalhos calcRoiCovg em paralelo: Se um cluster de computação ou múltiplo
máquinas estão disponíveis, execute este script duas vezes da seguinte forma:
· Defina cmd-list-file e cmd-prefix para gerar um arquivo com comandos que podem ser
submetido a um cluster ou executado manualmente. Esses trabalhos escreverão contagens de base por ROI em um
subdiretório roi_covgs.
· Depois que todos os trabalhos calcRoiCovg paralelizados forem concluídos, execute este script novamente para
some-os e gere as contagens de base por gene finais em um subdiretório gene_covgs.
Lembre-se de remover os argumentos cmd-list-file e cmd-prefix ou você será apenas re-
criando uma lista de comandos.
ARGUMENTOS
--roi-arquivo
As regiões de interesse (ROIs) de cada gene são normalmente regiões direcionadas para
sequenciamento ou são loci exon mesclados (de múltiplos transcritos) de genes com 2 bp
flancos (junções de emenda). ROIs do mesmo cromossomo devem ser listadas ao lado de
uns aos outros neste arquivo. Isso permite que o código baseado em C subjacente execute muito mais
de forma eficiente e evite a recontagem de bases vistas em ROIs sobrepostos (para cobertura geral
contagens de base). Para contagens de base por gene, uma base sobreposta será contada a cada vez
ele aparece em uma ROI do mesmo gene. Para evitar isso, certifique-se de fundir
sobreposição de ROIs do mesmo gene. MergeBed do BEDtools pode ajudar se usado por gene.
- seqüência de referência
A sequência de referência no formato FASTA. Se um índice de sequência de referência não for encontrado
próximo a este arquivo (um arquivo .fai), ele será criado.
--bam-lista
Forneça um arquivo contendo nomes de amostra e localizações BAM normais / tumorais para cada um. Usar
o formato delimitado por tabulação [sample_name normal_bam tumor_bam] por linha. Adicional
colunas como dados clínicos são permitidas, mas ignoradas. O sample_name deve ser o mesmo
como os nomes das amostras de tumor usados no arquivo MAF (16ª coluna, com o cabeçalho
Tumor_Sample_Barcode).
--diretório de saída
Especifique um diretório de saída onde o seguinte será criado / escrito: roi_covgs:
Subdiretório contendo contagens de base cobertas por ROI para cada amostra. gene_covgs:
Subdiretório contendo contagens de base cobertas por gene para cada amostra. total_covgs:
Arquivo contendo as coberturas gerais não sobrepostas por amostra.
--cmd-list-file
Especifique um arquivo no qual uma lista de trabalhos calcRoiCovg será gravada. Estes podem ser
programado em paralelo, e gravará contagens de base cobertas por ROI na saída
subdiretório roi_covgs. Se cmd-list-file não for especificado, este script será executado
calcRoiCovg por amostra, um após o outro, levando cerca de 30 minutos por amostra, mas pula
amostras cuja saída já está em roi_covgs.
--cmd-prefixo
Especifique um comando de envio de trabalho que terá o prefixo de cada comando em cmd-list-
Arquivo. Isso torna o envio em lote mais fácil. Basta executar o arquivo cmd-list-file como um shell
script para enviar trabalhos. cmd-prefix é "bsub" se seu cluster usa o trabalho LSF
agendador ou "qsub" em Torque. Adicione argumentos conforme necessário. Por exemplo, "bsub -M 4GB"
define um limite de memória flexível de 4 GB.
Use gmt-music-bmr-calc-covgp online usando serviços onworks.net