Este é o comando blasr que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
blasr - Mapeia sequências SMRT para um genoma de referência.
SINOPSE
explosão lê.bam genoma.fasta -bam -Fora fora.bam
explosão lê.fasta genoma.fasta
explosão lê.fasta genoma.fasta -sa genoma.fasta.sa
explosão lê.bax.h5 genoma.fasta [-sa genoma.fasta.sa]
explosão lê.bax.h5 genoma.fasta -sa genoma.fasta.sa -maxScore -100 -minMatch 15 ...
explosão lê.bax.h5 genoma.fasta -sa genoma.fasta.sa -nproc 24 -Fora alinhamento.out ...
DESCRIÇÃO
explosão é um programa de mapeamento de leitura que mapeia leituras para posições em um genoma por agrupamento
correspondências curtas e exatas entre a leitura e o genoma, e clusters de pontuação usando alinhamento.
As correspondências são geradas pesquisando todos os sufixos de uma leitura contra o genoma usando um
matriz de sufixo. Métodos de encadeamento global são usados para pontuar grupos de correspondências.
As únicas entradas necessárias para o blasr são um arquivo de leituras e um genoma de referência. Isto é
extremamente útil ter informações de filtragem de leitura, e o tempo de execução do mapeamento pode diminuir
substancialmente quando um índice de matriz de sufixo pré-computado na sequência de referência é
Especificadas.
Embora as leituras possam ser inseridas no formato FASTA, a entrada recomendada são os arquivos PacBio BAM
porque contêm informações de valor de qualidade que são usadas no alinhamento e produzem
detecção de variantes de qualidade superior. Embora os alinhamentos possam ser produzidos em vários formatos,
o formato de saída recomendado é PacBio BAM. O suporte para arquivos bax.h5 e plx.h5 será
DESCONTINUADA. O suporte para tabelas de região para arquivos h5 será DESCONTINUADA.
Quando o índice de matriz de sufixo de um genoma não é especificado, a matriz de sufixo é construída antes
produzindo alinhamento. Isso pode ser proibitivamente lento quando o genoma é grande (por exemplo, humano).
É melhor pré-calcular a matriz de sufixos de um genoma usando o programa serrador(1), e
em seguida, especifique a matriz de sufixo na linha de comando usando -sa genoma.fa.sa.
Os parâmetros opcionais são basicamente divididos em três categorias: controle sobre a ancoragem,
pontuação de alinhamento e saída.
Os parâmetros de ancoragem padrão são ideais para pequenos genomas e amostras com até 5%
divergência do genoma de referência. O principal parâmetro que rege a velocidade e sensibilidade
é o -minMatch parâmetro. Para alinhamentos do genoma humano, um valor de 11 ou superior é
recomendado. Vários métodos podem ser usados para acelerar alinhamentos, às custas de
possivelmente diminuindo a sensibilidade.
Regiões que são muito repetitivas podem ser ignoradas durante o mapeamento, limitando o número de
posiciona uma leitura mapeia com o -maxAnchorsPerPosition opção. Valores entre 500 e
1000 são eficazes no genoma humano.
Para pequenos genomas, como genomas bacterianos ou BACs, os parâmetros padrão são suficientes
para máxima sensibilidade e boa velocidade.
OPÇÕES
Entrada Arquivos
Lê
lê.bam
Um arquivo de leituras PacBio BAM. Esta é a entrada preferida para explosão
porque o valor da rica qualidade (inserção, exclusão e substituição
valores de qualidade) as informações são mantidas. A qualidade extra
as informações melhoram a detecção de variantes e a velocidade de mapeamento.
lê.fasta
Um arquivo multi-fasta de leituras, embora qualquer arquivo fasta seja uma entrada válida
lê.bax.h5|lê.plx.h5
o velho DESCONTINUADA formato de saída de leituras SMRT.
input.ffn
Arquivo de nomes de arquivo
-sa sufixoArrayFile
Use a matriz de sufixo 'sa' para detectar correspondências entre as leituras e o
referência. A matriz de sufixo foi preparada pela serrador(1) programa.
-ctab aba
Uma tabela de contagens de tupla usada para estimar a significância da correspondência. Isso é por
programa 'printTupleCountTable'. Embora seja rápido de gerar na hora,
se houver muitas invocações de explosão, é útil pré-calcular o ctab.
-regiãoTabela mesa (DESCONTINUADA)
Leia em uma tabela de região de leitura no formato HDF para mascarar partes das leituras.
Pode ser uma única tabela se houver apenas um arquivo de entrada ou um fofn. Quando
uma tabela de região é especificada, qualquer tabela de região dentro de reads.plx.h5 ou
Os arquivos reads.bax.h5 são ignorados.
(DESCONTINUADA) Opções for modificação lê.
Há informações auxiliares sobre substrings de leituras que são armazenadas em um
'tabela de região' para cada arquivo lido. Porque HDF é usado, a tabela de região pode ser
parte do arquivo .bax.h5 ou .plx.h5 ou um arquivo separado. Uma leitura contígua
substring do template é um subread, e qualquer leitura pode conter vários
subreads. Os limites dos subreads podem ser inferidos da tabela de região
diretamente ou por definição dos limites do adaptador. Normalmente tabelas de região
também contêm informações para a localização das regiões de alta e baixa qualidade de
lê. As leituras produzidas por leituras espúrias de ZMWs vazios têm um início de alta qualidade
coordenar igual ao final de alta qualidade, tornando nenhuma leitura utilizável.
-useccs
Alinhe a sequência de consenso circular (ccs) e, em seguida, relate os alinhamentos do
ccs subreads para a janela para a qual o ccs foi mapeado. Apenas alinhamentos de
os subreads são relatados.
-useccsall
Semelhante a -useccs, exceto que todos os subreads estão alinhados, em vez de apenas o
subreads usados para chamar o ccs. Isso incluirá leituras que apenas a parte da capa
do modelo.
-useccsdenovo
Alinhe o consenso circular e relate apenas o alinhamento do ccs
seqüência.
-noSplitSubreads (falso)
Não divida subreads em adaptadores. Isso normalmente só é útil quando o
genoma em uma versão desenrolada de um template conhecido, e contém template-
sequência adaptador-reverse_template.
-ignoreRegiões (falso)
Ignore qualquer informação na tabela de região.
-ignoreHQRegiões (falso)
Ignore quaisquer regiões hq na tabela de regiões.
Alinhamentos Para Report
-melhor n (10)
Relate o topo n alinhamentos.
-hitPolicy (todos)
Especifique uma política para tratar vários acessos de [all, allbest, random,
randombest, mais à esquerda]
todos os relatar todos os alinhamentos.
tudo de bom
relatar todos os alinhamentos de pontuação igualmente superiores.
acaso relatar um alinhamento aleatório.
melhor aleatório
relatar um alinhamento aleatório de várias pontuações igualmente altas
alinhamentos.
mais à esquerda
relatar um alinhamento que tem a melhor pontuação de alinhamento e tem o
menor coordenada de mapeamento em qualquer referência.
-placeRepeatsAleatoriamente (falso)
DESCONTINUADA! Se verdadeiro, equivalente a -hitPolicy melhor aleatório.
-randomSeed (0)
Semente para gerador de números aleatórios. Por padrão (0), use a hora atual como valor inicial.
-noSortRefinedAlignments (falso)
Uma vez que os alinhamentos candidatos são gerados e pontuados por meio de uma dinâmica esparsa
programação, eles são redefinidos usando o alinhamento local que leva em conta
perfis de erro diferentes. O recurso com base no alinhamento local pode mudar
a ordem em que os hits são retornados.
-allowAdjacentIndels
Quando especificado, a inserção ou exclusão adjacentes são permitidas. De outra forma,
a inserção e as exclusões adjacentes são mescladas em uma operação. Usando
valores de qualidade para orientar alinhamentos em pares podem ditar que quanto maior
o alinhamento de probabilidade contém inserções ou exclusões adjacentes. Atual
ferramentas como o GATK não permitem isso e, portanto, não são relatadas por
padrão.
saída Formatos e Arquivos
-Fora Fora (terminal)
Grave a saída para Fora.
-sam Grave a saída no formato SAM.
-m t Se não estiver imprimindo SAM, modifique a saída do alinhamento.
Quando t é:
0 Imprimir saída tipo explosão com | conectando nucleotídeos correspondentes.
1 Imprima apenas um resumo: pontuação e pos.
2 Imprima no formato Compare.xml.
3 Imprima em formato vulgar (DESCONTINUADA).
4 Imprima uma versão tabular mais longa do alinhamento.
5 Imprima em um formato analisável por máquina que é lido por
compareSequências.py.
-cabeçalho
Imprime um cabeçalho como a primeira linha do arquivo de saída descrevendo o conteúdo
de cada coluna.
-titleTable aba (NULO)
Construa uma tabela de títulos de sequência de referência. As sequências de referência são
enumerado por linha, 0,1, ... O índice de referência é impresso em alinhamento
resultados em vez do nome de referência completo. Isso torna a saída concisa,
particularmente quando há títulos muito detalhados em nomes de referência.
-desalinhado lima
Leituras de saída que não estão alinhadas com lima
-clipando [Nenhum|difícil|subler|macio] (Nenhum)
Use no / hard / subread / soft clipping, SOMENTE para saída SAM / BAM.
-imprima SAMQV (falso)
Imprima valores de qualidade na saída do SAM.
-cigarUseSeqMatch (falso)
As strings CIGAR na saída SAM / BAM usam '=' e 'X' para representar a correspondência de sequência
e incompatibilidade em vez de 'M'.
Opções for ancoragem alinhamento regiões.
Isso terá o maior efeito na velocidade e sensibilidade.
-minMatch m (12)
Comprimento mínimo da semente. MinMatch mais alto irá acelerar o alinhamento, mas diminuir
sensibilidade.
-maxMatch l (inf)
Pare de mapear uma leitura para o genoma quando o comprimento lcp atingir l. Isto é
útil quando a consulta faz parte da referência, por exemplo quando
construir alinhamentos em pares para montagem de novo.
-maxLCPLComprimento l (inf)
O mesmo que -maxMatch.
-maxAnchorsPerPosition m (10000)
Não adicione âncoras de uma posição se ela corresponder a mais de m locais em
o alvo.
-advanceExactMatch E (0)
Outro truque para acelerar alinhamentos com match - E menos âncoras.
Em vez de encontrar âncoras entre a leitura e o genoma em cada
posição na leitura, quando uma âncora é encontrada na posição i em uma leitura de
comprimento L, a próxima posição em uma leitura para encontrar uma âncora está em i + LE. Usar
isso ao alinhar contigs já montados.
-nCandidatos n (10)
Mantenha-se atualizado n candidatos para o melhor alinhamento. Um grande valor de n
mapeamento lento porque as etapas de programação dinâmica mais lentas são aplicadas a
mais grupos de âncoras, o que pode ser uma etapa de limitação de taxa quando as leituras são
muito longo.
-concordante (falso)
Mapeie todos os subreads de um zmw (buraco) para onde o subread de passagem completa mais longo de
o zmw alinhado com. Isso requer o uso da tabela de regiões e regiões hq.
Esta opção só funciona quando as leituras estão no formato de base ou pulso h5.
-concordantModelo (mediana subleitura)
Selecione um subread de passagem completa de um zmw como modelo para mapeamento concordante.
longestsubread - use o subread de passagem completa mais longo mediansubread - use o
subread de passagem completa típica de comprimento médio - use o segundo mais longo
pass subread se o comprimento do subread de passagem completa mais longo for um outlier
-fastMaxInterval (falso)
Intervalos crescentes máximos de pesquisa rápida como candidatos ao alinhamento. A pesquisa
não é tão exaustivo quanto o padrão, mas é muito mais rápido.
-agressiveIntervalCut (falso)
Filtre de forma concordante os candidatos de alinhamento não promissores, se houver
pelo menos um candidato promissor. Se esta opção estiver ativada, explosão is
provavelmente ignorar alinhamentos curtos de elementos ALU.
-fastSDP (falso)
Use um algoritmo heurístico rápido para acelerar a programação dinâmica esparsa.
Opções for Refinação acessos
-sdpTupleSize K (11)
Use correspondências de comprimento K para acelerar alinhamentos de programação dinâmica. Esse
controla a precisão da atribuição de lacunas em alinhamentos de pares, uma vez que um mapeamento
foi encontrado, em vez de mapear a própria sensibilidade.
-scoreMatriz Ponto matriz corda
Especifique uma matriz de pontuação alternativa para pontuar leituras fasta. A matriz é
no formato
ACGTN
Um abcde
C fghij
G klmno
T pqrst
N uvwxy
Os valores a ... y devem ser inseridos como uma string separada por espaço entre aspas: "abc
... y ". Pontuações mais baixas são melhores, portanto, as correspondências devem ser menores do que as incompatibilidades
por exemplo, a, g, m, s = -5 (correspondência), incompatibilidade = 6.
-ffineAbrir valor (10)
Defina a penalidade para abrir um alinhamento afim.
-ffineExtend a (0)
Alterar penalidade de intervalo afim (extensão). O valor mais baixo permite mais lacunas.
Opções for sobreposição / dinâmica programação alinhamentos e emparelhados sobreposição for de novo
montagem.
-useQualidade (falso)
Use os valores de qualidade de substituição / inserção / exclusão / mesclagem para marcar a lacuna e
penalidades de incompatibilidade em alinhamentos de pares. Porque a inserção e
as taxas de exclusão são muito mais altas do que a de substituição, o que fará com que muitos
alinhamentos favorecem uma inserção / exclusão sobre uma substituição. Consenso nNaive
os métodos de chamada frequentemente perderão os polimorfismos de substituição. Esta opção
deve ser usado ao chamar consenso usando o método Quiver. Além disso,
quando não usar valores de qualidade para pontuar alinhamentos, haverá um menor
precisão de consenso em regiões de homolímero.
-affineAlinhar (falso)
Refine o alinhamento usando o alinhamento guiado por afinidade.
Opções for filtragem lê e alinhamentos
-minReadLength l (50)
Pular leituras que têm um comprimento total menor que l. Subreads podem ser mais curtos.
-minSubreadLength l (0)
Não alinhe subreads de comprimento menor que l.
-minRawSubreadScore m (0)
Não alinhe subreads cujo índice de qualidade na tabela de região seja menor que m
(as pontuações de qualidade devem estar no intervalo [0, 1000]).
-maxScore m (-200)
Pontuação máxima de saída (alta é ruim, negativa boa).
-minAlnComprimento
(0) Relate alinhamentos apenas se seus comprimentos forem maiores que minAlnLength.
-minPctSimilaridade (0) Relate os alinhamentos apenas se a sua porcentagem de semelhança for
maior que minPctSimilarity.
-minPctPrecisão
(0) Relate os alinhamentos apenas se a sua precisão percentual for maior que
minPrecisão.
Opções for paralelo alinhamento
-nproc N (1)
Alinhar usando N processos. Todas as grandes estruturas de dados, como a matriz de sufixo
e a tabela de contagem de tupla são compartilhadas.
-Começar S (0)
Índice da primeira leitura para começar o alinhamento. Isso é útil quando vários
as instâncias estão rodando nos mesmos dados, por exemplo, quando em um multi-rack
grupo.
- passo S (1)
Alinhe um leia a cada S lê.
Opções for subamostragem lê.
-subamostra (0)
Proporção de leituras para subamostra aleatoriamente (expressa como um decimal) e
alinhar.
-holeNumbers LISTA
Quando especificado, alinhe apenas leituras cujos números de orifícios ZMW estejam em LISTA. LISTA
é uma string de intervalos delimitada por vírgulas, como '1,2,3,10-13'. Esta opção
só funciona quando as leituras estão no formato bam, bax.h5 ou plx.h5.
-h Imprima informações de ajuda.
QUOTE
Para citar BLASR, use: Chaisson MJ e Tesler G., Mapping single molecule
sequenciamento de leituras usando Alinhamento Local Básico com Refinamento Sucessivo (BLASR): Teoria
e Application, BMC Bioinformatics 2012, 13: 238.
Use blasr online usando serviços onworks.net