Este é o comando pbbarcode que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador Windows online ou emulador MAC OS online
PROGRAMA:
NOME
pbbarcode - anotar leituras de sequenciamento PacBio com informações de código de barras
DESCRIÇÃO
A código de barras pb pacote fornece utilitários para anotar ZMWs individuais diretamente de um
arquivo bas.h5, emitindo arquivos rápidos [a | q] para cada código de barras, alinhando rótulos armazenados em um
arquivo cmp.h5, e chamar consenso sobre pequenos amplicons (requer pbdagcon(1))
No momento, os códigos de barras podem ser pontuados de duas maneiras diferentes: simétrico e emparelhado.
O modo simétrico suporta designs de código de barras com dois códigos de barras idênticos em ambos os lados de um
SMRTbell, por exemplo, para códigos de barras (A, B), as moléculas são rotuladas como A - A ou B - B. o emparelhado
modo suporta projetos com dois códigos de barras distintos em cada lado da molécula, mas nenhum
o código de barras aparece sem seu mate. O exemplo mínimo é dado com o seguinte
códigos de barras: (ALeft, ARight, BLeft, BRight), onde os seguintes conjuntos de códigos de barras são verificados:
ALeft - ARight, BLeft - BRight.
É importante destacar que um arquivo de código de barras FASTA especifica uma lista de
códigos de barras para avaliar. Dependendo do modo de pontuação, os códigos de barras são agrupados em
jeitos diferentes. Por exemplo, no simétrico caso, o número de código de barras possível
os resultados são simplesmente o número de códigos de barras que são fornecidos para a rotina no FASTA
arquivo (veja abaixo para uso) mais um NULL código de barras indicando que nenhum código de barras
poderia ser avaliado (denotado por: '-'). Rótulos como este (A - A) são usados no final
saídas. No emparelhado modo, o número de resultados de código de barras possíveis é a metade do número
das sequências no arquivo FASTA mais o NULL código de barras. o NULL código de barras indica que
nenhuma tentativa foi feita para pontuar a molécula ou ela foi filtrada pelos critérios do usuário.
A maioria dos casos em que uma molécula não é pontuada está relacionada à não observação de qualquer
adaptadores. Se um usuário executou uma execução de "inicialização a quente", o usuário pode tentar o '--scoreFirst'
parâmetro para tentar rotular o código de barras do primeiro adaptador. Isso aumenta o rendimento do
procedimento de labeleing às custas de alguns provavelmente falsos positivos.
O software é implementado como um pacote python padrão. Os códigos de barras são rotulados de acordo
para a seguinte lógica de alto nível. Para cada molécula, todos os adaptadores são encontrados. Para cada
adaptador, alinhamos (usando o alinhamento Smith-Watterman padrão) cada código de barras e seu reverso
complemento à sequência de flanqueamento do adaptador. Se duas sequências de flanqueamento completas forem
disponível, dividimos por 2, caso contrário, 1 se apenas uma sequência de flanqueamento estivesse disponível (média
pontuação no adaptador). Isso permite que as pontuações entre os adaptadores estejam na mesma escala (quimera
detecção). Dependendo do modo, então determinamos quais códigos de barras são no máximo
pontuação. Nós armazenamos os dois códigos de barras de pontuação máxima, a soma de suas pontuações de alinhamento
entre os adaptadores. A pontuação média do código de barras pode ser dada aproximadamente por:
pontuação total / número de adaptadores. No momento, os parâmetros de alinhamento são fixados em:
┌────────────┬────────┐
│tipo │ pontuação │
├────────────┼────────┤
│ inserção │ -1 │
├────────────┼────────┤
│deleção │ -1 │
├────────────┼────────┤
│incompatibilidade │ -2 │
├────────────┼────────┤
│correspondência │ 2 │
└────────────┴────────┘
Entrada e saída
rótuloZmws
uso: código de barras pb rótuloZmws [-h] [--outDir EXTERIOR] [--outFofn FORA]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad INSERTSIDEPAD] [--scoreMode
{simétrico, emparelhado}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo] código de barras.fasta input.fofn
Cria um arquivo barcode.h5 a partir de arquivos de base h5.
posicional argumentos:
barcode.fasta Entrada arquivo fasta do código de barras input.fofn Base de entrada
fofn
opcional argumentos:
-h, --Socorro
mostre esta mensagem de ajuda e saia
--outDir EXTERIOR
Onde gravar os arquivos barcode.h5 recém-criados. (predefinição:
/ home / UNIXHOME / jbullard / projects / software / bioinformatics / tools / pbbarcode / doc)
--outFofn FORA
Grave em outFofn (padrão: barcode.fofn)
--adapterSidePad ADAPTADOR LATERAL
Pad com adaptadorSidePad bases (padrão: 4)
--inserirSidePad INSERÇÃO LATERAL
Almofada com bases insertSidePad (padrão: 4)
--scoreMode {simétrico, emparelhado}
O modo em que os códigos de barras devem ser pontuados. (padrão: simétrico)
--maxAdapters MAXADAPTADORES
Pontue apenas os primeiros maxAdapters (padrão: 20)
--scorePrimeiro
Se deve tentar pontuar o código de barras mais à esquerda em um traço. (padrão: falso)
--startTimeCutoff STARTTIMECUTOFF
As leituras devem começar antes deste valor para serem incluídas quando
scoreFirst está definido. (padrão: 10.0)
--nZmws NZMWS
Use os primeiros n ZMWs para teste (padrão: -1)
--nProcs NPROCS
Quantos processos usar (padrão: 8)
--saveExtendedInfo
Se deseja salvar informações estendidas nos arquivos barcode.h5; isto
as informações são úteis para depuração e detecção de quimera (padrão:
Falso)
A rótuloZmws comando leva um input.fofn que representa um conjunto de arquivos bas.h5 para operar
sobre. Além disso, é necessário um arquivo barcode.fasta. Dependendo modo de pontuação, o arquivo FASTA
será processado de maneiras diferentes. Especificamente, em emparelhado modo, cada dois consecutivos
os códigos de barras no arquivo são considerados um conjunto.
Os parametros, adaptadorSidePad e inserir SidePad representa quantas bases devem ser
considerado em cada lado do código de barras putativo. Esses parâmetros são restritos como
que: | adapterSidePad | + | insertSidePad | + código de barras | < 65.
Os usuários têm a opção de especificar um local de saída diferente para as várias saídas.
Especificamente, para cada arquivo bas.h5 em input.fofn, um arquivo bc.h5 (código de barras hdf5) é
gerado. Esses arquivos estão listados no arquivo outFon que normalmente é apenas chamado
código de barras.ffn. Veja abaixo uma descrição do arquivo de código de barras hdf5.
rótuloAlinhamentos
uso: código de barras pb rótuloAlinhamentos [-h]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] barcode.fofn align_reads.cmp.h5
Adiciona informações sobre alinhamentos de código de barras a um arquivo cmp.h5 de uma chamada anterior para
"labelZmws".
posicional argumentos:
código de barras.fofn arquivo de entrada de código de barras fofn align_reads.cmp.h5 arquivo cmp.h5
adicionar etiquetas de código de barras
opcional argumentos:
-h, --Socorro
mostre esta mensagem de ajuda e saia
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: exclui ZMW se a pontuação média do código de barras for menor que este valor
(padrão: 0.0)
--minNumCódigos de barras CÓDIGOS MINNUMBAR
Filtro ZMW: exclui ZMW se o número de códigos de barras observados for menor que este
valor (padrão: 1)
--minScoreRatio MINCORERATIO
Filtro ZMW: exclui ZMWs cuja melhor pontuação é dividida pela 2ª melhor pontuação
é menor que esta proporção (padrão: 1.0)
A rótuloAlinhamentos comando leva como entrada um barcode.fofn calculado a partir de uma chamada para
rótuloZMWs e um arquivo cmp.h5 onde as informações do código de barras são gravadas. Veja abaixo um
descrição das adições do arquivo cmp.h5.
emitirFastqs
uso: código de barras pb emitirFastqs [-h] [--outDir saída.dir] [--subleituras]
[--unlabeledZmws] [--trim TRIM] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] input.fofn código de barras.fofn
Pega um bas.h5 fofn e um barcode.h5 fofn e produz um arquivo rápido [a | q] para cada
código de barras.
posicional argumentos:
input.fofn input base ou CCS fofn file barcode.fofn input
arquivo fofn barcode.h5
opcional argumentos:
-h, --Socorro
mostre esta mensagem de ajuda e saia
--outDir saída.dir saída anuário para escrever rápido arquivos (padrão: /casa/
UNIXHOME / jbullard / projects / software / bioinformatics / too ls / pbbarcode / doc)
--subleituras
se deve produzir arquivos fastq para os subreads; o padrão é usar o
O CCS lê. Esta opção só se aplica quando input.fofn tem consenso e
leituras brutas, caso contrário, o tipo de leitura de input.fofn será retornado.
(padrão: falso)
--unlabeledZmws
se deve emitir um arquivo fastq para os ZMWs não rotulados. Estes são os ZMWs
onde nenhum adaptador é encontrado normalmente (padrão: False)
--aparar TRIM
corte os códigos de barras e qualquer sequência constante em excesso (padrão: 20)
--fasta
se os arquivos produzidos devem ser arquivos FASTA em oposição ao FASTQ
(padrão: falso)
--minMaxInsertComprimento MINMAXINSERTENGTH
Filtro ZMW: exclui ZMW se o subread mais longo for menor que este valor
(padrão: 0)
--hqStartTime HQSTARTTIME
Filtro ZMW: exclui ZMW se a hora de início da região HQ for maior que este valor
(segundos) (padrão: inf)
--minReadScore MINREADSCORORE
Filtro ZMW: exclui ZMW se readScore for menor que este valor (padrão: 0)
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: exclui ZMW se a pontuação média do código de barras for menor que este valor
(padrão: 0.0)
--minNumCódigos de barras CÓDIGOS MINNUMBAR
Filtro ZMW: exclui ZMW se o número de códigos de barras observados for menor que este
valor (padrão: 1)
--minScoreRatio MINCORERATIO
Filtro ZMW: exclui ZMWs cuja melhor pontuação é dividida pela 2ª melhor pontuação
é menor que esta proporção (padrão: 1.0)
A emitirFastqs comando leva como entrada um input.fofn para os arquivos bas.h5, bem como um
barcode.fofn de uma chamada para labelZmws. O parâmetro opcional outDir dita onde o
os arquivos serão gravados. Para cada código de barras detectado, um arquivo rápido [a | q] será emitido com
todas as leituras desse código de barras. o aparar parâmetro dita quanto da leitura deve
ser aparado. O parâmetro padrão para aparar é o comprimento do código de barras (que é
armazenados nos arquivos hdf5 do código de barras). No momento, todos os códigos de barras no arquivo FASTA de código de barras
deve ter o mesmo comprimento, portanto, apenas um valor de corte constante é suportado. Na prática,
pode-se cortar agressivamente para garantir que bases extras não sejam deixadas nas extremidades do
lê. finalmente, o subleituras parâmetro dita se subreads ou leituras CCS devem ser
retornado com o padrão sendo as leituras apropriadas de acordo com o tipo de arquivo de entrada,
CCS ou subreads. Este parâmetro só é inspecionado se o input.fofn contiver ambos
Dados CCS e subread, se o input.fofn contém apenas dados subread ou CCS, então isso é
retornou independentemente do estado do subleituras parâmetro e um aviso é emitido.
consenso
uso: código de barras pb consenso [-h] [--subamostra SUBAMOSTRA] [--nZmws NZMWS]
[--outDir OUTDIR] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
MINSCORERATIO] [--código de barras CÓDIGO DE BARRAS [CÓDIGO DE BARRAS ...]] input.fofn código de barras.fofn
Calcule as sequências de consenso para cada código de barras.
posicional argumentos:
input.fofn input bas.h5 arquivo fofn barcode.fofn input bc.h5
arquivo fofn
opcional argumentos:
-h, --Socorro
mostre esta mensagem de ajuda e saia
--subamostra SUBAMOSTRA
Subamostra de ZMWs (padrão: 1)
--nZmws NZMWS
Pegue n ZMWs (padrão: -1)
--outDir EXTERIOR
Use este diretório para gerar resultados (padrão:.)
--keepTmpDir --ccsFofn CCSFOFN Obtenha dados CCS de ccsFofn em vez de
input.ffn
(predefinição: )
--nProcs NPROCS
Use nProcs para executar. (padrão: 16)
--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
Filtro ZMW: exclui ZMW se o subread mais longo for menor que este valor
(padrão: 0)
--hqStartTime HQSTARTTIME
Filtro ZMW: exclui ZMW se a hora de início da região HQ for maior que este valor
(segundos) (padrão: inf)
--minReadScore MINREADSCORORE
Filtro ZMW: exclui ZMW se readScore for menor que este valor (padrão: 0)
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: exclui ZMW se a pontuação média do código de barras for menor que este valor
(padrão: 0.0)
--minNumCódigos de barras CÓDIGOS MINNUMBAR
Filtro ZMW: exclui ZMW se o número de códigos de barras observados for menor que este
valor (padrão: 1)
--minScoreRatio MINCORERATIO
Filtro ZMW: exclui ZMWs cuja melhor pontuação é dividida pela 2ª melhor pontuação
é menor que esta proporção (padrão: 1.0)
- código de barras Código de barras [CÓDIGO DE BARRAS ...]
Use isso para extrair consenso para apenas um código de barras. (padrão: nenhum)
A emitirFastqs comando leva como entrada um input.fofn para os arquivos bas.h5, bem como um
barcode.fofn de uma chamada para labelZmws. Os resultados são um arquivo FASTA com uma entrada para cada
código de barras contendo a sequência de amplicon de consenso. Este modo utiliza Aljava e pbdagcon
para calcular o consenso.
Nos casos em que o amplicon tem menos de 2.5k bases, o uso de dados CCS é bastante útil. o
--ccsFofn permite passar diretamente os arquivos ccs. Em muitos casos, tanto o CCS quanto o bruto
basecalls estão no mesmo arquivo, então você pode verificar passando o mesmo parâmetro para
input.fofn como para ccsFofn.
Dependências
O pacote pbbarcode depende de uma instalação padrão do pbcore (-
https://github.com/PacificBiosciences/pbcore) Se alguém deseja usar o consenso ferramenta,
pbdagcon precisa ser instalado (https://github.com/PacificBiosciences/pbdagcon).
Código de barras HDF5 Envie o
O arquivo de código de barras hdf5, bc.h5, representa um armazenamento de dados simples para chamadas de código de barras e seus
pontuações para cada ZMW. Geralmente, um usuário não precisa interagir com arquivos de código de barras hdf5, mas pode
use os resultados armazenados no arquivo cmp.h5 resultante ou nos arquivos rápidos [a | q]. O código de barras
O arquivo hdf5 contém a seguinte estrutura:
/ BarcodeCalls / best - (nZMWs, 6) [inteiro de 32 bits] conjunto de dados com as seguintes colunas:
holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, barcodeScore2
Além disso, o melhor conjunto de dados tem os seguintes atributos:
┌──────────────┬─────────────────────────────────────── ─────────────────────────────────┐
│movieName │ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├──────────────┼─────────────────────────────────────── ─────────────────────────────────┤
│columnNames │ holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, │
│ │barcodeScore2 │
└──────────────┴─────────────────────────────────────── ─────────────────────────────────┘
│scoreMode │ [simétrico | emparelhado] │
├──────────────┼─────────────────────────────────────── ─────────────────────────────────┤
│códigos de barra │ 'bc_1', 'bc_2', ...., 'bc_N' │
└──────────────┴─────────────────────────────────────── ─────────────────────────────────┘
As duas colunas barcodeIdx1 e barcodeIdx2 são índices em códigos de barras atributo. O
modo de pontuação é o modo de pontuação usado para alinhar os códigos de barras. o códigos de barras atributo corresponde a
os nomes de sequência barcode.fasta.
Além disso, em algumas circunstâncias, é útil reter toda a história do
pontuação, ou seja, cada código de barras pontuado para cada adaptador em todos os ZMWs. Para reter isso
informações, deve-se ligar para:
código de barras pb rótuloZmws --saveExtendedInfo ...
Neste modo, o arquivo HDF5 resultante terá um conjunto de dados adicional sob o
Grupo BarcodeCalls, denominado: todos os. Este conjunto de dados tem o seguinte formato:
/ BarcodeCalls / all - (nbarcodes * nadapters [zmw_i], 4) forall i in 1 ... nZMWs
`holeNumero, adaptadorIdx, código de barras Idx, pontuação`
A IDx do adaptador é o índice do adaptador ao longo da molécula, ou seja, adapterIdx 1 é o
primeiro adaptador marcado.
Adições para da comparar HDF5 (cmp.h5) Envie o
Além do arquivo de código de barras hdf5, uma chamada para rótuloAlinhamentos irá anotar um cmp.h5
Arquivo. Essa anotação é armazenada de maneira consistente com o formato de arquivo cmp.h5.
Especificamente, um novo grupo:
/ BarcodeInfo /
ID (nBarcodeLabels + 1, 1) [inteiro de 32 bits]
Nome (nBarcodeLabels + 1, 1) [string de comprimento variável]
Além de / BarcodeInfo / group, o conjunto de dados chave que atribui alinhamentos a
códigos de barras estão localizados em:
/ AlnInfo / Barcode (nAlignments, 3) [inteiro de 32 bits] com as seguintes colunas:
índice, contagem, bestIndex, bestScore, secondBestIndex, secondBestScore
Aqui, o índice se refere ao índice no Nome vetor, a pontuação corresponde à soma do
pontuações para os códigos de barras e, finalmente, a contagem refere-se ao número de adaptadores encontrados no
molécula.
Dezembro 2015 CÓDIGO DE BARRA(1)
Use pbbarcode online usando serviços onworks.net