Este es el comando pbbarcode que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
pbbarcode: anota las lecturas de secuenciación de PacBio con información de códigos de barras
DESCRIPCIÓN
El código de barras El paquete proporciona utilidades para anotar ZMW individuales directamente desde un
bas.h5, que emite archivos rápidos [a | q] para cada código de barras, etiquetando las alineaciones almacenadas en un
cmp.h5 y llamando al consenso sobre amplicones pequeños (requiere pbdagcon(1))
Por el momento, los códigos de barras se pueden calificar de dos formas diferentes: simétrico y emparejado.
El modo simétrico admite diseños de códigos de barras con dos códigos de barras idénticos en ambos lados de un
SMRTbell, por ejemplo, para códigos de barras (A, B), las moléculas se etiquetan como A - A o B - B. los emparejado
El modo admite diseños con dos códigos de barras distintos en cada lado de la molécula, pero ninguno
El código de barras aparece sin su compañero. El ejemplo mínimo se da con lo siguiente
códigos de barras: (ALeft, ARight, BLeft, BRight), donde se verifican los siguientes conjuntos de códigos de barras:
Izquierda - Derecha, B Izquierda - Brillante.
Es importante resaltar que un archivo de código de barras FASTA especifica una lista de
códigos de barras para evaluar. Dependiendo del modo de puntuación, los códigos de barras se agrupan en
diferentes caminos. Por ejemplo, en el simétrico caso, el número de códigos de barras posibles
Los resultados son simplemente el número de códigos de barras que se suministran a la rutina en FASTA.
archivo (consulte el uso a continuación) más un archivo adicional NULL código de barras que indica que no hay código de barras
podría ser evaluado (denotado por: '-'). Etiquetas como esta (A - A) se utilizan en la
salidas. En el emparejado modo, el número de posibles resultados de códigos de barras es la mitad del número
de las secuencias en el archivo FASTA más el NULL código de barras. los NULL el código de barras indica que
no se hizo ningún intento de puntuar la molécula o se filtró según los criterios del usuario.
La mayoría de los casos en los que no se puntúa una molécula están relacionados con no observar ninguna
adaptadores. Si un usuario ha ejecutado una ejecución de "inicio en caliente", el usuario puede probar el '--scoreFirst'
parámetro para intentar etiquetar el código de barras del primer adaptador. Esto aumenta el rendimiento de la
procedimiento de etiquetado a expensas de algunos probablemente falsos positivos.
El software se implementa como un paquete estándar de Python. Los códigos de barras están etiquetados de acuerdo
a la siguiente lógica de alto nivel. Para cada molécula, se encuentran todos los adaptadores. Para cada
adaptador, alineamos (usando la alineación estándar Smith-Watterman) cada código de barras y su reverso
complemento a la secuencia de flanqueo del adaptador. Si dos secuencias flanqueantes completas son
disponible, dividimos por 2, de lo contrario 1 si solo estaba disponible una secuencia de flanqueo (promedio
puntuación en el adaptador). Esto permite que las puntuaciones de los adaptadores estén en la misma escala (quimera
detección). Dependiendo de modo, luego determinamos qué códigos de barras son máximos
puntuación. Almacenamos los dos códigos de barras de máxima puntuación, la suma de sus puntuaciones de alineación
a través de los adaptadores. La puntuación media del código de barras se puede dar aproximadamente por:
puntuación total / número de adaptadores. Por el momento, los parámetros de alineación están fijados en:
┌──────────┬───────┐
│tipo │ puntuación │
├──────────┼───────┤
│ inserción │ -1 │
├──────────┼───────┤
│supresión │ -1 │
├──────────┼───────┤
│falta de coincidencia │ -2 │
├──────────┼───────┤
│partido │ 2 │
└──────────┴───────┘
Entrada y salida
etiquetaZmws
uso: código de barras etiquetaZmws [-h] [--outDir EXTERIOR] [--fueraFofn FUERA]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad INSERTSIDEPAD] [--scoreMode
{simétrico, emparejado}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo] código de barras.fasta input.fofn
Crea un archivo barcode.h5 a partir de archivos base h5.
posicional argumentos:
código de barras.fasta Entrada de código de barras archivo fasta input.fofn Base de entrada
aficionado
opcional argumentos:
-h, --ayuda
mostrar este mensaje de ayuda y salir
--outDir EXTERIOR
Dónde escribir los archivos barcode.h5 recién creados. (defecto:
/ inicio / UNIXHOME / jbullard / proyectos / software / bioinformática / herramientas / pbbarcode / doc)
--fueraFofn FUERA
Escribir en outFofn (predeterminado: código de barras.fofn)
--adaptadorSidePad ADAPTADORSIDEPAD
Pad con adaptadorSidePad bases (por defecto: 4)
--insertSidePad INSERTAR ALMOHADILLA LATERAL
Pad con bases de inserción SidePad (por defecto: 4)
--scoreMode {simétrico, emparejado}
El modo en el que se deben puntuar los códigos de barras. (predeterminado: simétrico)
--maxAdaptadores MAXADAPTADORES
Solo puntúe los primeros maxAdapters (predeterminado: 20)
--puntuaciónprimero
Ya sea para intentar marcar el código de barras más a la izquierda en un rastro. (predeterminado: falso)
--startTimeCutoff HORA DE INICIO
Las lecturas deben comenzar antes de este valor para que se incluyan cuando
ScoreFirst está establecido. (predeterminado: 10.0)
--nZmws NZMWS
Utilice los primeros n ZMW para realizar pruebas (predeterminado: -1)
--nProcs NPROCS
Cuántos procesos usar (predeterminado: 8)
--saveExtendedInfo
Ya sea para guardar información extendida en los archivos barcode.h5; esta
La información es útil para depurar y detectar quimeras (predeterminado:
Falso)
El etiquetaZmws El comando toma input.fofn que representa un conjunto de archivos bas.h5 para operar
sobre. Además, se necesita un archivo de código de barras.fasta. Dependiendo de modo de puntuación, el archivo FASTA
será procesado de diferentes formas. Específicamente, en emparejado modo, cada dos consecutivos
Los códigos de barras del archivo se consideran un conjunto.
Los parametros, adaptadorSidePad y insertarSidePad representa cuántas bases deben ser
considerado en cada lado del código de barras putativo. Estos parámetros están restringidos
que: | adapterSidePad | + | insertSidePad | + | código de barras | < 65.
Los usuarios tienen la opción de especificar una ubicación de salida diferente para las distintas salidas.
Específicamente, para cada archivo bas.h5 en input.fofn, se crea un archivo bc.h5 (código de barras hdf5)
generado. Estos archivos se enumeran en el archivo fueraFofn que normalmente se llama simplemente
código de barras.fofn. Consulte a continuación una descripción del archivo hdf5 de código de barras.
etiquetaAlineaciones
uso: código de barras etiquetaAlineaciones [-h]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] código de barras.fofn align_reads.cmp.h5
Agrega información sobre alineaciones de códigos de barras a un archivo cmp.h5 de una llamada anterior a
"labelZmws".
posicional argumentos:
código de barras.
para agregar etiquetas de código de barras
opcional argumentos:
-h, --ayuda
mostrar este mensaje de ayuda y salir
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: excluya ZMW si la puntuación promedio del código de barras es menor que este valor
(predeterminado: 0.0)
--minNumCódigos de barras CÓDIGOS DE BARRA MINNUMAR
Filtro ZMW: excluya ZMW si el número de códigos de barras observados es menor que este
valor (predeterminado: 1)
--minScoreRatio PUNTUACIÓN MÍNIMA
Filtro ZMW: excluya los ZMW cuya mejor puntuación dividida por la segunda mejor puntuación
es menor que esta relación (predeterminado: 1.0)
El etiquetaAlineaciones El comando toma como entrada un código de barras.fofn calculado a partir de una llamada a
etiquetaZMWs y un archivo cmp.h5 donde se escribe la información del código de barras. Vea a continuación una
descripción de las adiciones al archivo cmp.h5.
emitirFastqs
uso: código de barras emitirFastqs [-h] [--outDir salida.dir] [--sublecturas]
[--unlanamedZmws] [--trim TRIM] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] input.fofn código de barras.fofn
Toma un fofn bas.h5 y un fofn de código de barras.h5 y produce un archivo rápido [a | q] para cada
código de barras.
posicional argumentos:
input.fofn input base o CCS fofn file barcode.fofn input
archivo fofn código de barras.h5
opcional argumentos:
-h, --ayuda
mostrar este mensaje de ayuda y salir
--outDir salida.dir salida directorio a escribir rapido archivos (defecto: /casa/
UNIXHOME / jbullard / proyectos / software / bioinformática / too ls / pbbarcode / doc)
--sublecturas
si producir archivos fastq para los subreads; el valor predeterminado es usar el
Lee CCS. Esta opción solo se aplica cuando input.fofn tiene consenso y
lecturas sin procesar; de lo contrario, se devolverá el tipo de lectura de input.fofn.
(predeterminado: falso)
--sin etiquetaZmws
si se debe emitir un archivo fastq para los ZMW sin etiqueta. Estos son los ZMW
donde normalmente no se encuentran adaptadores (predeterminado: falso)
--podar TRIM
recortar códigos de barras y cualquier exceso de secuencia constante (predeterminado: 20)
--fasta
si los archivos producidos deben ser archivos FASTA en oposición a FASTQ
(predeterminado: falso)
--minMaxInsertLength LONGITUD MINMAXINSERT
Filtro ZMW: excluya ZMW si el subread más largo es menor que esta cantidad
(predeterminado: 0)
--hqHoraInicio HQINICIO
Filtro ZMW: excluir ZMW si la hora de inicio de la región HQ es mayor que este valor
(segundos) (predeterminado: inf)
--minReadScore PUNTUACIÓN MINREADS
Filtro ZMW: excluya ZMW si readScore es menor que este valor (predeterminado: 0)
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: excluya ZMW si la puntuación promedio del código de barras es menor que este valor
(predeterminado: 0.0)
--minNumCódigos de barras CÓDIGOS DE BARRA MINNUMAR
Filtro ZMW: excluya ZMW si el número de códigos de barras observados es menor que este
valor (predeterminado: 1)
--minScoreRatio PUNTUACIÓN MÍNIMA
Filtro ZMW: excluya los ZMW cuya mejor puntuación dividida por la segunda mejor puntuación
es menor que esta relación (predeterminado: 1.0)
El emitirFastqs El comando toma como entrada tanto un input.fofn para los archivos bas.h5 como un
código de barras.fofn desde una llamada a labelZmws. El parámetro opcional fueraDir dicta donde el
se escribirán archivos. Por cada código de barras detectado, se emitirá un archivo rápido [a | q] con
todas las lecturas de ese código de barras. los recortar El parámetro dicta la cantidad de lectura que debe
ser recortado. El parámetro predeterminado para recortar es la longitud del código de barras (que es
almacenados en los archivos de código de barras hdf5). Por el momento, todos los códigos de barras en el archivo de código de barras FASTA
debe tener la misma longitud, por lo que solo se admite un valor de corte constante. En la práctica,
uno puede recortar agresivamente para asegurarse de que no se dejen bases extra en los extremos de
lee. Finalmente, el sublecturas El parámetro dicta si las lecturas de subreads o CCS deben ser
devuelto con el valor predeterminado siendo las lecturas apropiadas de acuerdo con el tipo de archivo de entrada,
ya sea CCS o subreads. Este parámetro solo se inspecciona si input.fofn contiene ambos
CCS y datos de subred, si input.fofn contiene solo datos de subread o CCS, entonces eso es
devuelto independientemente del estado de la sublecturas parámetro y se emite una advertencia.
consenso
uso: código de barras consenso [-h] [--submuestra SUBMUESTRAS] [--nZmws NZMWS]
[--outDir OUTDIR] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
MINSCORERATIO] [--código de barras CÓDIGO DE BARRAS [CÓDIGO DE BARRAS ...]] input.fofn código de barras.fofn
Calcule las secuencias de consenso para cada código de barras.
posicional argumentos:
entrada.fofn entrada bas.h5 archivo fofn código de barras.fofn entrada bc.h5
archivo fofn
opcional argumentos:
-h, --ayuda
mostrar este mensaje de ayuda y salir
--submuestra SUBSEMPLO
ZMW de submuestra (predeterminado: 1)
--nZmws NZMWS
Tomar n ZMW (predeterminado: -1)
--outDir EXTERIOR
Utilice este directorio para generar resultados (predeterminado:.)
--keepTmpDir --ccsFofn CCSFOFN Obtiene datos CCS de ccsFofn en lugar de
entrada.fofn
(defecto: )
--nProcs NPROCS
Utilice nProcs para ejecutar. (predeterminado: 16)
--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
Filtro ZMW: excluya ZMW si el subread más largo es menor que esta cantidad
(predeterminado: 0)
--hqHoraInicio HQINICIO
Filtro ZMW: excluir ZMW si la hora de inicio de la región HQ es mayor que este valor
(segundos) (predeterminado: inf)
--minReadScore PUNTUACIÓN MINREADS
Filtro ZMW: excluya ZMW si readScore es menor que este valor (predeterminado: 0)
--minAvgBarcodeScore MINAVGBARCODESCORE
Filtro ZMW: excluya ZMW si la puntuación promedio del código de barras es menor que este valor
(predeterminado: 0.0)
--minNumCódigos de barras CÓDIGOS DE BARRA MINNUMAR
Filtro ZMW: excluya ZMW si el número de códigos de barras observados es menor que este
valor (predeterminado: 1)
--minScoreRatio PUNTUACIÓN MÍNIMA
Filtro ZMW: excluya los ZMW cuya mejor puntuación dividida por la segunda mejor puntuación
es menor que esta relación (predeterminado: 1.0)
--código de barras CÓDIGO DE BARRAS [CÓDIGO DE BARRAS ...]
Use esto para extraer consenso para un solo código de barras. (predeterminado: Ninguno)
El emitirFastqs El comando toma como entrada tanto un input.fofn para los archivos bas.h5 como un
código de barras.fofn desde una llamada a labelZmws. Los resultados son un archivo FASTA con una entrada para cada
código de barras que contiene la secuencia de amplicones de consenso. Este modo utiliza Carcaj y pbdagcon
para calcular el consenso.
En los casos en que el amplicón tiene menos de 2.5k bases, el uso de datos CCS es bastante útil. los
--ccsFofn permite pasar directamente los archivos ccs. En muchos casos, tanto el CCS como el raw
Las llamadas base están en el mismo archivo, por lo que puede verificar pasando el mismo parámetro a
input.fofn en cuanto a ccsFofn.
Dependencias
El paquete pbbarcode depende de una instalación estándar de pbcore (-
https://github.com/PacificBiosciences/pbcore). Si uno desea utilizar el consenso herramienta,
pbdagcon necesita ser instaladohttps://github.com/PacificBiosciences/pbdagcon).
Barcode HDF5 Archive
El archivo de código de barras hdf5, ac.h5, representa un almacén de datos simple para llamadas de código de barras y su
puntuaciones para cada ZMW. Generalmente, un usuario no necesita interactuar con archivos de código de barras hdf5, pero puede
utilice los resultados almacenados en el archivo cmp.h5 resultante o en los archivos rápidos [a | q]. El código de barras
El archivo hdf5 contiene la siguiente estructura:
/ BarcodeCalls / best - (nZMWs, 6) [entero de 32 bits] conjunto de datos con las siguientes columnas:
holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, barcodeScore2
Además, puedes incorporar a tu protocolo el mejor el conjunto de datos tiene los siguientes atributos:
┌────────────┬──────────────────────────────────── ─────────────────────────────┐
│nombre de la película │ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├────────────┼──────────────────────────────────── ─────────────────────────────┤
│columnNames │ holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, │
│ │ código de barras Score2 │
└────────────┴──────────────────────────────────── ─────────────────────────────┘
│scoreMode │ [simétrico | emparejado] │
├────────────┼──────────────────────────────────── ─────────────────────────────┤
│códigos de barras │ 'bc_1', 'bc_2', ...., 'bc_N' │
└────────────┴──────────────────────────────────── ─────────────────────────────┘
Las dos columnas barcodeIdx1 y barcodeIdx2 son índices en códigos de barras atributo. La
modo de puntuación es el modo de puntuación que se utiliza para alinear los códigos de barras. los códigos de barras atributo corresponde a
los nombres de secuencia de código de barras.
Además, en algunas circunstancias, es útil conservar la historia completa de la
puntuación, es decir, cada código de barras puntuado en cada adaptador en todos los ZMW. Para retener este
información, hay que llamar a:
código de barras etiquetaZmws --saveExtendedInfo ...
En este modo, el archivo HDF5 resultante tendrá un conjunto de datos adicional bajo el
Grupo BarcodeCalls, llamado: all. Este conjunto de datos tiene el siguiente formato:
/ BarcodeCalls / all - (nbarcodes * nadapters [zmw_i], 4) para todo i en 1 ... nZMW
`NúmeroDeAgujero, adaptadorIdx, código de barras idx, puntuación`
El adaptadorIdx es el índice del adaptador a lo largo de la molécula, es decir, adapterIdx 1 es el
primer adaptador marcado.
Adiciones a los comparar HDF5 (cmp.h5) Archive
Además del archivo hdf5 de código de barras, una llamada a etiquetaAlineaciones anotará un cmp.h5
expediente. Esta anotación se almacena de forma coherente con el formato de archivo cmp.h5.
En concreto, un nuevo grupo:
/ BarcodeInfo /
ID (nBarcodeLabels + 1, 1) [entero de 32 bits]
Nombre (nBarcodeLabels + 1, 1) [cadena de longitud variable]
Además del grupo / BarcodeInfo /, el conjunto de datos clave que asigna alineaciones a
los códigos de barras se encuentran en:
/ AlnInfo / Barcode (nAlignments, 3) [entero de 32 bits] con las siguientes columnas:
index, count, bestIndex, bestScore, secondBestIndex, secondBestScore
Aquí el índice se refiere al índice en el Nombre vector, la puntuación corresponde a la suma del
puntajes para los códigos de barras y, finalmente, el recuento se refiere al número de adaptadores que se encuentran en el
molécula.
Diciembre 2015 CÓDIGO DE BARRAS PBB(1)
Use pbbarcode en línea usando los servicios de onworks.net