seqprep - Online en la nube

Este es el comando seqprep que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


preparación secundaria - fusionar pares de lecturas finales de Illumina

SeqPrep es un programa para fusionar las lecturas de Illumina finales emparejadas que se superponen en una sola
leer más. También se puede usar para su función de recorte de adaptador sin hacer ningún
superposición de extremos emparejados.

USO


preparación secundaria Requisitos args [opciones]

Requerido Argumentos:


-F
-r
-1
-2

General Argumentos (Opcional):


-3
-4
-h Muestra este mensaje de ayuda y sale (también funciona sin argumentos)
-6 La secuencia de entrada está en formato phred + 64 en lugar de phred + 33, la salida seguirá siendo phred + 33
-q
-L

Argumentos for Adaptador / Primer Guarnición (Opcional):


-A
(debe validar mediante grepping de un archivo); predeterminado (adaptador genómico no multiplexado1) = AGATCGGAAGAGCGGTTCAG>
-B
(debería validar mediante grepping de un archivo); predeterminado (adaptador genómico no multiplexado2) = AGATCGGAAGAGCGTCGTGT>
-O
-METRO
-NORTE
-B
-Q
-t
-mi
-Z
-w
-W
-pag
-PAG
-X

Opcional Argumentos for Fusión:


-y
-gramo- SIN IMPLEMENTAR
-s
-MI
-X
-o
-metro
-norte

NOTA 1: La salida siempre está comprimida con gziped.

NOTA 2: Si las cadenas de calidad en la salida contienen caracteres menores que asciii 33 en un
tabla ascii (parecen líneas de un archivo binario), intente ejecutar de nuevo con o sin
la opción -6.

CONFIGURACIÓN


Cuando una secuencia de adaptador está presente, eso significa que las dos lecturas deben superponerse (en la mayoría
casos) por lo que se fusionan a la fuerza. Cuando las lecturas no tienen secuencia de adaptador, deben
tratados con cuidado al realizar la fusión, por lo que se adopta un enfoque mucho más específico. los
Los parámetros predeterminados se eligieron teniendo en cuenta la especificidad, de modo que pudieran ejecutarse en
bibliotecas donde se espera que se superpongan muy pocas lecturas. Sin embargo, siempre es más seguro ahorrar
el procedimiento de superposición para bibliotecas donde tiene algún conocimiento previo de que un
gran parte de las lecturas se superpondrán.

Antes de ejecutar SeqPrep, asegúrese de comprobar que los valores predeterminados del programa sean
adaptadores que busca. Intente copiar el adaptador de reenvío predeterminado de este archivo y
grep contra sus lecturas haciendo un recuento de palabras, también intente lo mismo con el adaptador inverso
con grep. Deberías ver algunos éxitos. También puede intentar usar (y validar con grep) -A
GATCGGAAAGAGCACACG -B AGATCGGAAGAGCGTCGT como parámetros. Para encontrar una lista de adaptadores de Illumina
secuencias que debe escribir al soporte técnico de Illumina Soporte técnico@illumina.com (ellos no
les gusta que las personas compartan la lista de secuencias fuera de su institución).

Elija aproximadamente 20 pb de una secuencia de adaptador donde:

1. Ves la mayor cantidad de visitas con grep.

2. Cuando ejecuta un comando como zcat Carril2_0d_2.fastq.gz | cabeza -n 1000000 | grep "INSERTAR
ADAPTADOR AQUÍ" | cabeza ves que la secuencia del adaptador se muestra al comienzo de algunas
lee. Además, los argumentos -A y -B deben ser como aparecen en sus datos, SeqPrep
busca directamente estas secuencias sin hacer un complemento inverso

3. Verifique el avance y retroceso y asegúrese de tener aproximadamente el mismo número de
hits a través de un comando para contar hits como: zcat Carril2_0d_2.fastq.gz | cabeza -n 1000000
| grep "INSERTAR ADAPTADOR AQUÍ" | wc -l Como precaución adicional, el programa comprueba
para una buena superposición de lectura una vez que se recortan los adaptadores. Si el adaptador está recortado y el
las lecturas no tienen una superposición de adaptador razonable (puede modificar esta configuración con -X)
entonces las lecturas no se imprimen ni se fusionan.

Consulte Test / README.md para obtener información sobre cómo probar otros parámetros. Test / SimTest tiene
algunos datos de prueba particularmente interesantes que puede usar para verificar la sensibilidad y
especificidad del recorte del adaptador utilizando diferentes parámetros. Los resultados de la prueba son
que se muestra en results.html, que utiliza la API de gráficos de Google para que los puntos se
interactivo y puede determinar fácilmente qué ajustes hicieron qué puntos.

ALINEACIONES DE BAJA COMPLEJIDAD

Mi estrategia actual para lidiar con alineaciones ambiguas en regiones de baja complejidad es la siguiente
manera:

Tengo algunos requisitos mínimos para que se acepte una superposición después de la primera
encontrado (es decir, el que tiene la máxima superposición entre las dos secuencias), si es de baja complejidad
el filtrado está habilitado, sigo buscando si se encuentra un segundo hit viable, me rindo y digo
que no es una buena idea fusionar las dos lecturas. Verifico alineaciones ambiguas en
leer superpuestos, pero no en el recorte del adaptador, donde lo más conservador es
Quite el adaptador alineado más agresivamente (el más cercano al comienzo de la lectura).

Para aceptar una alineación, permito alguna fracción de desajustes (actualmente el piso de 0.06 de
la longitud de alineación para el adaptador y 0.02 de la longitud de alineación para dos lecturas). Ese
significa que, en la mayoría de los casos, para la superposición de dos lecturas no permito ningún desajuste entre
lecturas adyacentes, pero si hay una superposición potencial de 50 pb con 1 desajuste en q20 para
ejemplo, lo permito. Cualquier cosa por debajo de 50 debe ser perfecta, excepto con baja calidad.
bases

Dado que ignoramos las bases de mala calidad, podríamos tener el caso en el que una única coincidencia real
seguido de una larga cadena de bases de mala calidad hasta el final de la lectura daría como resultado una
llamado superposición. Eso parecía una mala idea. Para evitar eso, necesito que al menos
alguna fracción de la longitud superpuesta debe coincidir. Ahora mismo tengo ese parámetro establecido en
0.7 para el recorte del adaptador y 0.75 para la fusión de lectura, por lo que para un caso en el que solo los últimos 10
las bases se superponen, al menos 7 de ellas deben coincidir.

Dado que hacer tantas multiplicaciones de punto flotante parece una mala idea, solo tengo una
tabla que precalcula todas esas coincidencias mínimas y números máximos de discordancia para cada
longitud de superposición hasta la longitud de lectura máxima permitida.

Finalmente, tengo un parámetro que puede establecer que especifica una longitud mínima de lectura resultante
después de recortar y / o fusionar el adaptador para que no se emitan lecturas recortadas ultra cortas.

A continuación se muestran los resultados de las pruebas manuales de los tres casos principales de fusión. Ahora para generar
salida similar automáticamente solo proporcione el argumento -E readable_alignment.txt.gz al
programa (la salida se comprime con gzip en el nombre de archivo especificado).

Secuencia ir No adaptador Presente:


PREGUNTA: NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACACAGCCTGTCTCTGCTGGTGCCTGGGCCTC
|| |||||||||||| || | ||||||||||||||||||||||||||||||||
ASUNTO: TGTGTGTTGGGCAGATGCGGGGGGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTTG
RESU: NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTTG
Fusión de calidad:
QUER: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@?@@89887:::::.2125@@:@@:::::@@@@@<<::8@@@@@
SUBJ: !!!!!!!!!!!!!!!!!!!!!!!!!!! @@@ 8DEGE @ EDDBB2 D8 @ DBE> BFIDH @ IIEEIIBEIEIIGBIIGIFII
RESU:! 223387787 @@@ CCC22C @@@@@@@@@@@@@@@@@@@@@@@@@@? @@ 89887 :::::. QPQLSSSSSSSSSSSQSSSSSSSSSSSSSSD8 @ DBE> BFIDH @ IIEEIIBEIEIIGBIIGIFII

Secuencia ir adaptador Regalo, Fácil Peezy Moda (mismo longitudes):


ASUNTO: NGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
|| |||||||||||||||||||||||||||||||||
QUER: GGATATGATTCCCAATCTTAAGCAAACTGTCATGGAAAC
RESU: GGATATGATTCCCAATCTTAAGCAAACTGTCATGGAAAC
Fusión de calidad:
SUBJ:! .- /. 53444 @@@@@@@@@@@@@@@@@@@@@@@@@
PREGUNTA: IHGIIIDIIHGEHIGHIFHIFIIIIHIIIIIIIIIHII
RESU: ISSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

Secuencia unir adaptador but longitudes diferir de:


ASUNTO: AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
||||||||||||||||||||||||||| ||||||||||||||||||||
PREGUNTA: AATTGATGGGTGCCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTA
RESU: AATTGATGGGTGCCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
Fusión de calidad:
SUBJ: =DEC??DDBD?4B=BEE@@@GB>GEE:DE8=2::6GDGBGEGDD<=;A?=AGGGG=5.=<BD?B?DDB>B4725:E>
QUER: GDDBBFBGGFBHFIEDGGGBDGGG
RESU: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSB4725: E>

Si está interesado hay un sitio web donde publico mis pruebas de diferentes parámetros para SeqPrep
en datos simulados. También hay algunas estadísticas de comparación de diferentes programas para recortar
adaptadores. Se puede acceder al sitio web aquí: http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/
donde las páginas se denominan resultado (fecha) .html. Los últimos (a partir de cuando he recibido
alrededor para editar esto) se puede encontrar aquí:

http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/results2011-09-15.html

Tenga en cuenta que aunque mi programa es más sensible y específico que fastq-clipper,
optimicé mis parámetros predeterminados basados ​​en esta prueba. Los resultados de los datos reales pueden ser diferentes,
aunque creo que mi método aprovecha un modelo de adaptador más realista que otros
el software lo hace. Por ejemplo, aunque mi programa requiere 10 pb de adaptador para estar presente
al final de una lectura para recortarla (por defecto) hay un recorte de adaptador de respaldo
función que recorta basándose en una superposición de lectura fuerte e inequívoca. Por esto mi
El programa puede recortar el adaptador incluso si solo está presente en las últimas bases de la lectura.

También tenga en cuenta que fastq-mcf parece funcionar un poco mejor en la sensibilidad (0.992 frente a 0.985) en
un coste muy elevado para la especificidad (0.497 frente a 0.994).

Utilice seqprep en línea utilizando los servicios de onworks.net



Últimos programas en línea de Linux y Windows