Este es el comando Ray que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
Ray: ensambla genomas en paralelo utilizando la interfaz de paso de mensajes
SINOPSIS
mpiexec -n NUMBER_OF_RANKS rayo -k KMER LONGITUD -p l1_1.fastq l1_2.fastq -p l2_1.fastq
l2_2.fastq -o test
mpiexec -n NUMBER_OF_RANKS Ray Ray.conf # con comandos en un archivo
DESCRIPCIÓN:
El ensamblador del genoma de Ray se basa en RayPlatform, un complemento genérico
motor de cómputo distribuido y paralelo que utiliza la interfaz de paso de mensajes para
pasando mensajes.
Ray apunta a varias aplicaciones:
- ensamblaje de novo del genoma (con Ray vanilla) - ensamblaje de novo del metagenoma (con
Ray Meta) - ensamblaje de transcriptoma de novo (funciona, pero no se probó mucho) -
cuantificación de abundancias de contig - cuantificación de consorcios de microbiomas
miembros (con Comunidades de Ray) - cuantificación de la expresión de la transcripción - taxonomía
perfilado de muestras (con Ray Communities) - perfilado de muestras de ontología genética
(con Ray Ontologies)
-ayuda
Muestra esta página de ayuda.
-versión
Muestra la versión de Ray y las opciones de compilación.
Usando un archivo de configuración
Ray se puede lanzar con mpiexec -n 16 Ray Ray.conf El archivo de configuración puede
incluir comentarios (comenzando con #).
Longitud de K-mer
-k kmerLongitud
Selecciona la longitud de k-mers. El valor predeterminado es 21. Debe ser extraño porque
Los vértices de complemento inverso se almacenan juntos. La longitud máxima se define en
compilación por MAXKMERLENGTH Los k-mers más grandes utilizan más memoria.
Ingresos
-p archivo de secuencia izquierda archivo de secuencia derecha [desviación estándar de la distancia externa promedio]
Proporciona dos archivos que contienen lecturas de pares. averageOuterDistance y
La desviación estándar se calcula automáticamente si no se proporciona.
-i interleavedSequenceFile [desviación estándar de distancia exterior promedio]
Proporciona un archivo que contiene lecturas de extremo emparejado intercaladas. averageOuterDistance
y la desviación estándar se calculan automáticamente si no se proporcionan.
-s archivo de secuencia
Proporciona un archivo que contiene lecturas de un solo extremo.
Recursos
-o directorio de salida
Especifica el directorio para los archivos generados. El valor predeterminado es RayOutput
Opciones de ensamblaje (los valores predeterminados funcionan bien)
-deshabilitar-reciclaje
Deshabilita el reciclaje de lecturas durante el montaje. Las lecturas se liberarán en 3 casos: 1.
la distancia no coincide para un par 2. la lectura no ha encontrado su pareja 3. la
la población de la biblioteca indica una ubicación incorrecta, consulte Recorrido restringido de repeticiones
con secuencias emparejadas. Sebastien Boisvert, Elenie Godzaridis y Francois Laviolette
Y Jacques Corbeil. Primer taller anual sobre satélites RECOMB sobre paralelo masivo
Secuenciación, 26-27 de marzo de 2011, Vancouver, BC, Canadá.
-deshabilitado-andamio
Desactiva el andamio.
-longitud-mínima-contig longitudContigmínima
Cambia la longitud mínima del contig, el valor predeterminado es 100 nucleótidos
-espacio de color
Se ejecuta en el espacio de color. Necesita archivos csfasta. Se activa automáticamente si archivos csfasta
están provistos.
-utilizar-cobertura-máxima-de-semillas profundidad máxima de cobertura de semillas
Ignora cualquier semilla con una profundidad de cobertura por encima de este umbral. El valor predeterminado es
4294967295.
-utilizar-cobertura-mínima-de-semillas mínimaSeedCoverageDepth
Establece la profundidad mínima de cobertura de semillas. Cualquier camino con una profundidad de cobertura inferior a
esto será descartado. El valor predeterminado es 0.
Motor de almacenamiento distribuido (todos estos valores son para cada rango de MPI)
-bits-de-filtro-de-flores los bits
Establece el número de bits para el filtro Bloom El valor predeterminado es 268435456 bits, 0 bits
desactiva el filtro Bloom.
-cubos-de-mesa-de-chatarra cubos
Establece el número inicial de depósitos. ¡Debe ser una potencia de 2! Valor por defecto:
268435456
-Tabla-hash-cubos-por-grupo cubos
Establece el número de depósitos por grupo para almacenamiento disperso Valor predeterminado: 64, debe ser
entre> = 1 y <= 64
-Tabla-hash-factor-de-carga-umbral umbral
Establece el umbral del factor de carga para el cambio de tamaño en tiempo real Valor predeterminado: 0.75, debe ser
> = 0.5 y <1
-verbosidad-tabla hash
Activa la verbosidad para el motor de almacenamiento distribuido
Abundancias biológicas
-buscar buscarDirectorio
Proporciona un directorio que contiene archivos fasta para realizar búsquedas en el gráfico de Bruijn.
Las abundancias biológicas se escribirán en RayOutput / BiologicalAbundances Ver
Documentation / BiologicalAbundances.txt
-un color-por-archivo
Establece un color por archivo en lugar de uno por secuencia. Por defecto, cada secuencia en
cada archivo tiene un color diferente. Para archivos con un gran número de secuencias, utilice
un solo color por archivo puede ser más eficiente.
Perfiles taxonómicos con gráficos coloreados de Bruijn
-con-taxonomía Genoma-a-Taxón.tsv TreeOfLife-Edges.tsv Taxon-Names.tsv
Proporciona una taxonomía. Calcula y escribe perfiles taxonómicos detallados. Ver
Documentation / Taxonomy.txt para obtener más detalles.
-ontología de genes OntologíaTérminos.txt
Anotaciones.txt
Proporciona una ontología y anotaciones. OntologyTerms.txt se obtiene de
http://geneontology.org Annotations.txt es un archivo de 2 columnas (EMBL_CDS maneja y
identificador de ontología genética) Ver Documentation / GeneOntology.txt
Otras salidas
-habilitar-vecindarios
Calcula vecindades contig en el archivo de salida del gráfico de Bruijn:
RayOutput / NeighbourhoodRelations.txt
-amos
Escribe el archivo AMOS llamado RayOutput / AMOS.afg Un archivo AMOS contiene posiciones de lectura
en contigs. Se puede abrir con software con interfaz gráfica de usuario.
-escribe-kmers
Escribe el gráfico k-mer en RayOutput / kmers.txt El archivo resultante no es utilizado por
Rayo. El archivo resultante es muy grande.
-escribir-leer-marcadores
Escribe marcadores de lectura en el disco.
-escribir-semillas
Escribe secuencias de ADN semilla en RayOutput / Rank .RaySeeds.fasta
-escribir-extensiones
Escribe secuencias de ADN de extensión en RayOutput / Rank .RayExtensions.fasta
-escribir-contig-rutas
Escribe rutas contig con valores de cobertura en RayOutput / Rank .RayContigPaths.txt
-escribir-marcador-resumen
Escribe estadísticas de marcadores.
Uso de memoria
-mostrar-uso-de-memoria
Muestra el uso de la memoria. Los datos se obtienen de / proc en GNU / Linux Necesita __linux__
-mostrar-asignaciones-de-memoria
Muestra eventos de asignación de memoria
Verbosidad del algoritmo
-mostrar-extensión-elección
Muestra la elección realizada (con otras opciones) durante la extensión.
-mostrar-contexto-final
Muestra el contexto final de cada extensión. Muestra los hijos del vértice donde
la extensión fue demasiado difícil.
-mostrar-resumen-distancia
Muestra un resumen de las distancias exteriores utilizadas para una ruta de extensión.
-mostrar-consenso
Muestra el consenso cuando se hace una elección.
Punto de control
-escribir-puntos de control punto de controlDirectorio
Escribir archivos de puntos de control
-puntos de control de lectura punto de controlDirectorio
Leer archivos de puntos de control
-puntos de control de lectura-escritura punto de controlDirectorio
Leer y escribir archivos de puntos de control
Enrutamiento de mensajes para una gran cantidad de núcleos
-mensajes-de-ruta
Habilita el enrutador de mensajes Ray. Desactivado por defecto. Los mensajes se enrutarán
en consecuencia, de modo que cualquier rango pueda comunicarse directamente con unos pocos otros.
Sin -mensajes-de-ruta, cualquier rango puede comunicarse directamente con cualquier otro rango.
Archivos generados: Routing / Connections.txt, Routing / Routes.txt y
Routing / RelayEvents.txt y Routing / Summary.txt
-tipo de conección tipo
Establece el tipo de conexión para las rutas. Los valores aceptados son debruijn, hypercube,
politopo, grupo, aleatorio, kautz y completo. El valor predeterminado es debruijn.
debruijn: un gráfico de Bruijn completo un alfabeto dado y un diámetro hipercubo: un
hipercubo, el alfabeto es {0,1} y los vértices son una potencia de 2 politopo: un convexo
politopo regular, el alfabeto es {0,1, ..., B-1} y los vértices son una potencia del grupo B:
modelo tonto donde un representante por grupo puede comunicarse con forasteros
aleatorio: modelo Erdos-Renyi kautz: un gráfico de Kautz completo, que es un subgráfico de un
Gráfico de Bruijn completo: un gráfico completo con todas las conexiones posibles
Con el tipo debruijn, el número de rangos debe ser un poder de algo.
Ejemplos: 256 = 16 * 16, 512 = 8 * 8 * 8, 49 = 7 * 7, etc. De lo contrario, no use debruijn
enrutamiento pero use otro Con el tipo kautz, el número de rangos n debe ser
n = (k + 1) * k ^ (d-1) para algunos k y d
-enrutamiento-grafo-grado la licenciatura
Especifica el grado de salida del gráfico de enrutamiento. Ver Documentation / Routing.txt
Pruebas de hardware
-test-red-solo
Prueba la red y regresa.
-escribir-datos-sin-procesar-de-prueba-de-red
Escribe un archivo adicional por rango que detalla la prueba de red.
-intercambios NúmeroDeIntercambios
Establece el número de intercambios
-deshabilitar-prueba-de-red
Omite la prueba de red.
Depuración
-verificar-la-integridad-del-mensaje
Comprueba la fiabilidad de los datos del mensaje para cualquier mensaje que no esté vacío. agregar '-D CONFIG_SSE_4_2'
en el Makefile para usar la instrucción de hardware (SSE 4.2)
-ejecutar perfilador
Ejecuta el generador de perfiles a medida que se ejecuta el código. De forma predeterminada, solo muestra advertencias de granularidad.
La ejecución del generador de perfiles aumenta los tiempos de ejecución.
-con-detalles-del-perfilador
Muestra el número de mensajes enviados y recibidos en cada método durante en cada tiempo
rodajas (épocas). Necesidades -ejecutar perfilador.
-mostrar-comunicacion-eventos
Muestra todos los mensajes enviados y recibidos.
-mostrar-leer-colocar
Muestra la ubicación de lectura en el gráfico durante la extensión.
-burbujas-depuradoras
Depura el código de burbuja. Las burbujas pueden deberse a sitios heterocigotos o errores de secuenciación
u otros eventos (desconocidos)
-semillas-depuradoras
Depura el código semilla. Las semillas son caminos en el gráfico que probablemente sean únicos.
-fusiones-depuradoras
Depura el código de fusión.
-debug-andamio
Depura el andamio.
ARCHIVOS
Archivos de entrada
Nota: el formato de archivo se determina con la extensión del archivo.
.fasta .fasta.gz (necesita HAVE_LIBZ = y en la compilación) .fasta.bz2 (necesita HAVE_LIBBZ2 = y
en la compilación) .fastq .fastq.gz (necesita HAVE_LIBZ = y en la compilación) .fastq.bz2
(necesita HAVE_LIBBZ2 = y en la compilación) .sff (las lecturas emparejadas deben extraerse manualmente)
.csfasta (lecturas de espacio de color)
Archivos generados
Andamios
RayOutput / Scaffolds.fasta
Las secuencias de andamios en formato FASTA
RayOutput / ScaffoldComponents.txt
Los componentes de cada andamio
RayOutput / ScaffoldLengths.txt
La longitud de cada andamio
RayOutput / ScaffoldLinks.txt
Enlaces de andamios
cóntigos
RayOutput / Contigs.fasta
Secuencias contiguas en formato FASTA
RayOutput / ContigLengths.txt
Las longitudes de secuencias contiguas
Resum
RayOutput / OutputNumbers.txt
Números totales para la asamblea
gráfico de Bruijn
RayOutput / CoverageDistribution.txt
La distribución de los valores de cobertura
RayOutput / CoverageDistributionAnalysis.txt
Análisis de la distribución de la cobertura
RayOutput / degreeDistribution.txt
Distribución de titulaciones entrantes y salientes
RayOutput / kmers.txt
gráfico k-mer, opción requerida: -escribe-kmers
Ray no utiliza el archivo resultante. El archivo resultante es muy grande.
pasos de montaje
RayOutput / SeedLengthDistribution.txt
Distribución de la longitud de la semilla
RayOutput / Rango .OptimalReadMarkers.txt
Leer marcadores.
RayOutput / Rango .RaySeeds.fasta
Secuencias de ADN de semillas, opción requerida: -escribir-semillas
RayOutput / Rango .RayExtensions.fasta
Secuencias de extensión de ADN, opción requerida: -escribir-extensiones
RayOutput / Rango .RayContigPaths.txt
Contig rutas con valores de cobertura, opción requerida: -escribir-contig-rutas
Lecturas emparejadas
RayOutput / LibraryStatistics.txt
Estimación de distancias exteriores para lecturas emparejadas
RayOutput / Biblioteca .TXT
Frecuencias para distancias externas observadas (tamaño de inserción + longitudes de lectura)
tabique
RayOutput / NumberOfSequences.txt
Número de lecturas en cada archivo
RayOutput / SequencePartition.txt
Partición de secuencia
Software de rayos
RayOutput / RayVersion.txt
La versión de Ray
RayOutput / RayCommand.txt
El mismo comando exacto proporcionado
AMOS
RayOutput / AMOS.afg
Representación de ensamblaje en formato AMOS, opción requerida: -amos
Comunicación
RayOutput / MessagePassingInterface.txt
Número de mensajes enviados
RayOutput / NetworkTest.txt
Latencias en microsegundos
RayOutput / Rango NetworkTestData.txt
Datos brutos de prueba de red
DOCUMENTACIÓN
- mpiexec -n 1 rayo -ayuda| menos (siempre actualizado): esta página de ayuda (siempre
actualizado) - El directorio Documentación / - Manual (formato de documento portátil):
InstructionManual.tex (en Documentación) - Archivos de lista de correo:
http://sourceforge.net/mailarchive/forum.php? forum_name = denovoassembler-users
AUTOR
Escrito por Sebastien Boisvert.
INFORMAR ERRORES
Informar errores a denovoassembler-users@lists.sourceforge.net Página Principal:
<http://denovoassembler.sourceforge.net/>
DERECHOS DE AUTOR
Este programa es software gratuito: puedes redistribuirlo y / o modificarlo bajo la
términos de la Licencia Pública General GNU según lo publicado por el Software Libre
Foundation, versión 3 de la Licencia.
Este programa se distribuye con la esperanza de que sea útil, pero SIN NINGUNA
GARANTÍA; incluso sin la garantía implícita de COMERCIABILIDAD o APTITUD PARA UN
PROPÓSITO PARTICULAR. Consulte la Licencia pública general GNU para obtener más detalles.
Ha recibido una copia de la Licencia Pública General GNU junto con este programa.
(ver LICENCIA).
Ray 2.1.0
Licencia para Ray: Licencia pública general GNU versión 3 Versión de RayPlatform: Licencia 1.1.0
para RayPlatform: GNU Lesser General Public License versión 3
MAXKMERLENGTH: 32 KMER_U64_ARRAY_SIZE: 1 Profundidad máxima de cobertura almacenada por CoverageDepth:
4294967295 MAXIMUM_MESSAGE_SIZE_IN_BYTES: 4000 bytes FORCE_PACKING = n ASSERT = n
TENER_LIBZ = y TENER_LIBBZ2 = y CONFIG_PROFILER_COLLECT = n CONFIG_CLOCK_GETTIME = n
__linux__ = y _MSC_VER = n __GNUC__ = y RAY_32_BITS = n RAY_64_BITS = y estándar MPI
versión: MPI 2.1 Biblioteca MPI: Open-MPI 1.4.2 Compilador: GNU gcc / g ++ 4.4.5
Utilice Ray en línea utilizando los servicios de onworks.net