Ray: en línea en la nube

Este es el comando Ray que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


Ray: ensambla genomas en paralelo utilizando la interfaz de paso de mensajes

SINOPSIS


mpiexec -n NUMBER_OF_RANKS rayo -k KMER LONGITUD -p l1_1.fastq l1_2.fastq -p l2_1.fastq
l2_2.fastq -o test

mpiexec -n NUMBER_OF_RANKS Ray Ray.conf # con comandos en un archivo

DESCRIPCIÓN:


El ensamblador del genoma de Ray se basa en RayPlatform, un complemento genérico
motor de cómputo distribuido y paralelo que utiliza la interfaz de paso de mensajes para
pasando mensajes.

Ray apunta a varias aplicaciones:

- ensamblaje de novo del genoma (con Ray vanilla) - ensamblaje de novo del metagenoma (con
Ray Meta) - ensamblaje de transcriptoma de novo (funciona, pero no se probó mucho) -
cuantificación de abundancias de contig - cuantificación de consorcios de microbiomas
miembros (con Comunidades de Ray) - cuantificación de la expresión de la transcripción - taxonomía
perfilado de muestras (con Ray Communities) - perfilado de muestras de ontología genética
(con Ray Ontologies)

-ayuda

Muestra esta página de ayuda.

-versión

Muestra la versión de Ray y las opciones de compilación.

Usando un archivo de configuración

Ray se puede lanzar con mpiexec -n 16 Ray Ray.conf El archivo de configuración puede
incluir comentarios (comenzando con #).

Longitud de K-mer

-k kmerLongitud

Selecciona la longitud de k-mers. El valor predeterminado es 21. Debe ser extraño porque
Los vértices de complemento inverso se almacenan juntos. La longitud máxima se define en
compilación por MAXKMERLENGTH Los k-mers más grandes utilizan más memoria.

Ingresos

-p archivo de secuencia izquierda archivo de secuencia derecha [desviación estándar de la distancia externa promedio]

Proporciona dos archivos que contienen lecturas de pares. averageOuterDistance y
La desviación estándar se calcula automáticamente si no se proporciona.

-i interleavedSequenceFile [desviación estándar de distancia exterior promedio]

Proporciona un archivo que contiene lecturas de extremo emparejado intercaladas. averageOuterDistance
y la desviación estándar se calculan automáticamente si no se proporcionan.

-s archivo de secuencia

Proporciona un archivo que contiene lecturas de un solo extremo.

Recursos

-o directorio de salida

Especifica el directorio para los archivos generados. El valor predeterminado es RayOutput

Opciones de ensamblaje (los valores predeterminados funcionan bien)

-deshabilitar-reciclaje

Deshabilita el reciclaje de lecturas durante el montaje. Las lecturas se liberarán en 3 casos: 1.
la distancia no coincide para un par 2. la lectura no ha encontrado su pareja 3. la
la población de la biblioteca indica una ubicación incorrecta, consulte Recorrido restringido de repeticiones
con secuencias emparejadas. Sebastien Boisvert, Elenie Godzaridis y Francois Laviolette
Y Jacques Corbeil. Primer taller anual sobre satélites RECOMB sobre paralelo masivo
Secuenciación, 26-27 de marzo de 2011, Vancouver, BC, Canadá.

-deshabilitado-andamio

Desactiva el andamio.

-longitud-mínima-contig longitudContigmínima

Cambia la longitud mínima del contig, el valor predeterminado es 100 nucleótidos

-espacio de color

Se ejecuta en el espacio de color. Necesita archivos csfasta. Se activa automáticamente si archivos csfasta
están provistos.

-utilizar-cobertura-máxima-de-semillas profundidad máxima de cobertura de semillas

Ignora cualquier semilla con una profundidad de cobertura por encima de este umbral. El valor predeterminado es
4294967295.

-utilizar-cobertura-mínima-de-semillas mínimaSeedCoverageDepth

Establece la profundidad mínima de cobertura de semillas. Cualquier camino con una profundidad de cobertura inferior a
esto será descartado. El valor predeterminado es 0.

Motor de almacenamiento distribuido (todos estos valores son para cada rango de MPI)

-bits-de-filtro-de-flores los bits

Establece el número de bits para el filtro Bloom El valor predeterminado es 268435456 bits, 0 bits
desactiva el filtro Bloom.

-cubos-de-mesa-de-chatarra cubos

Establece el número inicial de depósitos. ¡Debe ser una potencia de 2! Valor por defecto:
268435456

-Tabla-hash-cubos-por-grupo cubos

Establece el número de depósitos por grupo para almacenamiento disperso Valor predeterminado: 64, debe ser
entre> = 1 y <= 64

-Tabla-hash-factor-de-carga-umbral umbral

Establece el umbral del factor de carga para el cambio de tamaño en tiempo real Valor predeterminado: 0.75, debe ser
> = 0.5 y <1

-verbosidad-tabla hash

Activa la verbosidad para el motor de almacenamiento distribuido

Abundancias biológicas

-buscar buscarDirectorio

Proporciona un directorio que contiene archivos fasta para realizar búsquedas en el gráfico de Bruijn.
Las abundancias biológicas se escribirán en RayOutput / BiologicalAbundances Ver
Documentation / BiologicalAbundances.txt

-un color-por-archivo

Establece un color por archivo en lugar de uno por secuencia. Por defecto, cada secuencia en
cada archivo tiene un color diferente. Para archivos con un gran número de secuencias, utilice
un solo color por archivo puede ser más eficiente.

Perfiles taxonómicos con gráficos coloreados de Bruijn

-con-taxonomía Genoma-a-Taxón.tsv TreeOfLife-Edges.tsv Taxon-Names.tsv

Proporciona una taxonomía. Calcula y escribe perfiles taxonómicos detallados. Ver
Documentation / Taxonomy.txt para obtener más detalles.

-ontología de genes OntologíaTérminos.txt
Anotaciones.txt

Proporciona una ontología y anotaciones. OntologyTerms.txt se obtiene de
http://geneontology.org Annotations.txt es un archivo de 2 columnas (EMBL_CDS maneja y
identificador de ontología genética) Ver Documentation / GeneOntology.txt

Otras salidas

-habilitar-vecindarios

Calcula vecindades contig en el archivo de salida del gráfico de Bruijn:
RayOutput / NeighbourhoodRelations.txt

-amos

Escribe el archivo AMOS llamado RayOutput / AMOS.afg Un archivo AMOS contiene posiciones de lectura
en contigs. Se puede abrir con software con interfaz gráfica de usuario.

-escribe-kmers

Escribe el gráfico k-mer en RayOutput / kmers.txt El archivo resultante no es utilizado por
Rayo. El archivo resultante es muy grande.

-escribir-leer-marcadores

Escribe marcadores de lectura en el disco.

-escribir-semillas

Escribe secuencias de ADN semilla en RayOutput / Rank .RaySeeds.fasta

-escribir-extensiones

Escribe secuencias de ADN de extensión en RayOutput / Rank .RayExtensions.fasta

-escribir-contig-rutas

Escribe rutas contig con valores de cobertura en RayOutput / Rank .RayContigPaths.txt

-escribir-marcador-resumen

Escribe estadísticas de marcadores.

Uso de memoria

-mostrar-uso-de-memoria

Muestra el uso de la memoria. Los datos se obtienen de / proc en GNU / Linux Necesita __linux__

-mostrar-asignaciones-de-memoria

Muestra eventos de asignación de memoria

Verbosidad del algoritmo

-mostrar-extensión-elección

Muestra la elección realizada (con otras opciones) durante la extensión.

-mostrar-contexto-final

Muestra el contexto final de cada extensión. Muestra los hijos del vértice donde
la extensión fue demasiado difícil.

-mostrar-resumen-distancia

Muestra un resumen de las distancias exteriores utilizadas para una ruta de extensión.

-mostrar-consenso

Muestra el consenso cuando se hace una elección.

Punto de control

-escribir-puntos de control punto de controlDirectorio

Escribir archivos de puntos de control

-puntos de control de lectura punto de controlDirectorio

Leer archivos de puntos de control

-puntos de control de lectura-escritura punto de controlDirectorio

Leer y escribir archivos de puntos de control

Enrutamiento de mensajes para una gran cantidad de núcleos

-mensajes-de-ruta

Habilita el enrutador de mensajes Ray. Desactivado por defecto. Los mensajes se enrutarán
en consecuencia, de modo que cualquier rango pueda comunicarse directamente con unos pocos otros.
Sin -mensajes-de-ruta, cualquier rango puede comunicarse directamente con cualquier otro rango.
Archivos generados: Routing / Connections.txt, Routing / Routes.txt y
Routing / RelayEvents.txt y Routing / Summary.txt

-tipo de conección tipo

Establece el tipo de conexión para las rutas. Los valores aceptados son debruijn, hypercube,
politopo, grupo, aleatorio, kautz y completo. El valor predeterminado es debruijn.

debruijn: un gráfico de Bruijn completo un alfabeto dado y un diámetro hipercubo: un
hipercubo, el alfabeto es {0,1} y los vértices son una potencia de 2 politopo: un convexo
politopo regular, el alfabeto es {0,1, ..., B-1} y los vértices son una potencia del grupo B:
modelo tonto donde un representante por grupo puede comunicarse con forasteros
aleatorio: modelo Erdos-Renyi kautz: un gráfico de Kautz completo, que es un subgráfico de un
Gráfico de Bruijn completo: un gráfico completo con todas las conexiones posibles

Con el tipo debruijn, el número de rangos debe ser un poder de algo.
Ejemplos: 256 = 16 * 16, 512 = 8 * 8 * 8, 49 = 7 * 7, etc. De lo contrario, no use debruijn
enrutamiento pero use otro Con el tipo kautz, el número de rangos n debe ser
n = (k + 1) * k ^ (d-1) para algunos k y d

-enrutamiento-grafo-grado la licenciatura

Especifica el grado de salida del gráfico de enrutamiento. Ver Documentation / Routing.txt

Pruebas de hardware

-test-red-solo

Prueba la red y regresa.

-escribir-datos-sin-procesar-de-prueba-de-red

Escribe un archivo adicional por rango que detalla la prueba de red.

-intercambios NúmeroDeIntercambios

Establece el número de intercambios

-deshabilitar-prueba-de-red

Omite la prueba de red.

Depuración

-verificar-la-integridad-del-mensaje

Comprueba la fiabilidad de los datos del mensaje para cualquier mensaje que no esté vacío. agregar '-D CONFIG_SSE_4_2'
en el Makefile para usar la instrucción de hardware (SSE 4.2)

-ejecutar perfilador

Ejecuta el generador de perfiles a medida que se ejecuta el código. De forma predeterminada, solo muestra advertencias de granularidad.
La ejecución del generador de perfiles aumenta los tiempos de ejecución.

-con-detalles-del-perfilador

Muestra el número de mensajes enviados y recibidos en cada método durante en cada tiempo
rodajas (épocas). Necesidades -ejecutar perfilador.

-mostrar-comunicacion-eventos

Muestra todos los mensajes enviados y recibidos.

-mostrar-leer-colocar

Muestra la ubicación de lectura en el gráfico durante la extensión.

-burbujas-depuradoras

Depura el código de burbuja. Las burbujas pueden deberse a sitios heterocigotos o errores de secuenciación
u otros eventos (desconocidos)

-semillas-depuradoras

Depura el código semilla. Las semillas son caminos en el gráfico que probablemente sean únicos.

-fusiones-depuradoras

Depura el código de fusión.

-debug-andamio

Depura el andamio.

ARCHIVOS

Archivos de entrada

Nota: el formato de archivo se determina con la extensión del archivo.

.fasta .fasta.gz (necesita HAVE_LIBZ = y en la compilación) .fasta.bz2 (necesita HAVE_LIBBZ2 = y
en la compilación) .fastq .fastq.gz (necesita HAVE_LIBZ = y en la compilación) .fastq.bz2
(necesita HAVE_LIBBZ2 = y en la compilación) .sff (las lecturas emparejadas deben extraerse manualmente)
.csfasta (lecturas de espacio de color)

Archivos generados

Andamios

RayOutput / Scaffolds.fasta

Las secuencias de andamios en formato FASTA

RayOutput / ScaffoldComponents.txt

Los componentes de cada andamio

RayOutput / ScaffoldLengths.txt

La longitud de cada andamio

RayOutput / ScaffoldLinks.txt

Enlaces de andamios

cóntigos

RayOutput / Contigs.fasta

Secuencias contiguas en formato FASTA

RayOutput / ContigLengths.txt

Las longitudes de secuencias contiguas

Resum

RayOutput / OutputNumbers.txt

Números totales para la asamblea

gráfico de Bruijn

RayOutput / CoverageDistribution.txt

La distribución de los valores de cobertura

RayOutput / CoverageDistributionAnalysis.txt

Análisis de la distribución de la cobertura

RayOutput / degreeDistribution.txt

Distribución de titulaciones entrantes y salientes

RayOutput / kmers.txt

gráfico k-mer, opción requerida: -escribe-kmers

Ray no utiliza el archivo resultante. El archivo resultante es muy grande.

pasos de montaje

RayOutput / SeedLengthDistribution.txt

Distribución de la longitud de la semilla

RayOutput / Rango .OptimalReadMarkers.txt

Leer marcadores.

RayOutput / Rango .RaySeeds.fasta

Secuencias de ADN de semillas, opción requerida: -escribir-semillas

RayOutput / Rango .RayExtensions.fasta

Secuencias de extensión de ADN, opción requerida: -escribir-extensiones

RayOutput / Rango .RayContigPaths.txt

Contig rutas con valores de cobertura, opción requerida: -escribir-contig-rutas

Lecturas emparejadas

RayOutput / LibraryStatistics.txt

Estimación de distancias exteriores para lecturas emparejadas

RayOutput / Biblioteca .TXT

Frecuencias para distancias externas observadas (tamaño de inserción + longitudes de lectura)

tabique

RayOutput / NumberOfSequences.txt

Número de lecturas en cada archivo

RayOutput / SequencePartition.txt

Partición de secuencia

Software de rayos

RayOutput / RayVersion.txt

La versión de Ray

RayOutput / RayCommand.txt

El mismo comando exacto proporcionado

AMOS

RayOutput / AMOS.afg

Representación de ensamblaje en formato AMOS, opción requerida: -amos

Comunicación

RayOutput / MessagePassingInterface.txt

Número de mensajes enviados

RayOutput / NetworkTest.txt

Latencias en microsegundos

RayOutput / Rango NetworkTestData.txt

Datos brutos de prueba de red

DOCUMENTACIÓN

- mpiexec -n 1 rayo -ayuda| menos (siempre actualizado): esta página de ayuda (siempre
actualizado) - El directorio Documentación / - Manual (formato de documento portátil):
InstructionManual.tex (en Documentación) - Archivos de lista de correo:
http://sourceforge.net/mailarchive/forum.php? forum_name = denovoassembler-users

AUTOR

Escrito por Sebastien Boisvert.

INFORMAR ERRORES

Informar errores a denovoassembler-users@lists.sourceforge.net Página Principal:
<http://denovoassembler.sourceforge.net/>

DERECHOS DE AUTOR

Este programa es software gratuito: puedes redistribuirlo y / o modificarlo bajo la
términos de la Licencia Pública General GNU según lo publicado por el Software Libre
Foundation, versión 3 de la Licencia.

Este programa se distribuye con la esperanza de que sea útil, pero SIN NINGUNA
GARANTÍA; incluso sin la garantía implícita de COMERCIABILIDAD o APTITUD PARA UN
PROPÓSITO PARTICULAR. Consulte la Licencia pública general GNU para obtener más detalles.

Ha recibido una copia de la Licencia Pública General GNU junto con este programa.
(ver LICENCIA).

Ray 2.1.0

Licencia para Ray: Licencia pública general GNU versión 3 Versión de RayPlatform: Licencia 1.1.0
para RayPlatform: GNU Lesser General Public License versión 3

MAXKMERLENGTH: 32 KMER_U64_ARRAY_SIZE: 1 Profundidad máxima de cobertura almacenada por CoverageDepth:
4294967295 MAXIMUM_MESSAGE_SIZE_IN_BYTES: 4000 bytes FORCE_PACKING = n ASSERT = n
TENER_LIBZ = y TENER_LIBBZ2 = y CONFIG_PROFILER_COLLECT = n CONFIG_CLOCK_GETTIME = n
__linux__ = y _MSC_VER = n __GNUC__ = y RAY_32_BITS = n RAY_64_BITS = y estándar MPI
versión: MPI 2.1 Biblioteca MPI: Open-MPI 1.4.2 Compilador: GNU gcc / g ++ 4.4.5

Utilice Ray en línea utilizando los servicios de onworks.net



Últimos programas en línea de Linux y Windows