Este es el comando nhmmer que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
nhmmer: búsqueda de consultas de ADN / ARN en una base de datos de secuencias de ADN / ARN
SINOPSIS
mmmmm [opciones]
DESCRIPCIÓN
mmmmm se utiliza para buscar una o más consultas de nucleótidos frente a una secuencia de nucleótidos
base de datos. Para cada consulta en , use esa consulta para buscar en la base de datos de destino de
secuencias en y generar una lista clasificada de los resultados con los resultados más significativos.
coincide con la consulta. Una consulta puede ser un modelo de perfil creado con hmmconstruir,
alineación de secuencia, o una sola secuencia. Las consultas basadas en secuencia pueden estar en varios
formatos (ver --qformato) y normalmente se pueden detectar automáticamente. Tenga en cuenta que solo Estocolmo
El formato admite consultas compuestas por más de una alineación de secuencia.
O la consulta o el objetivo puede ser '-' (un carácter de guión), en el que
caso de que el archivo de consulta o la entrada de la base de datos de destino se lea desde un tubería en lugar de
desde un archivo. Solo puede pasar una fuente de entrada , no ambos. Si la consulta es
basado en secuencia y pasado a través de , los --qformato se debe utilizar la bandera. Si el
contiene más de una consulta, entonces no puede venir de , porque
no podemos rebobinar la base de datos de destino de transmisión para buscarla con otro perfil.
Si la consulta está basada en secuencia y no desde , un nuevo archivo que contiene los HMM
construido a partir de la entrada (s) en opcionalmente se puede producir, con el nombre de archivo establecido
usando el --hmmout bandera.
El formato de salida está diseñado para ser legible por humanos, pero a menudo es tan voluminoso que
leerlo no es práctico y analizarlo es un fastidio. los --tblout La opción guarda la salida en un
formato tabular simple que es conciso y más fácil de analizar. los -o la opción permite
redirigir la salida principal, incluido tirarla en / dev / null.
OPCIONES
-h Ayudar; imprima un breve recordatorio del uso de la línea de comandos y todas las opciones disponibles.
OPCIONES PARA CONTROLADOR SALIDA
-o Dirija la salida principal legible por humanos a un archivo en lugar de la salida estándar predeterminada.
-A Guarde una alineación múltiple de todos los impactos significativos (aquellos que satisfacen inclusión
thresholds) al archivo .
--tblout
Guarde un archivo tabular simple (delimitado por espacios) que resuma la salida por destino,
con una línea de datos por secuencia diana homóloga encontrada.
--dfamtblout
Guarde un archivo tabular (delimitado por espacios) que resuma la salida por hit, similar a
--tblout pero más sucinto.
--aliscoresout
Guardar para archivar una lista de puntuaciones por posición para cada acierto. Esto es útil para
ejemplo, en la identificación de regiones de alta densidad de puntuación para su uso en la resolución
hits superpuestos de diferentes modelos.
--hmmout
Si está basado en secuencia, escriba los HMM calculados internamente en .
--cuenta Utilice accesiones en lugar de nombres en la salida principal, cuando estén disponibles para los perfiles.
y / o secuencias.
--noali
Omita la sección de alineación de la salida principal. Esto puede reducir en gran medida la salida
volumen.
--notexto
Ilimite la longitud de cada línea en la salida principal. El valor predeterminado es un límite de 120
caracteres por línea, lo que ayuda a mostrar la salida de forma limpia en los terminales y
en los editores, pero puede truncar las líneas de descripción del perfil de destino.
--texto
Establezca el límite de longitud de línea de la salida principal en caracteres por línea. El valor predeterminado es
120.
OPCIONES CONTROLADOR PRESENTACIÓN DE INFORMES UMBRALES
Los umbrales de informe controlan qué hits se informan en los archivos de salida (la salida principal,
--tblouty --dfamtblout). Los aciertos se clasifican por significancia estadística (valor E).
-E Informe las secuencias de destino con un valor E de <= . El valor predeterminado es 10.0, lo que significa
que, en promedio, se informarán aproximadamente 10 falsos positivos por consulta, por lo que puede
vea la parte superior del ruido y decida por sí mismo si es realmente ruido.
-T En lugar de establecer un umbral de salida en el valor E, informe las secuencias de destino con un
puntuación de bits de> = .
OPCIONES PARA INCLUSIÓN UMBRALES
Los umbrales de inclusión son más estrictos que los umbrales de notificación. Control de umbrales de inclusión
qué hits se consideran lo suficientemente fiables para ser incluidos en una alineación de salida o un
ronda de búsqueda posterior, o marcada como significativa ("!") en lugar de cuestionable ("?")
en la salida de hits.
--incE
Utilice un valor E de <= como umbral de inclusión. El valor predeterminado es 0.01, lo que significa
que, en promedio, se esperaría aproximadamente 1 falso positivo en cada 100 búsquedas
con diferentes secuencias de consultas.
--incT
En lugar de utilizar valores E para establecer el umbral de inclusión, utilice una puntuación de bits de
>= como umbral de inclusión. De forma predeterminada, esta opción no está configurada.
OPCIONES PARA MODELO ESPECÍFICO SCORE UMBRAL
Las bases de datos de perfiles seleccionados pueden definir umbrales de puntuación de bits específicos para cada perfil,
reemplazando cualquier umbral basado únicamente en la significación estadística.
Para utilizar estas opciones, el perfil debe contener el correspondiente (GA, TC y / o NC)
anotación de umbral de puntuación opcional; esto es recogido por hmmconstruir desde el formato de Estocolmo
archivos de alineación. Para un modelo de nucleótidos, cada opción de umbral tiene un solo golpe por golpe
umbral Esto actúa como si -T --incT se ha aplicado específicamente utilizando cada
umbrales seleccionados del modelo.
--cut_ga
Utilice el umbral de puntuación de bits GA (recopilación) en el modelo para establecer informes por hit
y umbrales de inclusión. Los umbrales de GA generalmente se consideran los confiables
umbrales seleccionados que definen la pertenencia a la familia; por ejemplo, en Dfam, estos
Los umbrales se aplican al anotar un genoma con un modelo de una familia conocida por
encontrarse en ese organismo. Pueden permitir un mínimo descubrimiento falso esperado
tarifa.
--cut_nc
Utilice el umbral de puntuación de bits NC (corte de ruido) en el modelo para establecer informes por impacto
y umbrales de inclusión. Los umbrales NC son menos estrictos que GA; en el contexto
de Pfam, generalmente se utilizan para almacenar la puntuación de la puntuación más alta conocida
falso positivo.
--cut_tc
Utilice el umbral de puntuación de bits NC (límite de confianza) en el modelo para establecer por golpe
umbrales de presentación de informes e inclusión. Los umbrales de TC son más estrictos que los de GA, y
se consideran generalmente como la puntuación de los verdaderos positivos conocidos con la puntuación más baja.
que son sobre todo falsos positivos conocidos; por ejemplo, en Dfam, estos umbrales son
aplicado al anotar un genoma con un modelo de una familia que no se sabe que se encuentre en
ese organismo.
OPCIONES CONTROLADOR EL ACELERACIÓN TUBERÍA
Las búsquedas de HMMER3 se aceleran en una tubería de filtro de tres pasos: el filtro de escaneo-SSV,
el filtro Viterbi y el filtro Forward. El primer filtro es el más rápido y el más
aproximado; el último es el algoritmo de puntuación Forward completo. También hay un filtro de sesgo
paso entre SSV y Viterbi. Objetivos que superan todos los pasos del proceso de aceleración
luego se someten a posprocesamiento: identificación de dominio y puntuación utilizando el
Algoritmo de avance / retroceso.
Cambiar los umbrales de filtro solo elimina o incluye los objetivos de la consideración; cambiando
Los umbrales de filtro no altera las puntuaciones de bits, los valores E o las alineaciones, todos los cuales son
determinado únicamente en el posprocesamiento.
--máx Apague (casi) todos los filtros, incluido el filtro de polarización, y ejecute el
Postprocesamiento hacia adelante / hacia atrás en la mayor parte de la secuencia objetivo. En contraste con
phmmer y hmmbúsqueda, donde esta bandera realmente apaga los filtros por completo,
los --máx bandera en mmmmm establece el umbral del filtro SSV de exploración en 0.4, no en 1.0.
El uso de esta bandera aumenta un poco la sensibilidad, a un alto costo de velocidad.
--F1
Establezca el umbral del valor P para el paso del filtro SSV. El valor predeterminado es 0.02, lo que significa
que aproximadamente el 2% de los objetivos no homólogos con la puntuación más alta se espera que aprueben
el filtro.
--F2
Establezca el umbral del valor P para el paso del filtro de Viterbi. El valor predeterminado es 0.001.
--F3
Establezca el umbral del valor P para el paso del filtro hacia adelante. El valor predeterminado es 1e-5.
--nobias
Apague el filtro de polarización. Esto aumenta un poco la sensibilidad, pero puede
alto costo en velocidad, especialmente si la consulta tiene una composición de residuos sesgada (como
una región de secuencia repetitiva, o si es una proteína de membrana con grandes regiones de
hidrofobicidad). Sin el filtro de polarización, demasiadas secuencias pueden pasar el filtro
con consultas sesgadas, lo que lleva a un rendimiento más lento de lo esperado ya que el
algoritmos de avance / retroceso computacionalmente intensivos soportan un peso anormalmente pesado
cargar.
OPCIONES PARA ESPECIFICANDO EL ALFABETO
El tipo de alfabeto de la base de datos de destino (ADN o ARN) se detecta automáticamente de forma predeterminada, por
mirando la composición de la . La autodetección es normalmente bastante confiable, pero
ocasionalmente, el tipo de alfabeto puede ser ambiguo y la autodetección puede fallar (por ejemplo, cuando
la primera secuencia comienza con una serie de caracteres ambiguos). Para evitar esto, o para
aumentar la robustez en las tuberías de análisis automatizado, puede especificar el tipo de alfabeto de
con estas opciones.
- adn Especifique que todas las secuencias en son ADN.
--rna Especifique que todas las secuencias en son ARN.
OPCIONES CONTROLADOR SEMILLA BUSCAR HEURÍSTICO
Al buscar con mmmmm, opcionalmente se puede calcular previamente una versión binaria del objetivo
base de datos, usando hacerhmmerdb, luego busque en esa base de datos. Usando la configuración predeterminada,
esto produce una aceleración de aproximadamente 10 veces con una pequeña pérdida de sensibilidad en los puntos de referencia.
Esto se logra mediante un método heurístico que busca semillas (alineaciones sin huecos)
alrededor del cual se realiza el procesamiento completo. Esto es esencialmente un reemplazo de la etapa SSV.
(Este método ha sido ampliamente probado, pero aún debe tratarse como algo
experimental.) Las siguientes opciones solo afectan mmmmm si el valor de --formato is
hmmerdb.
Cambiar los parámetros para este paso de búsqueda de semillas afectará tanto a la velocidad como a la sensibilidad:
Por lo general, una búsqueda más rápida conduce a una menor sensibilidad.
--seed_max_profundidad
El paso de semilla requiere que una semilla alcance una puntuación de bits específica en la longitud ya no
than . De forma predeterminada, este valor es 15. Las semillas más largas permiten una mayor probabilidad de
alcanzar el umbral de puntuación de bits, lo que conduce a una disminución del filtrado (mayor
sensibilidad, tiempo de ejecución más lento).
--seed_sc_thresh
La semilla debe alcanzar puntaje (en bits). El valor predeterminado es 15.0 bits. Una mayor
El umbral aumenta la rigurosidad del filtrado, lo que conduce a tiempos de ejecución más rápidos y
sensibilidad.
--seed_sc_density
Todos los prefijos o todos los sufijos de una semilla deben tener densidad de bits (bits por
posición alineada) de al menos . El valor predeterminado es 0.8 bits / posición. Un aumento
en el requisito de densidad conduce a una mayor rigurosidad de filtrado, por lo tanto, una ejecución más rápida
tiempos y menor sensibilidad.
--seed_drop_max_len
Una semilla puede no tener una racha de longitud en el que la puntuación cae --seed_drop_lim
o más. Básicamente, esto poda las semillas que atraviesan semillas largas ligeramente negativas.
extensiones. El valor predeterminado es 4. Aumentar el límite provoca una disminución (levemente)
eficiencia de filtrado, por lo tanto, tiempos de ejecución más lentos y mayor sensibilidad. (afinación menor
opción)
--seed_drop_lim
En una semilla, puede que no haya una corrida de longitud --seed_drop_max_len en el que la partitura
cae por --seed_drop_lim. El valor predeterminado es 0.3 bits. Números más grandes significan menos
filtración. (opción de sintonización menor)
--seed_req_pos
Una semilla debe contener una corrida de al menos partidos con puntuación positiva. El valor predeterminado es
5. Los valores más altos significan un mayor filtrado. (opción de sintonización menor)
--seed_ssv_longitud
Después de encontrar una semilla corta, se extiende una alineación sin espacios en ambas direcciones en
un intento de cumplir con el --F1 umbral de puntuación. La ventana a través de la cual esto se abrió
la alineación se extiende es la longitud . El valor predeterminado es 70. Disminuir este valor
reduce ligeramente el tiempo de ejecución, con un pequeño riesgo de reducción de la sensibilidad. (afinación menor
opción)
OTROS OPCIONES
--formato
Afirmar que el archivo de la base de datos de la secuencia de destino está en formato . Formatos aceptados
incluir rápido, emblema, banco de gen, ddbj, uniprot, Estocolmo, pfam, a2m, afay
hmmerfm. El valor predeterminado es detectar automáticamente el formato del archivo. El formato hmmerfm
indica que el archivo de la base de datos es un archivo binario producido utilizando hacerhmmerdb (esta
el formato no se detecta automáticamente).
--qformato
Declare que la entrada está en formato . Esto se usa cuando la consulta
se basa en secuencias, en lugar de estar compuesto por modelos de perfil. Actualmente el aceptado
múltiples formatos de archivo de secuencia de alineación incluyen Stockholm, Aligned FASTA, Clustal,
NCBI PSI-BLAST, PHYLIP, Selex y UCSC SAM A2M. El valor predeterminado es autodetectar el
formato del archivo.
--no nulo2
Desactive las correcciones de puntuación nula2 para composición sesgada.
-Z A los efectos de los cálculos del valor E por impacto, afirme que el tamaño total del
la base de datos de destino es millones de nucleótidos, en lugar del número real de
objetivos vistos.
--semilla
Establezca la semilla de número aleatorio en . Algunos pasos del posprocesamiento requieren Monte
Simulación de Carlo. El valor predeterminado es utilizar una semilla fija (42), por lo que los resultados son
exactamente reproducible. Cualquier otro entero positivo dará diferente (pero también
reproducibles) resultados. Una opción de 0 utiliza una semilla elegida al azar.
--w_beta
Masa de la cola de la longitud de la ventana. El límite superior W, en la longitud a la que nhmmer espera
para encontrar una instancia del modelo se establece de manera que la fracción de todas las secuencias
generado por el modelo con longitud >= W es menor que . El valor predeterminado es 1e-7.
Esta bandera se puede utilizar para anular el valor de W establecido para el modelo por
hmmconstruiro cuando la consulta se basa en secuencias.
--w_longitud
Anular el límite superior de la longitud de la instancia del modelo, W, que de otro modo está controlado por
--w_beta. Debe ser mayor que la longitud del modelo. El valor de W se usa profundo
en la tubería de aceleración, y no se espera que cambios modestos afecten los resultados
(aunque valores mayores de W conducen a un tiempo de ejecución más largo). Esta bandera se puede utilizar para
anular el valor de W establecido para el modelo por hmmconstruir, o cuando la consulta es
basado en secuencia.
--sólo arriba
Busque solo el hilo superior. De forma predeterminada, tanto la secuencia de consulta como su
se buscan complemento.
--solo el fondo
Busque solo la hebra inferior (complemento inverso). Por defecto tanto la consulta
Se buscan la secuencia y su complemento inverso.
--UPC
Establezca el número de subprocesos de trabajo en paralelo en . De forma predeterminada, HMMER establece esto en
la cantidad de núcleos de CPU que detecta en su máquina, es decir, intenta maximizar
el uso de sus núcleos de procesador disponibles. Configuración mayor que el número de
los núcleos disponibles tienen poco valor, si es que lo tienen, pero es posible que desee establecerlo en algo
menos. También puede controlar este número configurando una variable de entorno,
HMMER_NCPU.
Esta opción solo está disponible si HMMER se compiló con soporte para subprocesos POSIX.
Este es el valor predeterminado, pero es posible que se haya desactivado en tiempo de compilación para su sitio.
o máquina por alguna razón.
--puesto
Para depurar la versión MPI master / worker: pause después del inicio, para habilitar la
desarrollador para adjuntar depuradores a los procesos maestro y trabajador en ejecución. Enviar
Señal SIGCONT para liberar la pausa. (Bajo gdb: (BGF) señal SEÑAL) (Solamente
disponible si se habilitó la compatibilidad con MPI opcional en tiempo de compilación).
--mpi Ejecutar en modo maestro / trabajador MPI, usando mpirún. (Solo disponible si MPI opcional
el soporte estaba habilitado en tiempo de compilación).
Utilice nhmmer en línea utilizando los servicios de onworks.net