Este é o comando cmsearch que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
cmsearch - pesquisa modelo (s) de covariância em relação a um banco de dados de sequência
SINOPSE
cmsearch [opções]
DESCRIÇÃO
cmsearch é usado para pesquisar um ou mais modelos de covariância (CMs) contra uma sequência
base de dados. Para cada CM em , use essa consulta CM para pesquisar o banco de dados de destino de
sequências em , e produzir listas classificadas das sequências com as mais significativas
corresponde ao CM. Para construir CMs a partir de alinhamentos múltiplos, consulte cmconstruir.
A pergunta deve ter sido calibrado para valores E com cmcalibrar. Como um especial
exceção, quaisquer modelos em que têm pares de base zero não precisam ser calibrados. Para
nesses modelos, algoritmos de pesquisa de perfil HMM serão usados em vez de CM, conforme discutido
mais abaixo.
A pergunta pode ser '-' (um caractere de traço), caso em que a entrada do CM de consulta será
ler de um tubo em vez de um arquivo. o pode não ser '-' porque o
a implementação atual precisa ser capaz de retroceder o banco de dados, o que não é possível com
stdin entrada.
O formato de saída é projetado para ser legível por humanos, mas muitas vezes é tão volumoso que
lê-lo é impraticável e analisá-lo é uma dor. o --tbout opção salva a saída em um
formato tabular simples que é conciso e fácil de analisar. o -o opção permite
redirecionar a saída principal, incluindo descartá-la em / dev / null.
cmsearch reexamina os terminais 5 'e 3' das sequências alvo usando algoritmos especializados
para detecção de truncado acertos, em que parte do 5 'e / ou 3' termina do total real
a sequência homóloga de comprimento está faltando no arquivo de sequência de destino. Esses tipos de hits
será mais comum em arquivos de sequência que consistem em leituras de sequência não montadas. Por
padrão, qualquer hit truncado 5 'é necessário para incluir o primeiro resíduo do alvo
seqüência que deriva em , e qualquer hit truncado 3 'é necessário para incluir o
resíduo final da sequência alvo da qual deriva. Qualquer hit truncado de 5 'e 3' deve
incluem o primeiro e o último resíduo da sequência alvo da qual deriva. o --anytrunc
opção irá relaxar os requisitos para inclusão de pontos de extremidade de sequência e truncada
os hits podem começar e parar em qualquer posição das sequências alvo. Importante
embora, com --anytrunc, os valores E de acerto serão menos precisos porque a calibração do modelo
não considere a possibilidade de ocorrências truncadas, portanto, use-o com cuidado. o --notrunc
A opção pode ser usada para desligar a detecção de acertos truncados. --notrunc irá reduzir a corrida
tempo de cmpesquisa, mais significativamente para o alvo arquivos que incluem muitos curtos
sequências.
A detecção de acertos truncados é automaticamente desligada quando o --máximo, --nohmm, --qdb, or
- sem faixas opções são usadas porque depende do uso de um HMM acelerado
estratégia de alinhamento desativada por qualquer uma dessas opções.
OPÇÕES
-h Ajuda; imprimir um breve lembrete do uso da linha de comando e todas as opções disponíveis.
-g Ligar o glocal algoritmo de alinhamento, global em relação ao modelo de consulta e
local em relação ao banco de dados de destino. Por padrão, o alinhamento local
algoritmo é usado que é local em relação à sequência alvo e ao
modelo. No modo local, o alinhamento deve abranger duas ou mais subsequências, se necessário
(por exemplo, se as estruturas do modelo de consulta e sequência de destino são apenas parcialmente
compartilhado), permitindo que certas grandes inserções e exclusões na estrutura sejam
penalizado de forma diferente do que os indels normais. O modo local tem melhor desempenho empírico
benchmarks e é significativamente mais sensível para detecção de homologia remota.
Empiricamente, as pesquisas glocal retornam muito menos resultados do que as pesquisas locais, então
pode ser desejado para alguns aplicativos. Com -g, todos os modelos devem ser calibrados, mesmo
aqueles com pares de base zero.
-Z Calcule os valores-E como se o tamanho do espaço de busca fosse megabases (Mb). Sem o
uso desta opção, o tamanho do espaço de pesquisa é definido como o número total de
nucleotídeos em vezes 2, porque ambas as fitas de cada sequência alvo irão
ser pesquisado.
--devhelp
Ajuda de impressão, como com -h , mas também inclui opções de especialistas que não são exibidas
com -h . Não se espera que essas opções de especialistas sejam relevantes para o vasto
maioria dos usuários e, portanto, não são descritos na página do manual. Os únicos recursos
para entender o que eles realmente fazem são as breves descrições de uma linha
quando --devhelp está habilitado, e o código-fonte.
OPÇÕES PARA CONTROLANDO SAÍDA
-o Direcione a principal saída legível para um arquivo em vez do stdout padrão.
-A Salve um alinhamento múltiplo de todos os acertos significativos (aqueles que satisfaçam inclusão
limiares) para o arquivo .
--tbout
Salve um arquivo tabular simples (delimitado por espaço) resumindo os resultados encontrados, com um
linha de dados por acerto. O formato deste arquivo é descrito no guia do usuário Infernal.
--acc Use acessos em vez de nomes na saída principal, quando disponível para perfis
e / ou sequências.
--noali
Omita a seção de alinhamento da saída principal. Isso pode reduzir bastante a produção
volume.
--notextw
Ilimite o comprimento de cada linha na saída principal. O padrão é um limite de 120
caracteres por linha, o que ajuda a exibir a saída limpa em terminais e
nos editores, mas pode truncar as linhas de descrição do perfil de destino.
--texto
Defina o limite de comprimento da linha da saída principal para caracteres por linha. O padrão é
120.
--verbose
Incluir estatísticas extras de pipeline de pesquisa na saída principal, incluindo filtro
estatísticas de sobrevivência para detecção de acerto truncado e número de envelopes descartados
devido a estouros de tamanho da matriz.
OPÇÕES CONTROLANDO RELATÓRIOS LIMIARES
Os limites de relatório controlam quais ocorrências são relatadas nos arquivos de saída (a saída principal e
--tbloout) Os acertos são classificados por significância estatística (valor E). Por padrão, todos os hits
com um valor E <= 10 são relatados. As seguintes opções permitem que você altere o padrão
Limites de relatório de valor E, ou para usar limites de pontuação de bits em seu lugar.
-E Na saída por destino, relatar sequências de destino com um valor E de <= . A
o padrão é 10.0, o que significa que, em média, cerca de 10 falsos positivos serão relatados
por consulta, para que você possa ver o topo do ruído e decidir por si mesmo se é
muito barulho.
-T Em vez de limitar a saída por CM no valor E, relatar as sequências alvo com um
pontuação de bits de> = .
OPÇÕES PARA INCLUSÃO LIMIARES
Os limites de inclusão são mais rígidos do que os limites de relatório. Controle de limites de inclusão
quais hits são considerados confiáveis o suficiente para serem incluídos em um alinhamento de saída ou
em uma possível rodada de pesquisa subsequente, ou marcada como significativa ("!") em oposição a
questionável ("?") na saída do hit.
--incE
Use um valor E de <= como o limite de inclusão de acertos. O padrão é 0.01,
o que significa que, em média, cerca de 1 falso positivo seria esperado em cada 100
pesquisas com sequências de consulta diferentes.
--incT
Em vez de usar valores E para definir o limite de inclusão, use um pouco
pontuação de> = como o limite de inclusão de acertos. Por padrão, essa opção não está definida.
OPÇÕES PARA ESPECÍFICO DE MODELO PONTO LIMIANDO
Bancos de dados de CM selecionados podem definir limites de pontuação de bits específicos para cada CM, substituindo qualquer
limiar com base apenas na significância estatística.
Para usar essas opções, o perfil deve conter o apropriado (GA, TC e / ou NC)
anotação opcional de limite de pontuação; isso é pego por cmconstruir do formato de Estocolmo
arquivos de alinhamento. Cada opção de limite tem uma pontuação de bits, e age como se -T
--incT foi aplicado especificamente usando os limites selecionados de cada modelo.
--cut_ga
Use as pontuações de bits GA (coleta) no modelo para definir relatórios de acertos e inclusão
limiares. Os limites de GA são geralmente considerados como curadores confiáveis
limites que definem a filiação familiar; por exemplo, em Rfam, esses limites
definir o que é incluído no Rfam Alinhamentos completos com base em pesquisas com Rfam Seed
.
--cut_nc
Use os limites de pontuação de bits NC (corte de ruído) no modelo para definir o relatório de acerto
e limites de inclusão. Limiares NC são geralmente considerados como a pontuação de
o falso positivo conhecido de maior pontuação.
--cut_tc
Use os limites de pontuação de bits TC (corte confiável) no modelo para definir o relatório de acerto
e limites de inclusão. Os limites do TC geralmente são considerados como a pontuação de
o menor verdadeiro positivo conhecido que é, acima de todos os falsos positivos conhecidos.
OPÇÕES CONTROLANDO A ACELERAÇÃO TUBULAÇÃO
As pesquisas Infernal 1.1 são aceleradas em um pipeline de filtro de seis estágios. Os primeiros cinco
estágios usam um perfil HMM para definir envelopes que são passados para o estágio seis CM CYK
filtro. Quaisquer envelopes que sobrevivam a todos os filtros recebem pontuações finais usando o CM
Algoritmo interno. (Consulte o guia do usuário para obter mais informações.)
O filtro HMM do perfil é construído pelo cmconstruir programa e é armazenado em .
Cada filtro sucessivo é mais lento do que o anterior, mas melhor do que em
discriminar entre subsequências que podem conter ocorrências de CM de alta pontuação e aquelas que contêm
não. Os primeiros três estágios do filtro HMM são iguais aos usados no HMMER3. Estágio 1 (F1)
é o filtro HMM SSV local modificado para sequências longas. Estágio 2 (F2) é o HMM local
Filtro Viterbi. O estágio 3 (F3) é o filtro HMM Forward local. Cada um dos três primeiros
estágios usa o perfil HMM no modo local, o que permite que uma subsequência alvo se alinhe com
qualquer região do HMM. O estágio 4 (F4) é um filtro HMM glocal, que requer um alvo
subsequência para alinhar ao perfil de comprimento total HMM. Estágio 5 (F5) é o HMM glocal
filtro de definição de envelope, que usa heursíticas de identificação de domínio do HMMER3 para definir
limites do envelope. Após cada estágio de 2 a 5, uma etapa de filtro de polarização (F2b, F3b, F4b e
F5b) é usado para remover sequências que parecem ter passado no filtro devido ao enviesamento
composição sozinho. Quaisquer envelopes que sobrevivam aos estágios F1 a F5b são então passados com
o filtro CM CYK local. O filtro CYK usa restrições (bandas) derivadas de um HMM
alinhamento do envelope para reduzir o número de cálculos necessários e economizar tempo.
Quaisquer envelopes que passam CYK são pontuados com o algoritmo CM Inside local, novamente usando HMM
bandas para aceleração.
Os limites de filtro padrão que definem a pontuação mínima necessária para uma subsequência para
sobreviver a cada estágio são definidos com base no tamanho do banco de dados em (ou o tamanho
em megabases (Mb) especificado pelo -Z or --FZ opções). Para bancos de dados maiores,
os filtros são mais rígidos, levando a mais aceleração, mas potencialmente a uma maior perda de
sensibilidade. O raciocínio é que, para bancos de dados maiores, as ocorrências devem ter pontuações mais altas para
alcançar significância estatística, uma filtragem mais rigorosa que remove a pontuação mais baixa
acertos insignificantes são aceitáveis.
Os limites de valor P para todos os tamanhos de espaço de pesquisa possíveis e todos os estágios de filtro são
listado a seguir. (Um limite de valor P de 0.01 significa que cerca de 1% da pontuação mais alta
espera-se que subsequência não homóloga passe no filtro.) Z é definido como o número de
nucleotídeos no arquivo de sequência alvo completo vezes 2 porque ambas as fitas serão
pesquisado com cada modelo.
Se Z for menor que 2 Mb: F1 é 0.35; F2 e F2b estão desligados; F3, F3b, F4, F4b e F5 são 0.02;
F6 é 0.0001.
Se Z estiver entre 2 Mb e 20 Mb: F1 é 0.35; F2 e F2b estão desligados; F3, F3b, F4, F4b e F5
são 0.005; F6 é 0.0001.
Se Z estiver entre 20 Mb e 200 Mb: F1 é 0.35; F2 e F2b são 0.15; F3, F3b, F4, F4b e F5
são 0.003; F6 é 0.0001.
Se Z estiver entre 200 Mb e 2 Gb: F1 é 0.15; F2 e F2b são 0.15; F3, F3b, F4, F4b, F5,
e F5b são 0.0008; e F6 é 0.0001.
Se Z estiver entre 2 Gb e 20 Gb: F1 é 0.15; F2 e F2b são 0.15; F3, F3b, F4, F4b, F5 e
F5b são 0.0002; e F6 é 0.0001.
Se Z for maior que 20 Gb: F1 é 0.06; F2 e F2b são 0.02; F3, F3b, F4, F4b, F5 e F5b
são 0.0002; e F6 é 0.0001.
Esses limites foram escolhidos com base no desempenho em um benchmark interno que testa muitos
diferentes configurações possíveis.
Existem cinco opções para controlar o nível de filtragem geral. Essas opções são, em
ordenar do menos estrito (mais lento, mas mais sensível) para o mais estrito (mais rápido, mas menos
confidencial): --máximo, --nohmm, --meio, --predefinição, (Esta é a configuração padrão), --rfam. e
--hmm apenas. Com --predefinição os limites do filtro serão dependentes do tamanho do banco de dados. Veja o
explicação de cada uma dessas opções individuais abaixo para obter mais informações.
Além disso, um usuário especialista pode controlar com precisão cada limite de pontuação do estágio de filtro com
da --F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b, e --F6 opções. Como
bem como ativar ou desativar cada estágio com o --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5, e --noF6. opções. Essas opções são exibidas apenas
se o --devhelp opção é usada para manter o número de opções exibidas com -h
razoável e porque se espera que sejam úteis apenas para uma pequena minoria de usuários.
Como um caso especial, para qualquer modelo em que têm pares de base zero, perfil HMM
as pesquisas são executadas em vez das pesquisas CM. Algoritmos HMM são mais eficientes do que CM
algoritmos, e o benefício dos algoritmos CM é perdido para modelos sem secundário
estrutura (pares de base zero). Essas pesquisas de HMM de perfil serão executadas significativamente mais rápido do que
o CM procura. Você pode forçar pesquisas apenas HMM com o --hummmente opção. Para mais
informações sobre pesquisas apenas HMM, consulte a descrição do --hummmente opção abaixo, e
o guia do usuário.
--máx. Desligue todos os filtros e execute o Inside sem faixas em todos os alvos de comprimento total
seqüência. Isso aumenta um pouco a sensibilidade, a um custo extremamente alto em velocidade.
--nohmm
Desligue todos os estágios do filtro HMM (F1 a F5b). O filtro CYK, usando QDBs, irá
será executado em cada sequência alvo de comprimento total e aplicará um limite de valor P de
0.0001. Cada subsequência que sobrevive ao CYK será passada para o Interior, que
também usa QDBs (mas um conjunto mais flexível). Isso aumenta a sensibilidade um pouco, em muito
grande custo em velocidade.
--meio Desligue os estágios de filtro HMM SSV e Viterbi (F1 a F2b). Definir o HMM restante
limites de filtro (F3 a F5b) para 0.02 por padrão, mas podem ser alterados para com
--Fmid seqüência. Isso pode aumentar a sensibilidade, com um custo significativo na velocidade.
--predefinição
Use a estratégia de filtragem padrão. Essa opção está ativada por padrão. O filtro
os limites são determinados com base no tamanho do banco de dados.
--rfam Use uma estratégia de filtragem rígida desenvolvida para grandes bancos de dados (mais de 20 Gb). Esse
irá acelerar a pesquisa com um custo potencial para a sensibilidade. Não terá
efeito se o banco de dados for maior que 20 Gb.
--hummmente
Use apenas o perfil de filtro HMM para pesquisas, não use o CM. Apenas filtro
estágios F1 a F3 serão executados, usando limites estritos de valor P (0.02 para
F1, 0.001 para F2 e 0.00001 para F3). Além disso, um filtro de composição de polarização é
usado após o estágio F1 (com P = 0.02 limiar de sobrevivência). Qualquer golpe que sobrevive
todos os estágios e tem um valor HMM E ou pontuação de bits acima do limite de relatório
ser saída. O usuário pode alterar os limites e opções de filtro somente HMM com
--hmmF1, --hmmF2, --hmmF3, --hmmnobias, --hmmnonull2, e --hmmmax. Por padrão, o
as pesquisas por qualquer modelo com zero pares de base serão executadas no modo somente HMM. Isso pode
ser desligado, forçando pesquisas de CM para esses modelos com o --nohmmonly opção.
Essas opções são exibidas apenas se o --devhelp opção é usada.
--FZ
Defina os limites do filtro como os padrões usados se o banco de dados fosse megabases (Mb).
Se usado com maior que 20000 (20 Gb), esta opção tem o mesmo efeito que
--rfam.
--Fmid
Com o --meio opção definir os limites do filtro HMM (F3 a F5b) para . By
padrão é 0.02.
OUTROS OPÇÕES
--notrunc
Desative a detecção de acertos truncados.
--anytrunc
Permita que ocorrências truncadas comecem e terminem em qualquer posição em uma sequência de destino. Por
padrão, hits truncados de 5 'devem incluir o primeiro resíduo de sua sequência de destino
e acertos truncados 3 'devem incluir o resíduo final de sua sequência de destino. Com
esta opção, você pode observar menos ocorrências de comprimento total que se estendem até o início e
fim da consulta CM.
--nonnull3
Desligue as correções de pontuação CM nulo3 para composição enviesada. Esta correção é
não usado durante os estágios do filtro HMM.
--mxsize
Defina o tamanho máximo permitido da matriz CM DP para megabytes. Por padrão, este tamanho
é 128 Mb. Deve ser grande o suficiente para a grande maioria das pesquisas,
especialmente com modelos menores. Se cmsearch encontra um envelope no CYK ou
Dentro do estágio que requer uma matriz maior, o envelope será descontado de
consideração. Este comportamento é como um filtro adicional que evita
(lento) cálculos CM DP, mas a um custo potencial de sensibilidade. Observe que se
cmsearch está sendo executado em vários threads em uma máquina multicore, em seguida, cada
thread pode ter uma matriz alocada de até tamanho Mb a qualquer momento.
--smxsize
Defina o tamanho de matriz DP de pesquisa CM máximo permitido para megabytes. Por padrão
esse tamanho é 128 Mb. Esta opção só é relevante se o CM não usar HMM
matrizes em faixas, ou seja, se o --máximo, --nohmm, --qdb, --fqdb, - sem faixas, or
--fsem bandas opções também são usadas. Observe que se cmsearch está sendo executado em
vários threads em uma máquina com vários núcleos, então cada thread pode ter um
matriz de até tamanho Mb a qualquer momento.
--cyk Use o algoritmo CYK, não interno, para determinar a pontuação final de todos os acertos.
--acyk Use o algoritmo CYK para alinhar acertos. Por padrão, a precisão ideal de Durbin / Holmes
algoritmo é usado, que encontra o alinhamento que maximiza a precisão esperada
de todos os resíduos alinhados.
--wcx
Para cada CM, defina o parâmetro W, o comprimento máximo esperado de um hit, para
vezes o comprimento de consenso do modelo. Por padrão, o parâmetro W é lido de
o arquivo CM e foi calculado com base nas probabilidades de transição do modelo
by cmconstruir. Você pode descobrir qual é o W padrão para um modelo usando cmstat. Este
opção deve ser usada com cuidado, pois afeta o pipeline de filtragem em vários
diferentes estágios de maneiras não óbvias. É recomendado apenas para usuários experientes
procurando por hits que são muito mais longos do que qualquer um dos homólogos usados para construir o
modelo em cmconstruir, por exemplo, aqueles com íntrons grandes ou outras inserções grandes. Esse
opção não pode ser usada em combinação com o --nohmm, --fqdb or --qdb opções
porque, nesses casos, W é limitado por bandas dependentes de consulta.
--apenas top
Pesquise apenas a fita superior (Watson) das sequências alvo em . Por padrão, o
ambas as vertentes são pesquisadas. Isso reduzirá pela metade o tamanho do banco de dados (Z).
--inferior
Pesquise apenas a fita inferior (Crick) das sequências alvo em . Por padrão, o
ambas as vertentes são pesquisadas. Isso reduzirá pela metade o tamanho do banco de dados (Z).
--tformato
Assegure que o arquivo de banco de dados de sequência de destino está em formato . Formatos aceitos
incluir rápido, emblema, Genbank, dbj, Estocolmo, pfam, a2m, afa, cluster, e philip
O padrão é detectar automaticamente o formato do arquivo.
--CPU
Defina o número de threads de trabalho paralelos para . Por padrão, Infernal define este
para o número de núcleos de CPU que detecta em sua máquina - ou seja, ele tenta
maximizar o uso de seus núcleos de processador disponíveis. Configuração maior que o
número de núcleos disponíveis é de pouco ou nenhum valor, mas você pode querer configurá-lo para
algo menos. Você também pode controlar esse número definindo um ambiente
variável, INFERNAL_NCPU. Esta opção só está disponível se Infernal foi compilado
com suporte a threads POSIX. Este é o padrão, mas pode ter sido desligado em
tempo de compilação para seu site ou máquina por algum motivo.
--parar
Para depurar a versão MPI master / worker: pause after start, para habilitar o
desenvolvedor para anexar depuradores aos processos mestre e de trabalho em execução. Mandar
Sinal SIGCONT para liberar a pausa. (Em gdb: (gdb) sinal SIGCONT) (Somente
disponível se o suporte MPI opcional foi habilitado no tempo de compilação.)
--mpi Executar no modo mestre / trabalhador MPI, usando mpirun. Para utilizar o --mpi, o arquivo de sequência deve
foram primeiro 'indexados' usando o esl-sfetch programa, que está incluído com
Infernal, no cavalete / miniapps / subdiretório. (Disponível apenas se MPI opcional
o suporte foi habilitado em tempo de compilação.)
Use cmsearch online usando serviços onworks.net