Este é o comando cdhit-est-2d que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online Windows ou emulador online MAC OS
PROGRAMA:
NOME
cdhit-est-2d - executa o algoritmo CD-HIT em sequências de RNA / DNA no formato db1 ou db2
SINOPSE
cdhit-est-2d [Opções]
DESCRIÇÃO
====== CD-HIT versão 4.6 (construído em 23 de janeiro de 2016) ======
Opções
-i nome de arquivo de entrada para db1 em formato fasta, obrigatório
-i2 nome de arquivo de entrada para db2 em formato fasta, obrigatório
-o nome do arquivo de saída, obrigatório
-c limite de identidade de sequência, padrão 0.9 este é o "global" do hit de cd padrão
identidade de sequência "calculada como: número de aminoácidos idênticos em alinhamento
dividido pelo comprimento total da sequência mais curta
-G use a identidade de sequência global, padrão 1 se definido como 0, então use a sequência local
identidade, calculada como: número de aminoácidos idênticos em alinhamento dividido por
o comprimento do alinhamento NOTA !!! não use -G 0 a menos que você use alinhamento
controles de cobertura ver opções -al, -AL, -Como, -COMO
-b largura de banda do alinhamento, padrão 20
-M limite de memória (em MB) para o programa, padrão 800; 0 para ilimitado;
-T número de threads, padrão 1; com 0, todas as CPUs serão usadas
-n word_length, default 10, consulte o guia do usuário para escolhê-lo
-l comprimento de throw_away_sequences, padrão 10
-d comprimento da descrição no arquivo .clstr, padrão 20 se definido como 0, leva o fasta
definir e parar no primeiro espaço
-s corte de diferença de comprimento, padrão 0.0 se definido como 0.9, as sequências mais curtas precisam
ter pelo menos 90% de comprimento do representante do cluster
-S corte de diferença de comprimento em aminoácido, padrão 999999 se definido como 60, o comprimento
diferença entre as sequências mais curtas e o representante do cluster pode
não ser maior que 60
-s2 corte de diferença de comprimento para db1, padrão 1.0 por padrão, seqs em db1> = seqs em
db2 em um mesmo cluster se definido como 0.9, seqs em db1 podem apenas> = 90% seqs em db2
-S2 corte de diferença de comprimento, padrão 0 por padrão, seqs em db1> = seqs em db2 em um
mesmo cluster se definido para 60, seqs em db2 podem 60aa mais do que seqs em db1
-al cobertura de alinhamento para a sequência mais longa, padrão 0.0 se definido como 0.9, o
o alinhamento deve cobrir 90% da sequência
-AL controle de cobertura de alinhamento para a sequência mais longa, padrão 99999999 se definido como 60,
e o comprimento da sequência é 400, então o alinhamento deve ser> = 340 (400-60)
resíduos
-Como cobertura de alinhamento para a sequência mais curta, padrão 0.0 se definido como 0.9, o
o alinhamento deve cobrir 90% da sequência
-COMO controle de cobertura de alinhamento para a sequência mais curta, padrão 99999999 se definido como 60,
e o comprimento da sequência é 400, então o alinhamento deve ser> = 340 (400-60)
resíduos
-A controle de cobertura de alinhamento mínimo para ambas as sequências, o alinhamento padrão 0 deve
cobrir> = este valor para ambas as sequências
-uL porcentagem máxima sem correspondência para a sequência mais longa, padrão 1.0 se definido como 0.1,
a região não combinada (excluindo lacunas à esquerda e à direita) não deve ser superior a 10%
da sequência
-nós porcentagem máxima sem correspondência para a sequência mais curta, padrão 1.0 se definido como 0.1,
a região não combinada (excluindo lacunas à esquerda e à direita) não deve ser superior a 10%
da sequência
-U comprimento máximo sem correspondência, padrão 99999999 se definido como 10, a região sem correspondência
(excluindo lacunas à esquerda e à direita) não deve ser superior a 10 bases
-B 1 ou 0, padrão 0, por padrão, as sequências são armazenadas na RAM se definido como 1, sequência
são armazenados no disco rígido, é recomendado o uso -B 1 para bancos de dados enormes
-p 1 ou 0, padrão 0 se definido como 1, impressão sobreposta de alinhamento no arquivo .clstr
-g 1 ou 0, padrão 0 pelo algoritmo padrão do hit de cd, uma sequência é agrupada no
primeiro cluster que atinge o limite (cluster rápido). Se definido como 1, o programa irá
agrupe-o no cluster mais semelhante que atenda ao limite (preciso, mas lento
modo), mas 1 ou 0 não mudará os representantes dos clusters finais
-r 1 ou 0, padrão 1, por padrão faça ambos os alinhamentos + / + e +/- se definido como 0, apenas + / +
alinhamento da vertente
-mascarar letras de máscara (por exemplo -mascarar NX, para mascarar 'N' e 'X')
-Combine pontuação correspondente, padrão 2 (1 para TU e NN)
-incompatibilidade
pontuação incompatível, padrão -2
-Gap = Vão pontuação de abertura da lacuna, padrão -6
-gap-ext
pontuação de extensão de lacuna, padrão -1
-bin gravar arquivo de cluster de backup (1 ou 0, padrão 0)
-h imprima esta ajuda
Perguntas, bugs, entre em contato com Limin Fu em [email protegido]ou Weizhong Li em [email protegido]
Para versões atualizadas e informações, visite: http://cd-hit.org
o servidor da web cd-hit também está disponível em http://cd-hit.org
Se você achar que o hit de cd é útil, por favor, cite:
"Agrupamento de sequências altamente homólogas para reduzir o tamanho da proteína grande
banco de dados ", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatics, (2001)
17: 282-283 "Cd-hit: um programa rápido para agrupar e comparar grandes conjuntos de
proteínas ou sequências de nucleotídeos ", Weizhong Li & Adam Godzik. Bioinformatics, (2006)
22: 1658-1659
Use cdhit-est-2d online usando serviços onworks.net