Este é o comando spidey que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
spidey - alinhar sequências de mRNA a um genoma
SINOPSE
aranha [-] [-F N] [-G] [-L N] [-M nome do arquivo] [-N nome do arquivo] [-R nome do arquivo] [-S PM] [-T N]
[-X] [-a nome do arquivo] [-c N] [-d] [-e X] [-f X] [-g X] -i nome do arquivo [-j] [-k nome do arquivo] [-l N]
-m nome do arquivo [-n N] [-o str] [-p N] [-r c / d / m / p / v] [-s] [-t nome do arquivo] [-u] [-w]
DESCRIÇÃO
aranha é uma ferramenta para alinhar uma ou mais sequências de mRNA a uma determinada sequência genômica.
aranha foi escrito com dois objetivos principais em mente: encontrar bons alinhamentos, independentemente do íntron
Tamanho; e evite ficar confuso com pseudogenes e parálogos próximos. Em direção ao primeiro
objetivo, aranha usa BLAST e Dot View (outra ferramenta de alinhamento local) para encontrar seu
alinhamentos; uma vez que ambas são ferramentas de alinhamento local, aranha não intrinsecamente
favorece íntrons mais curtos ou mais longos e não tem tamanho máximo de íntron. Para evitar por engano
incluindo exons de parálogos e pseudogenes, aranha primeiro define as janelas no genômico
sequência e, em seguida, executa o alinhamento de mRNA para genômico separadamente dentro de cada janela.
Devido à forma como as janelas são construídas, parálogos ou pseudogenes vizinhos devem
devem estar em janelas separadas e não devem ser incluídas no alinhamento final da emenda.
Inicie alinhamentos e formação of genômico Windows
aranha leva como entrada uma única sequência genômica e um conjunto de acessos de mRNA ou FASTA
sequências. Todo o processamento é feito uma sequência de mRNA de cada vez. A primeira etapa para cada
A sequência de mRNA é um BLAST de alto rigor contra a sequência genômica. Os hits resultantes
são analisados para encontrar as janelas genômicas.
Os alinhamentos BLAST são classificados por pontuação e, em seguida, atribuídos às janelas por um recursivo
função que pega o primeiro alinhamento e depois desce na lista de alinhamento para encontrar todos
alinhamentos que são consistentes com o primeiro (mesma fita de mRNA, tanto o mRNA quanto
as coordenadas genômicas não se sobrepõem e são linearmente consistentes). Em passes subsequentes,
os alinhamentos restantes são examinados e colocados em seus próprios não sobrepostos,
janelas consistentes, até que nenhum alinhamento seja deixado. Dependendo de quantos modelos de genes são
desejado, o topo n as janelas são escolhidas para passar para a próxima etapa e as outras são
excluída.
Alinhamento in cada janela
Uma vez que as janelas genômicas são construídas, os alinhamentos BLAST iniciais são liberados e
outra pesquisa BLAST é realizada, desta vez com todo o mRNA contra o genômico
região definida pela janela, e com um rigor menor do que a pesquisa inicial. aranha
em seguida, usa um algoritmo ganancioso para gerar um subconjunto de alta pontuação e não sobreposto do
alinhamentos da segunda pesquisa BLAST. Este conjunto consistente é analisado cuidadosamente para
certifique-se de que toda a sequência de mRNA está coberta pelos alinhamentos. Quando lacunas são encontradas
entre os alinhamentos, a região apropriada da sequência genômica é pesquisada contra o
mRNA ausente, primeiro usando um BLAST de baixo rigor e, se o BLAST falhar em encontrar um
clique, usando as funções do DotView para localizar o alinhamento. Quando lacunas são encontradas nas extremidades de
os alinhamentos, as pesquisas BLAST e DotView podem, na verdade, se estender além do
limites da janela. Se a extremidade 3 'do mRNA não se alinhar completamente, é
examinado pela primeira vez para a presença de uma cauda poli (A). Nenhuma tentativa é feita para alinhar o
porção do mRNA que parece ser uma cauda poli (A); às vezes há uma cauda poli (A)
que se alinha com a sequência genômica, e estes são anotados porque indicam o
possibilidade de um pseudogene.
Agora que o mRNA está completamente coberto pelo conjunto de alinhamentos, os limites do
alinhamentos (deve haver um alinhamento por exon agora) são ajustados para que o
alinhamentos confinam uns com os outros com precisão e de modo que sejam adjacentes a um bom doador de emenda
e sites aceitadores. Mais comumente, os alinhamentos de dois exons adjacentes se sobrepõem em até
20 ou 30 pares de bases na sequência de mRNA. O verdadeiro limite do exon pode estar em qualquer lugar dentro
esta sobreposição, ou (como vimos empiricamente) até mesmo alguns pares de bases fora da sobreposição.
Para posicionar os limites do exon, a sobreposição mais alguns pares de bases de cada lado é
examinados para locais doadores de emenda, usando funções que têm matrizes de emenda diferentes
dependendo do organismo escolhido. Os poucos principais sites doadores de splice (por pontuação) são, então,
avaliados quanto ao quanto eles afetam os limites de alinhamento originais. O site que
afeta os limites, o mínimo é escolhido e é avaliado quanto à presença de um
site aceitador. Os alinhamentos são truncados ou estendidos conforme necessário para que eles
terminam no local doador de emenda e de modo que não se sobreponham.
final resultar
As janelas são examinadas cuidadosamente para obter a identidade percentual por exon, o número de
lacunas por exon, a porcentagem de identidade geral, a porcentagem de cobertura do mRNA, a presença de
uma cauda poli (A) alinhada ou não, número de locais doadores de emenda e a presença ou
ausência de sítios doadores e aceitadores de splice para cada exon, e a ocorrência de um mRNA
que tem uma extremidade 5 'ou 3' (ou ambas) que não se alinha à sequência genômica. Se o
a porcentagem geral de identidade e a porcentagem de cobertura de comprimento estão acima dos pontos de corte definidos pelo usuário, um
o relatório resumido é impresso e, se solicitado, um alinhamento de texto mostrando as identidades e
incompatibilidades também é impresso.
Entre espécies alinhamentos
aranha é capaz de realizar alinhamentos interespécies. A principal diferença em
alinhamentos interespécies é que a identidade genômica do mRNA não será próxima de 100%, pois
está em alinhamentos intraespécies; além disso, os alinhamentos têm lacunas numerosas e extensas. Se
aranha é usado em seu modo normal para fazer alinhamentos interespécies, ele produz modelos de genes
com muitos, muitos exões curtos. Quando o sinalizador interespécies é definido, aranha usa diferente
Parâmetros do BLAST para encorajar intervalos maiores e mais longos e não penalizar tanto por
incompatibilidades. Dessa forma, os alinhamentos para os exons são muito mais longos e mais próximos
aproximar a estrutura real do gene.
Extraindo CDS alinhamentos
Quando aranha é executado no modo de reconhecimento de rede ou quando os arquivos ASN.1 são usados para o mRNA
registros, é capaz de extrair um alinhamento de CDS de um alinhamento de mRNA e imprimir
as informações do CDS também. Uma vez que o alinhamento do CDS é apenas um subconjunto do alinhamento do mRNA,
é relativamente simples truncar os alinhamentos de exon conforme necessário e
gerar um alinhamento CDS. Além disso, as regiões não traduzidas agora estão definidas, então o
A percentagem de identidade para as regiões 5 'e 3' não traduzidas também é calculada.
OPÇÕES
Um resumo das opções está incluído abaixo.
- Imprimir mensagem de uso.
-F N Início do intervalo genômico desejado (de; base 0).
-G O arquivo de entrada é uma lista GI.
-L N O tamanho do intron extragrande a ser usado (padrão = 220000).
-M nome do arquivo
Arquivo com matriz de emenda doadora.
-N nome do arquivo
Arquivo com matriz de emenda do aceitador.
-R nome do arquivo
Arquivo (incluindo caminho) para repetir o banco de dados de explosão para filtragem.
-S PM Restringir à fita mais (p) ou menos (m) da sequência genômica.
-T N Parada do intervalo genômico desejado (para; base 0).
-X Use tamanhos de íntrons extra-grandes (aumenta o limite para íntrons iniciais e terminais
de 100kb a 240kb e para todos os outros de 35kb a 120kb); pode resultar em
tempos de computação significativamente mais longos.
-a nome do arquivo
Arquivo de saída para alinhamentos quando direcionado para um arquivo separado com -p 3 (padrão =
aranha.aln).
-c N Corte de identidade, em porcentagem, para fins de controle de qualidade.
-d Além disso, tente alinhar as sequências de codificação correspondentes aos registros de mRNA fornecidos (pode
requer acesso à rede).
-e X Valor eletrônico de primeira passagem (padrão = 1.0e-10). Valores mais altos aumentam a velocidade com o custo
de sensibilidade.
-f X Valor eletrônico de segunda passagem (padrão = 0.001).
-g X Valor eletrônico de terceira passagem (padrão = 10).
-i nome do arquivo
Arquivo de entrada contendo a sequência genômica no formato ASN.1 ou FASTA. Se seu
computador está funcionando em uma rede que pode acessar o GenBank, você pode substituir o
número de acesso desejado para o nome do arquivo.
-j Imprimir alinhamento ASN.1?
-k nome do arquivo
Arquivo para saída ASN.1 com -k (padrão = spidey.asn).
-l N Corte de cobertura de comprimento, em porcentagem.
-m nome do arquivo
Arquivo de entrada contendo a (s) sequência (s) de mRNA no formato ASN.1 ou FASTA, ou uma lista de
suas adesões (com -G) Se o seu computador estiver funcionando em uma rede que pode
Para acessar o GenBank, você pode substituir o nome do arquivo por um único número de acesso.
-n N Número de modelos de genes a serem retornados por mRNA de entrada (padrão = 1).
-o str Arquivo de saída principal (padrão = stdout; conteúdo controlado por -p).
-p N Alinhamento de impressão?
0 resumo e alinhamentos juntos (padrão)
1 apenas o resumo
2 apenas os alinhamentos
3 resumo e alinhamentos em arquivos diferentes
-r c / d / m / p / v
Organismo de sequência genômica, usado para determinar matrizes de emenda.
c C. elegans
d Drosophila
m Dictyostelium discoideum
p planta
v vertebrado (padrão)
-s Ajuste para alinhamentos interespécies.
-t nome do arquivo
Arquivo com tabela de recursos, em 4 colunas delimitadas por tabulação:
seqiid (por exemplo, NM_04377.1)
nome (só região_repetitiva atualmente é compatível)
começo (Base 0)
Pare (Base 0)
-u Faça um alinhamento múltiplo de todos os mRNAs de entrada (que devem se sobrepor no genômico
seqüência).
-w Considere os caracteres minúsculos nas sequências FASTA de entrada a serem mascarados.
Use spidey online usando serviços onworks.net