Il s'agit de la commande tigr-build-icm qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
tigr-glimmer — Crée et génère un modèle de Markov interpolé (IMM)
SYNOPSIS
tigr-build-icm
DESCRIPTION
Le programme build-icm.c crée et génère un modèle de Markov interpolé (IMM) comme décrit
dans l'article AL Delcher, D. Harmon, S. Kasif, O. White et SL Salzberg. Amélioré
Identification des gènes microbiens avec Glimmer. Nucleic Acids Research, 1999, sous presse.
Veuillez vous référer à cet article si vous utilisez le système dans le cadre de toute recherche publiée.
L'entrée provient du fichier nommé sur la ligne de commande. Le format doit être une chaîne par
ligne. Chaque ligne a une chaîne d'identification suivie d'un espace blanc suivi de la séquence elle-même.
Le script run-glimmer3 génère un fichier d'entrée au format correct en utilisant l''extrait'
.
L'IMM est construit comme suit : pour un contexte donné, disons acgtta, nous voulons estimer
la distribution de probabilité du prochain caractère. Nous allons le faire comme un linéaire
combinaison des distributions de probabilité observées pour ce contexte et de toutes ses
suffixes, c'est-à-dire cgtta, gtta, tta, ta, a et vide. Par distributions observées, j'entends la
compte le nombre d'occurrences de ces chaînes dans l'ensemble d'apprentissage. Le linéaire
La combinaison est déterminée par un ensemble de probabilités, lambda, une pour chaque chaîne de contexte.
Pour le contexte acgtta, les coefficients de combinaison linéaire sont :
lambda (acgtta) (1 - lambda (acgtta)) x lambda (cgtta) (1 - lambda (acgtta)) x (1 - lambda
(cgtta)) x lambda (gtta) (1 - lambda (acgtta)) x (1 - lambda (cgtta)) x (1 - lambda
(gtta)) x lambda (tta) (1 - lambda (acgtta)) x (1 - lambda (cgtta)) x (1 - lambda (gtta))
x (1 - lambda (tta)) x (1 - lambda (ta)) x (1 - lambda (a))
Nous calculons les valeurs lambda pour chaque contexte comme suit : - Si le nombre d'observations
dans l'ensemble d'apprentissage est >= la constante SAMPLE_SIZE_BOUND, le lambda pour ce contexte est
1.0 - Sinon, faire un test du chi carré sur les observations de ce contexte par rapport à la
distribution prédite pour le contexte de suffixe plus court à un caractère. Si le chi carré
signification < 0.5, définissez le lambda pour ce contexte sur 0.0 Sinon, définissez le lambda pour
ce contexte à : (significativité du khi-deux) x (nombre d'observations) / SAMPLE_WEIGHT
Pour exécuter le programme :
build-icm train.modèle
Cela utilisera les données d'apprentissage dans train.seq pour produire le fichier train.model, contenant
votre IMM.
Utilisez tigr-build-icm en ligne à l'aide des services onworks.net