这是 tigr-build-icm 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
tigr-glimmer — 生成并输出插值马尔可夫模型(IMM)
概要
tigr-build-icm
商品描述
程序 build-icm.c 创建并输出一个内插马尔可夫模型 (IMM),如所述
在 AL Delcher、D. Harmon、S. Kasif、O. White 和 SL Salzberg 的论文中。 改进
微光微生物基因鉴定。 核酸研究,1999 年,印刷中。
如果您将该系统用作任何已发表研究的一部分,请参考本文。
输入来自命令行上命名的文件。 每个格式应该是一个字符串
线。 每行都有一个 ID 字符串,后跟空格,后跟序列本身。
脚本 run-glimmer3 使用“提取”以正确的格式生成输入文件
程序。
IMM 的构造如下:对于给定的上下文,比如 acgtta,我们想要估计
下一个字符的概率分布。 我们将这样做作为一个线性
在此上下文中观察到的概率分布及其所有的组合
后缀,即 cgtta、gtta、tta、ta、a 和空。 通过观察到的分布,我的意思是
这些字符串在训练集中出现的次数的计数。 线性的
组合由一组概率 lambda 确定,每个上下文字符串一个。
对于上下文 acgtta,线性组合系数为:
拉姆达 (acgtta) (1 - 拉姆达 (acgtta)) x 拉姆达 (cgtta) (1 - 拉姆达 (acgtta)) x (1 - 拉姆达
(cgtta)) x 拉姆达 (gtta) (1 - 拉姆达 (acgtta)) x (1 - 拉姆达 (cgtta)) x (1 - 拉姆达
(gtta)) x 拉姆达 (tta) (1 - 拉姆达 (acgtta)) x (1 - 拉姆达 (cgtta)) x (1 - 拉姆达 (gtta))
x (1 - 拉姆达 (tta)) x (1 - 拉姆达 (ta)) x (1 - 拉姆达 (a))
我们计算每个上下文的 lambda 值如下: - 如果观察的数量
在训练集中 >= 常量 SAMPLE_SIZE_BOUND,该上下文的 lambda 是
1.0 - 否则,对此上下文的观察值进行卡方检验,与
为一个字符较短的后缀上下文预测的分布。 如果卡方
重要性 < 0.5,将此上下文的 lambda 设置为 0.0 否则将 lambda 设置为
此上下文为:(卡方显着性)x(#观察)/ SAMPLE_WEIGHT
运行程序:
构建-icm 训练模型
这将使用 train.seq 中的训练数据生成文件 train.model,其中包含
你的 IMM。
使用 onworks.net 服务在线使用 tigr-build-icm