这是命令 cmscan,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
cmscan - 针对协方差模型数据库搜索序列
概要
厘米扫描 [选项]
商品描述
厘米扫描 用于根据协方差模型集合搜索序列。 对于每个
顺序 , 使用该查询序列来搜索 CM 的目标数据库
, 并输出与最重要匹配的 CM 的排名列表
序列。
这款 可能包含多个查询序列。 它可以是 FASTA 格式,或者
其他几种常见的序列文件格式(genbank、embl 等),或在
对齐文件格式(斯德哥尔摩、对齐的 fasta 等)。 见 --q格式 选项
获取完整清单。
这款 需要按下使用 压缩包 在它可以被搜索之前 厘米扫描。 本篇
创建四个二进制文件,后缀为 .i1{fimp}。 此外, 一定是
校准为 E 值 校准 在被按下之前 压榨。
查询 可能是“-”(破折号),在这种情况下,查询序列是
从一个读管道而不是来自文件。 这 不能从
流,因为它需要由生成的那四个辅助二进制文件 压榨。
输出格式被设计为人类可读的,但通常如此庞大以至于
阅读它是不切实际的,解析它是一种痛苦。 这 --tblout 选项将输出保存在一个
简单的表格格式,简洁且易于解析。 这 -o 选项允许
重定向主输出,包括将其丢弃在 /dev/null 中。
厘米扫描 使用专门的算法重新检查目标序列的 5' 和 3' 末端
用于检测 被截断 命中,在实际完整的 5' 和/或 3' 端的哪一部分
目标序列文件中缺少长度同源序列。 这些类型的点击
将在由未组装测序读取组成的序列文件中最常见。 经过
默认情况下,任何 5' 截断的命中都需要包含目标的第一个残基
它来自于的序列 , 并且任何 3' 截断的命中都需要包括
它源自的目标序列的最终残基。 任何 5' 和 3' 截断命中必须
包括其来源的目标序列的第一个和最后一个残基。 这 --anytrunc
选项将放宽对命中包含序列端点的要求,并被截断
允许命中在目标序列的任何位置开始和停止。 重要的
尽管如此,与 --anytrunc, 命中 E 值将不太准确,因为模型校准确实如此
不考虑截断命中的可能性,因此请谨慎使用。 这 --notrunc
选项可用于关闭截断命中检测。 --notrunc 会减少跑步
的时间 厘米扫描, 对目标最重要 包含许多短的文件
序列。 截断命中检测会在以下情况下自动关闭 - 最大限度, ——不,嗯,
--qdb, or --无带 使用选项是因为它依赖于使用加速 HMM
由任何这些选项关闭的带状对齐策略。
配置
-h 帮助; 打印命令行用法和所有可用选项的简短提醒。
-g 打开 全球本土化 对齐算法,对于查询模型是全局的,并且
本地相对于目标数据库。 默认情况下,局部对齐
使用的算法对于目标序列和
模型。 在本地模式下,如有必要,对齐跨越两个或多个子序列
(例如,如果查询模型和目标序列的结构只是部分
共享),允许结构中的某些大的插入和删除
惩罚不同于正常的插入缺失。 本地模式在经验上表现更好
基准并且对远程同源性检测明显更敏感。
根据经验,glocal 搜索返回的点击次数比本地搜索少得多,因此 glocal
某些应用程序可能需要。
-Z 像搜索空间大小一样计算 E 值 兆碱基 (Mb)。 没有
使用这个选项,每个查询序列的搜索空间大小都会发生变化,它是
定义为当前查询序列的长度乘以 2(因为两条链
的序列将被搜索)乘以 CM 的数量 .
--开发帮助
打印帮助,如 -h , 还包括未显示的专家选项
- -h . 这些专家选项预计与广大
大多数用户等都没有在手册页中描述。 唯一的资源
为了理解他们实际所做的是简短的一行描述输出
,尤其是 --开发帮助 已启用,以及源代码。
配置 用于 控制 OUTPUT
-o 将主要的人类可读输出定向到文件 而不是默认的标准输出。
--tblout
保存一个简单的表格(空格分隔)文件总结找到的命中,一个
每个命中的数据线。 此文件的格式在 Infernal 用户中描述
指南。
--acc 在主输出中使用名称而不是名称,如果可用于配置文件
和/或序列。
--诺阿里
省略主输出中的对齐部分。 这样可以大大减少输出
卷。
--notew
无限制主输出中每行的长度。 默认限制为 120
每行字符,这有助于在终端上清晰地显示输出和
在编辑器中,但可以截断目标配置文件描述行。
--textw
将主输出的行长度限制设置为 每行字符。 默认是
120.
--详细
在主输出中包含额外的搜索管道统计信息,包括过滤器
截断命中检测的生存统计数据和丢弃的信封数量
由于矩阵大小溢出。
配置 控制 REPORTING 阈值
报告阈值控制在输出文件(主要输出和
--tblout) 命中按统计显着性(E 值)排序。 默认情况下,所有命中
报告 E 值 <= 10。 以下选项允许您更改默认设置
E 值报告阈值,或改为使用比特分数阈值。
-E 在每个目标的输出中,报告 E 值为 <= 的目标序列 . 这款
默认为 10.0,这意味着平均会报告大约 10 个误报
每个查询,所以你可以看到噪音的顶部并自己决定它是否
真的很吵。
-T 不是在 E 值上对每个 CM 输出进行阈值处理,而是使用
位得分 >= .
配置 用于 包容 阈值
包含阈值比报告阈值更严格。 包含阈值控制
哪些命中被认为足够可靠,可以包含在可能的后续
搜索回合,或在命中中标记为重要(“!”)而不是有问题的(“?”)
输出。
--ince
使用 <= 的 E 值 作为命中包含阈值。 默认值为 0.01,
这意味着平均而言,每 1 次预计会有 100 次误报
使用不同的查询序列进行搜索。
--incT
不使用 E 值来设置包含阈值,而是使用一点
得分 >= 作为命中包含阈值。 默认情况下,此选项未设置。
配置 用于 特定型号 SCORE 阈值
策划的 CM 数据库可以为每个 CM 定义特定的比特分数阈值,取代任何
仅基于统计显着性的阈值。
要使用这些选项,配置文件必须包含适当的(GA、TC 和/或 NC)
可选的分数阈值注释; 这是由 构建 从斯德哥尔摩格式
对齐文件。 每个阈值选项都有一个分数 位,并表现得好像 -T
--incT 已专门使用每个模型的策划阈值应用。
--cut_ga
使用模型中的 GA(收集)位分数来设置命中报告和包含
阈值。 GA 阈值通常被认为是可靠的策划
界定家庭成员的门槛; 例如,在 Rfam 中,这些阈值
根据使用 Rfam Seed 的搜索定义包含在 Rfam Full 对齐中的内容
楷模。
--cut_nc
使用模型中的 NC(噪声截止)位得分阈值来设置命中报告
和包含阈值。 NC 阈值通常被认为是
得分最高的已知误报。
--cut_tc
使用模型中的 TC(可信截止)位得分阈值来设置命中报告
和包含阈值。 TC 阈值通常被认为是
得分最低的已知真阳性,高于所有已知假阳性。
配置 控制 “ 加速 管道
Infernal 1.1 搜索在六级过滤器管道中得到加速。 前五个
阶段使用配置文件 HMM 来定义传递到阶段 XNUMX CM CYK 的包络
筛选。 使用 CM 为所有过滤器中幸存下来的任何信封分配最终分数
内部算法。
配置文件 HMM 过滤器由 构建 程序并存储在 .
每个连续的过滤器都比前一个慢,但比它好
区分可能包含高分 CM 命中的子序列和包含高分 CM 命中的子序列
不是。 前三个 HMM 滤波器级与 HMMER3 中使用的相同。 第一阶段(F1)
是针对长序列修改的本地 HMM SSV 过滤器。 阶段 2 (F2) 是本地 HMM
维特比过滤器。 第 3 阶段 (F3) 是本地 HMM 前向滤波器。 前三个中的每一个
stage 在本地模式下使用配置文件 HMM,它允许目标子序列与
HMM 的任何区域。 Stage 4 (F4) 是一个全局 HMM 过滤器,它需要一个目标
与全长轮廓 HMM 对齐的子序列。 第 5 阶段(F5)是全局 HMM
包络定义过滤器,它使用 HMMER3 的域识别启发式来定义
包络边界。 在从 2 到 5 的每个阶段之后,一个偏置滤波器步骤(F2b、F3b、F4b 和
F5b) 用于删除由于偏向而似乎已通过过滤器的序列
单独组成。 任何在 F1 到 F5b 阶段存活的信封然后通过
本地 CM CYK 过滤器。 CYK 过滤器使用从 HMM 派生的约束(带)
对齐包络以减少所需的计算次数并节省时间。
任何通过 CYK 的信封都使用本地 CM Inside 算法评分,再次使用 HMM
带加速。
定义子序列所需的最低分数的默认过滤器阈值
根据搜索空间 (Z) 的大小定义每个阶段的存活率,其定义为
作为当前查询序列的长度乘以 2(因为两条链都是
搜索) 次中的配置文件数量 . 但是,如果 -Z or --FZ
选项被使用,那么搜索空间将被认为是 为目的
定义过滤器阈值。
对于更大的数据库,过滤器更严格,导致更多加速,但
可能会造成更大的灵敏度损失。 基本原理是,对于较大的数据库,
命中必须有更高的分数才能达到统计显着性,所以更严格的过滤
删除较低得分的无关紧要的命中是可以接受的。
所有可能的搜索空间大小和所有过滤器阶段的 P 值阈值是
接下来列出。 (0.01 的 P 值阈值意味着大约 1% 的最高得分
期望非同源子序列通过过滤器。)Z 定义为
完整目标序列文件中的核苷酸乘以 2,因为两条链都将
搜索每个模型。
如果 Z 小于 2 Mb:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b和F5为0.02;
F6 是 0.0001。
如果 Z 介于 2 Mb 和 20 Mb 之间:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b 和 F5
是 0.005; F6 是 0.0001。
如果 Z 介于 20 Mb 和 200 Mb 之间:F1 为 0.35; F2和F2b为0.15; F3、F3b、F4、F4b 和 F5
是 0.003; F6 是 0.0001。
如果 Z 介于 200 Mb 和 2 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3, F3b, F4, F4b, F5,
F5b 为 0.0008; F6 为 0.0001。
如果 Z 介于 2 Gb 和 20 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3、F3b、F4、F4b、F5 和
F5b 为 0.0002; F6 为 0.0001。
如果 Z 大于 20 Gb:F1 为 0.06; F2和F2b为0.02; F3、F3b、F4、F4b、F5 和 F5b
是 0.0002; F6 为 0.0001。
这些阈值是根据内部基准测试的性能选择的
不同的可能设置。
有五个选项可用于控制一般过滤级别。 这些选项是,在
从最不严格(最慢但最敏感)到最严格(最快但最不敏感)的顺序
敏感的): - 最大限度, ——不,嗯, - 中, - 默认, (这是默认设置) --rfam。 和
——嗯。 通过 - 默认 过滤器阈值将取决于数据库大小。 见
有关更多信息,请在下面对每个选项进行说明。
此外,专家用户可以精确控制每个过滤阶段得分阈值
此 --F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b, 和 --F6 选项。 作为
以及打开或关闭每个阶段 --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5, 和 --noF6。 选项。 这些选项仅显示
如果 --开发帮助 选项用于保持显示选项的数量 -h
合理,因为它们只对少数用户有用。
作为特例,对于任何模型 具有零碱基对,配置文件 HMM
运行搜索而不是 CM 搜索。 HMM 算法比 CM 更有效
算法,并且对于没有辅助的模型,CM 算法的好处将丢失
结构(零碱基对)。 这些配置文件 HMM 搜索的运行速度将明显快于
CM 搜索。 您可以使用 --嗯嗯 选项。 更多
有关仅 HMM 搜索的信息,请参阅用户指南。
- 最大限度 关闭所有过滤器,并在每个全长目标上运行非带状内部
序列。 这在一定程度上提高了灵敏度,但速度上的代价非常大。
——诺姆
关闭所有 HMM 滤波器级(F1 到 F5b)。 CYK 过滤器,使用 QDB,将
在每个全长目标序列上运行,并将强制执行 P 值阈值
0.0001。 每个在 CYK 中幸存下来的子序列都将被传递给 Inside,这将
也使用 QDB(但更松散的集合)。 这在一定程度上提高了灵敏度
速度成本高。
- 中 关闭 HMM SSV 和 Viterbi 滤波器级(F1 到 F2b)。 设置剩余 HMM
过滤阈值(F3 到 F5b)默认为 0.02,但可以更改为 -
--Fmid 序列。 这可能会以显着的速度成本增加灵敏度。
- 默认
使用默认过滤策略。 该选项默认开启。 过滤器
阈值是根据数据库大小确定的。
--rfam 使用为大型数据库(超过 20 Gb)设计的严格过滤策略。 这个
将以潜在的敏感性代价加速搜索。
--嗯嗯
仅使用过滤器配置文件 HMM 进行搜索,不要使用 CM。 只过滤
将执行阶段 F1 到 F3,使用严格的 P 值阈值(0.02
F1,F0.001 为 2,F0.00001 为 3)。 另外一个偏置组合过滤器是
在 F1 阶段后使用(P=0.02 生存阈值)。 任何幸存下来的打击
所有阶段并且具有高于报告阈值的 HMM E 值或位得分将
被输出。 用户可以更改 HMM-only 过滤器阈值和选项
--嗯F1, --嗯F2, --嗯F3, --hmmnobias, --嗯nonull2, 和 --嗯最大。 默认情况下,
搜索任何具有零碱基对的模型将在 HMM-only 模式下运行。 这个可以
被关闭,强制 CM 搜索这些模型 ——诺姆蒙利 选项。
--FZ
将过滤器阈值设置为数据库使用的默认值 兆碱基 (Mb)。
如果与 大于 20000 (20 Gb) 此选项与
--rfam。
--Fmid
随着 - 中 选项将 HMM 过滤器阈值(F3 到 F5b)设置为 . By
默认, 是0.02。
其他 配置
--notrunc
关闭截断命中检测。
--anytrunc
允许截断的命中在目标序列中的任何位置开始和结束。 经过
默认情况下,5' 截断的命中必须包括其目标序列的第一个残基
并且 3' 截断的命中必须包括其目标序列的最终残基。 和
使用此选项,您可能会观察到较少的全长命中,这些命中延伸到开头和
查询CM结束。
--非空3
关闭对有偏见的组合的 null3 CM 分数校正。 这个修正是
在 HMM 过滤阶段不使用。
--mx大小
将允许的最大 CM DP 矩阵大小设置为 兆字节。 默认这个尺寸
是 128 Mb。 这对于绝大多数搜索来说应该足够大,
特别是对于较小的模型。 如果 厘米搜索 遇到 CYK 中的信封或
需要更大矩阵的舞台内部,信封将从
考虑。 这种行为就像一个额外的过滤器,可以防止昂贵的
(慢)CM DP 计算,但潜在的敏感性成本。 请注意,如果
厘米搜索 正在运行 多核机器上的多个线程,然后每个线程
线程可能有一个最大大小的分配矩阵 Mb 在任何给定时间。
--smx大小
将允许的最大 CM 搜索 DP 矩阵大小设置为 兆字节。 默认情况下
这个大小是 128 Mb。 此选项仅在 CM 不使用 HMM 时相关
带状矩阵,即如果 - 最大限度, ——不,嗯, --qdb, --fqdb, --无带, or
--f非带状 选项也被使用。 请注意,如果 厘米搜索 正在运行
多核机器上的多个线程,那么每个线程可能有一个分配的
最大大小的矩阵 Mb 在任何给定时间。
--cyk 使用 CYK 算法而不是 Inside 来确定所有命中的最终分数。
--阿奇克 使用 CYK 算法来对齐命中。 默认情况下,Durbin/Holmes 最佳精度
使用算法,它找到最大化预期精度的对齐方式
所有对齐的残基。
--wcx
对于每个 CM,将 W 参数(命中的预期最大长度)设置为
乘以模型的共识长度。 默认情况下,W 参数是从
CM 文件,并根据模型的转移概率计算
by 厘米构建。 您可以使用以下命令找出模型的默认 W 值 厘米统计。 本篇
应谨慎使用该选项,因为它会影响多个过滤管道
以不明显的方式不同的阶段。 只推荐给专家用户
搜索比用于构建的任何同系物长得多的命中
示范 厘米构建, 例如具有大内含子或其他大插入的那些。 它
不能与 ——不,嗯, --fqdb or --qdb 选项因为在
这些情况 W 受查询相关频带的限制。
--toponly
只搜索目标序列的顶部(Watson)链 . 默认情况下,
搜索两条链。 这将使搜索空间大小 (Z) 减半。
--仅底部
只搜索目标序列的底部 (Crick) 链 . By
默认情况下,搜索两条链。 这将使搜索空间大小 (Z) 减半。
--q格式
断言查询序列数据库文件是格式 . 接受的格式
包括 法斯塔, 标志, 基因库, ddbj, 斯德哥尔摩, pfam, 2米, 阿发, 集群, 和 飞利浦
默认是自动检测文件的格式。
--glist
配置模型的子集 在全局对齐模式下,而不是
本地模式,即文件中列出的模型 . 配置所有其他型号
(未列在 ) 在本地模式下。 此选项不兼容 -G。
文件 必须列出模型的有效名称来自 , 每个由任何分隔
空白字符(例如换行符)。
- 中央处理器
将并行工作线程的数量设置为 . 默认情况下,Infernal 设置这个
到它在您的机器中检测到的 CPU 内核数量 - 也就是说,它试图
最大限度地利用可用的处理器内核。 环境 高于
可用内核的数量几乎没有价值,但您可能希望将其设置为
少一些。 你也可以通过设置环境来控制这个数字
变数 INFERNAL_NCPU。 此选项仅在编译 Infernal 时可用
具有 POSIX 线程支持。 这是默认设置,但它可能已在
出于某种原因,您的站点或机器的编译时间。
--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号) (只要
如果在编译时启用了可选的 MPI 支持,则可用。)
--mpi 在 MPI 主/工作模式下运行,使用 姆皮伦。 (仅当可选 MPI
在编译时启用了支持。)
使用 onworks.net 服务在线使用 cmscan