cmscan - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 cmscan

这是命令 cmscan，可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

cmscan - 针对协方差模型数据库搜索序列

概要

厘米扫描 [选项]

商品描述

厘米扫描 用于根据协方差模型集合搜索序列。对于每个
顺序 , 使用该查询序列来搜索 CM 的目标数据库
, 并输出与最重要匹配的 CM 的排名列表
序列。

这款可能包含多个查询序列。它可以是 FASTA 格式，或者
其他几种常见的序列文件格式（genbank、embl 等），或在
对齐文件格式（斯德哥尔摩、对齐的 fasta 等）。见 --q格式选项
获取完整清单。

这款需要按下使用 压缩包 在它可以被搜索之前 厘米扫描。 本篇
创建四个二进制文件，后缀为 .i1{fimp}。此外，一定是
校准为 E 值校准在被按下之前 压榨。

查询可能是“-”（破折号），在这种情况下，查询序列是
从一个读管道而不是来自文件。这不能从
流，因为它需要由生成的那四个辅助二进制文件 压榨。

输出格式被设计为人类可读的，但通常如此庞大以至于
阅读它是不切实际的，解析它是一种痛苦。这 --tblout 选项将输出保存在一个
简单的表格格式，简洁且易于解析。这 -o 选项允许
重定向主输出，包括将其丢弃在 /dev/null 中。

厘米扫描 使用专门的算法重新检查目标序列的 5' 和 3' 末端
用于检测被截断命中，在实际完整的 5' 和/或 3' 端的哪一部分
目标序列文件中缺少长度同源序列。这些类型的点击
将在由未组装测序读取组成的序列文件中最常见。经过
默认情况下，任何 5' 截断的命中都需要包含目标的第一个残基
它来自于的序列 , 并且任何 3' 截断的命中都需要包括
它源自的目标序列的最终残基。任何 5' 和 3' 截断命中必须
包括其来源的目标序列的第一个和最后一个残基。这 --anytrunc
选项将放宽对命中包含序列端点的要求，并被截断
允许命中在目标序列的任何位置开始和停止。重要的
尽管如此，与 --anytrunc， 命中 E 值将不太准确，因为模型校准确实如此
不考虑截断命中的可能性，因此请谨慎使用。这 --notrunc
选项可用于关闭截断命中检测。 --notrunc 会减少跑步
的时间 厘米扫描， 对目标最重要包含许多短的文件
序列。截断命中检测会在以下情况下自动关闭 - 最大限度， ——不，嗯，
--qdb， or --无带 使用选项是因为它依赖于使用加速 HMM
由任何这些选项关闭的带状对齐策略。

配置

-h 帮助; 打印命令行用法和所有可用选项的简短提醒。

-g 打开全球本土化对齐算法，对于查询模型是全局的，并且
本地相对于目标数据库。默认情况下，局部对齐
使用的算法对于目标序列和
模型。在本地模式下，如有必要，对齐跨越两个或多个子序列
（例如，如果查询模型和目标序列的结构只是部分
共享），允许结构中的某些大的插入和删除
惩罚不同于正常的插入缺失。本地模式在经验上表现更好
基准并且对远程同源性检测明显更敏感。
根据经验，glocal 搜索返回的点击次数比本地搜索少得多，因此 glocal
某些应用程序可能需要。

-Z 像搜索空间大小一样计算 E 值兆碱基 (Mb)。没有
使用这个选项，每个查询序列的搜索空间大小都会发生变化，它是
定义为当前查询序列的长度乘以 2（因为两条链
的序列将被搜索）乘以 CM 的数量 .

--开发帮助
打印帮助，如 -h , 还包括未显示的专家选项
- -h . 这些专家选项预计与广大
大多数用户等都没有在手册页中描述。唯一的资源
为了理解他们实际所做的是简短的一行描述输出
，尤其是 --开发帮助 已启用，以及源代码。

配置用于控制 OUTPUT

-o 将主要的人类可读输出定向到文件而不是默认的标准输出。

--tblout
保存一个简单的表格（空格分隔）文件总结找到的命中，一个
每个命中的数据线。此文件的格式在 Infernal 用户中描述
指南。

--acc 在主输出中使用名称而不是名称，如果可用于配置文件
和/或序列。

--诺阿里
省略主输出中的对齐部分。这样可以大大减少输出
卷。

--notew
无限制主输出中每行的长度。默认限制为 120
每行字符，这有助于在终端上清晰地显示输出和
在编辑器中，但可以截断目标配置文件描述行。

--textw
将主输出的行长度限制设置为每行字符。默认是
120.

--详细
在主输出中包含额外的搜索管道统计信息，包括过滤器
截断命中检测的生存统计数据和丢弃的信封数量
由于矩阵大小溢出。

配置控制 REPORTING 阈值

报告阈值控制在输出文件（主要输出和
--tblout）命中按统计显着性（E 值）排序。默认情况下，所有命中
报告 E 值 <= 10。以下选项允许您更改默认设置
E 值报告阈值，或改为使用比特分数阈值。

-E 在每个目标的输出中，报告 E 值为 <= 的目标序列 . 这款
默认为 10.0，这意味着平均会报告大约 10 个误报
每个查询，所以你可以看到噪音的顶部并自己决定它是否
真的很吵。

-T 不是在 E 值上对每个 CM 输出进行阈值处理，而是使用
位得分 >= .

配置用于包容阈值

包含阈值比报告阈值更严格。包含阈值控制
哪些命中被认为足够可靠，可以包含在可能的后续
搜索回合，或在命中中标记为重要（“！”）而不是有问题的（“？”）
输出。

--ince
使用 <= 的 E 值作为命中包含阈值。默认值为 0.01，
这意味着平均而言，每 1 次预计会有 100 次误报
使用不同的查询序列进行搜索。

--incT
不使用 E 值来设置包含阈值，而是使用一点
得分 >= 作为命中包含阈值。默认情况下，此选项未设置。

配置用于特定型号 SCORE 阈值

策划的 CM 数据库可以为每个 CM 定义特定的比特分数阈值，取代任何
仅基于统计显着性的阈值。

要使用这些选项，配置文件必须包含适当的（GA、TC 和/或 NC）
可选的分数阈值注释；这是由构建从斯德哥尔摩格式
对齐文件。每个阈值选项都有一个分数位，并表现得好像 -T
--incT 已专门使用每个模型的策划阈值应用。

--cut_ga
使用模型中的 GA（收集）位分数来设置命中报告和包含
阈值。 GA 阈值通常被认为是可靠的策划
界定家庭成员的门槛；例如，在 Rfam 中，这些阈值
根据使用 Rfam Seed 的搜索定义包含在 Rfam Full 对齐中的内容
楷模。

--cut_nc
使用模型中的 NC（噪声截止）位得分阈值来设置命中报告
和包含阈值。 NC 阈值通常被认为是
得分最高的已知误报。

--cut_tc
使用模型中的 TC（可信截止）位得分阈值来设置命中报告
和包含阈值。 TC 阈值通常被认为是
得分最低的已知真阳性，高于所有已知假阳性。

配置控制 “ 加速管道

Infernal 1.1 搜索在六级过滤器管道中得到加速。前五个
阶段使用配置文件 HMM 来定义传递到阶段 XNUMX CM CYK 的包络
筛选。使用 CM 为所有过滤器中幸存下来的任何信封分配最终分数
内部算法。

配置文件 HMM 过滤器由构建程序并存储在 .

每个连续的过滤器都比前一个慢，但比它好
区分可能包含高分 CM 命中的子序列和包含高分 CM 命中的子序列
不是。前三个 HMM 滤波器级与 HMMER3 中使用的相同。第一阶段（F1）
是针对长序列修改的本地 HMM SSV 过滤器。阶段 2 (F2) 是本地 HMM
维特比过滤器。第 3 阶段 (F3) 是本地 HMM 前向滤波器。前三个中的每一个
stage 在本地模式下使用配置文件 HMM，它允许目标子序列与
HMM 的任何区域。 Stage 4 (F4) 是一个全局 HMM 过滤器，它需要一个目标
与全长轮廓 HMM 对齐的子序列。第 5 阶段（F5）是全局 HMM
包络定义过滤器，它使用 HMMER3 的域识别启发式来定义
包络边界。在从 2 到 5 的每个阶段之后，一个偏置滤波器步骤（F2b、F3b、F4b 和
F5b) 用于删除由于偏向而似乎已通过过滤器的序列
单独组成。任何在 F1 到 F5b 阶段存活的信封然后通过
本地 CM CYK 过滤器。 CYK 过滤器使用从 HMM 派生的约束（带）
对齐包络以减少所需的计算次数并节省时间。
任何通过 CYK 的信封都使用本地 CM Inside 算法评分，再次使用 HMM
带加速。

定义子序列所需的最低分数的默认过滤器阈值
根据搜索空间 (Z) 的大小定义每个阶段的存活率，其定义为
作为当前查询序列的长度乘以 2（因为两条链都是
搜索) 次中的配置文件数量 . 但是，如果 -Z or --FZ
选项被使用，那么搜索空间将被认为是为目的
定义过滤器阈值。

对于更大的数据库，过滤器更严格，导致更多加速，但
可能会造成更大的灵敏度损失。基本原理是，对于较大的数据库，
命中必须有更高的分数才能达到统计显着性，所以更严格的过滤
删除较低得分的无关紧要的命中是可以接受的。

所有可能的搜索空间大小和所有过滤器阶段的 P 值阈值是
接下来列出。（0.01 的 P 值阈值意味着大约 1% 的最高得分
期望非同源子序列通过过滤器。）Z 定义为
完整目标序列文件中的核苷酸乘以 2，因为两条链都将
搜索每个模型。

如果 Z 小于 2 Mb：F1 为 0.35； F2和F2b关闭； F3、F3b、F4、F4b和F5为0.02；
F6 是 0.0001。

如果 Z 介于 2 Mb 和 20 Mb 之间：F1 为 0.35； F2和F2b关闭； F3、F3b、F4、F4b 和 F5
是 0.005； F6 是 0.0001。

如果 Z 介于 20 Mb 和 200 Mb 之间：F1 为 0.35； F2和F2b为0.15； F3、F3b、F4、F4b 和 F5
是 0.003； F6 是 0.0001。

如果 Z 介于 200 Mb 和 2 Gb 之间：F1 为 0.15； F2和F2b为0.15； F3, F3b, F4, F4b, F5,
F5b 为 0.0008； F6 为 0.0001。

如果 Z 介于 2 Gb 和 20 Gb 之间：F1 为 0.15； F2和F2b为0.15； F3、F3b、F4、F4b、F5 和
F5b 为 0.0002； F6 为 0.0001。

如果 Z 大于 20 Gb：F1 为 0.06； F2和F2b为0.02； F3、F3b、F4、F4b、F5 和 F5b
是 0.0002； F6 为 0.0001。

这些阈值是根据内部基准测试的性能选择的
不同的可能设置。

有五个选项可用于控制一般过滤级别。这些选项是，在
从最不严格（最慢但最敏感）到最严格（最快但最不敏感）的顺序
敏感的）： - 最大限度， ——不，嗯， - 中， - 默认， （这是默认设置） --rfam。 和
——嗯。 通过 - 默认 过滤器阈值将取决于数据库大小。见
有关更多信息，请在下面对每个选项进行说明。

此外，专家用户可以精确控制每个过滤阶段得分阈值
此 --F1, --F1b， --F2, --F2b， --F3, --F3b， --F4, --F4b， --F5, --F5b， 和 --F6 选项。作为
以及打开或关闭每个阶段 --noF1, --doF1b， --noF2, --noF2b， --noF3,
--noF3b， --noF4, --noF4b， --noF5, 和 --noF6。 选项。这些选项仅显示
如果 --开发帮助 选项用于保持显示选项的数量 -h
合理，因为它们只对少数用户有用。

作为特例，对于任何模型具有零碱基对，配置文件 HMM
运行搜索而不是 CM 搜索。 HMM 算法比 CM 更有效
算法，并且对于没有辅助的模型，CM 算法的好处将丢失
结构（零碱基对）。这些配置文件 HMM 搜索的运行速度将明显快于
CM 搜索。您可以使用 --嗯嗯 选项。更多
有关仅 HMM 搜索的信息，请参阅用户指南。

- 最大限度 关闭所有过滤器，并在每个全长目标上运行非带状内部
序列。这在一定程度上提高了灵敏度，但速度上的代价非常大。

——诺姆
关闭所有 HMM 滤波器级（F1 到 F5b）。 CYK 过滤器，使用 QDB，将
在每个全长目标序列上运行，并将强制执行 P 值阈值
0.0001。每个在 CYK 中幸存下来的子序列都将被传递给 Inside，这将
也使用 QDB（但更松散的集合）。这在一定程度上提高了灵敏度
速度成本高。

- 中 关闭 HMM SSV 和 Viterbi 滤波器级（F1 到 F2b）。设置剩余 HMM
过滤阈值（F3 到 F5b）默认为 0.02，但可以更改为 -
--Fmid 序列。这可能会以显着的速度成本增加灵敏度。

- 默认
使用默认过滤策略。该选项默认开启。过滤器
阈值是根据数据库大小确定的。

--rfam 使用为大型数据库（超过 20 Gb）设计的严格过滤策略。这个
将以潜在的敏感性代价加速搜索。

--嗯嗯
仅使用过滤器配置文件 HMM 进行搜索，不要使用 CM。只过滤
将执行阶段 F1 到 F3，使用严格的 P 值阈值（0.02
F1，F0.001 为 2，F0.00001 为 3）。另外一个偏置组合过滤器是
在 F1 阶段后使用（P=0.02 生存阈值）。任何幸存下来的打击
所有阶段并且具有高于报告阈值的 HMM E 值或位得分将
被输出。用户可以更改 HMM-only 过滤器阈值和选项
--嗯F1， --嗯F2， --嗯F3， --hmmnobias， --嗯nonull2， 和 --嗯最大。 默认情况下，
搜索任何具有零碱基对的模型将在 HMM-only 模式下运行。这个可以
被关闭，强制 CM 搜索这些模型 ——诺姆蒙利 选项。

--FZ
将过滤器阈值设置为数据库使用的默认值兆碱基 (Mb)。
如果与大于 20000 (20 Gb) 此选项与
--rfam。

--Fmid
随着 - 中 选项将 HMM 过滤器阈值（F3 到 F5b）设置为 . By
默认，是0.02。

其他配置

--notrunc
关闭截断命中检测。

--anytrunc
允许截断的命中在目标序列中的任何位置开始和结束。经过
默认情况下，5' 截断的命中必须包括其目标序列的第一个残基
并且 3' 截断的命中必须包括其目标序列的最终残基。和
使用此选项，您可能会观察到较少的全长命中，这些命中延伸到开头和
查询CM结束。

--非空3
关闭对有偏见的组合的 null3 CM 分数校正。这个修正是
在 HMM 过滤阶段不使用。

--mx大小
将允许的最大 CM DP 矩阵大小设置为兆字节。默认这个尺寸
是 128 Mb。这对于绝大多数搜索来说应该足够大，
特别是对于较小的模型。如果 厘米搜索 遇到 CYK 中的信封或
需要更大矩阵的舞台内部，信封将从
考虑。这种行为就像一个额外的过滤器，可以防止昂贵的
（慢）CM DP 计算，但潜在的敏感性成本。请注意，如果
厘米搜索 正在运行多核机器上的多个线程，然后每个线程
线程可能有一个最大大小的分配矩阵 Mb 在任何给定时间。

--smx大小
将允许的最大 CM 搜索 DP 矩阵大小设置为兆字节。默认情况下
这个大小是 128 Mb。此选项仅在 CM 不使用 HMM 时相关
带状矩阵，即如果 - 最大限度， ——不，嗯， --qdb， --fqdb， --无带， or
--f非带状 选项也被使用。请注意，如果 厘米搜索 正在运行
多核机器上的多个线程，那么每个线程可能有一个分配的
最大大小的矩阵 Mb 在任何给定时间。

--cyk 使用 CYK 算法而不是 Inside 来确定所有命中的最终分数。

--阿奇克 使用 CYK 算法来对齐命中。默认情况下，Durbin/Holmes 最佳精度
使用算法，它找到最大化预期精度的对齐方式
所有对齐的残基。

--wcx
对于每个 CM，将 W 参数（命中的预期最大长度）设置为
乘以模型的共识长度。默认情况下，W 参数是从
CM 文件，并根据模型的转移概率计算
by 厘米构建。 您可以使用以下命令找出模型的默认 W 值 厘米统计。 本篇
应谨慎使用该选项，因为它会影响多个过滤管道
以不明显的方式不同的阶段。只推荐给专家用户
搜索比用于构建的任何同系物长得多的命中
示范 厘米构建， 例如具有大内含子或其他大插入的那些。它
不能与 ——不，嗯， --fqdb or --qdb 选项因为在
这些情况 W 受查询相关频带的限制。

--toponly
只搜索目标序列的顶部（Watson）链 . 默认情况下，
搜索两条链。这将使搜索空间大小 (Z) 减半。

--仅底部
只搜索目标序列的底部 (Crick) 链 . By
默认情况下，搜索两条链。这将使搜索空间大小 (Z) 减半。

--q格式
断言查询序列数据库文件是格式 . 接受的格式
包括法斯塔，标志，基因库， ddbj, 斯德哥尔摩， pfam， 2米，阿发，集群，和飞利浦
默认是自动检测文件的格式。

--glist
配置模型的子集在全局对齐模式下，而不是
本地模式，即文件中列出的模型 . 配置所有其他型号
（未列在 ) 在本地模式下。此选项不兼容 -G。
文件必须列出模型的有效名称来自 , 每个由任何分隔
空白字符（例如换行符）。

- 中央处理器
将并行工作线程的数量设置为 . 默认情况下，Infernal 设置这个
到它在您的机器中检测到的 CPU 内核数量 - 也就是说，它试图
最大限度地利用可用的处理器内核。环境高于
可用内核的数量几乎没有价值，但您可能希望将其设置为
少一些。你也可以通过设置环境来控制这个数字
变数 INFERNAL_NCPU。此选项仅在编译 Infernal 时可用
具有 POSIX 线程支持。这是默认设置，但它可能已在
出于某种原因，您的站点或机器的编译时间。

--失速
用于调试 MPI master/worker 版本：启动后暂停，以启用
开发人员将调试器附加到正在运行的主进程和工作进程。发送
SIGCONT 信号以释放暂停。（在 gdb 下：（GDB）信号信号）（只要
如果在编译时启用了可选的 MPI 支持，则可用。）

--mpi 在 MPI 主/工作模式下运行，使用姆皮伦。（仅当可选 MPI
在编译时启用了支持。）

使用 onworks.net 服务在线使用 cmscan

cmscan - 云端在线

程序：

您的姓名

概要

商品描述

配置

配置 用于 控制 OUTPUT

配置 控制 REPORTING 阈值

配置 用于 包容 阈值

配置 用于 特定型号 SCORE 阈值

配置 控制 “ 加速 管道

其他 配置