英语法语西班牙文

OnWorks 网站图标

cmscan - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 cmscan

这是命令 cmscan,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


cmscan - 针对协方差模型数据库搜索序列

概要


厘米扫描 [选项]

商品描述


厘米扫描 用于根据协方差模型集合搜索序列。 对于每个
顺序 , 使用该查询序列来搜索 CM 的目标数据库
, 并输出与最重要匹配的 CM 的排名列表
序列。

这款 可能包含多个查询序列。 它可以是 FASTA 格式,或者
其他几种常见的序列文件格式(genbank、embl 等),或在
对齐文件格式(斯德哥尔摩、对齐的 fasta 等)。 见 --q格式 选项
获取完整清单。

这款 需要按下使用 压缩包 在它可以被搜索之前 厘米扫描。 本篇
创建四个二进制文件,后缀为 .i1{fimp}。 此外, 一定是
校准为 E 值 校准 在被按下之前 压榨。

查询 可能是“-”(破折号),在这种情况下,查询序列是
从一个读管道而不是来自文件。 这 不能从
流,因为它需要由生成的那四个辅助二进制文件 压榨。

输出格式被设计为人类可读的,但通常如此庞大以至于
阅读它是不切实际的,解析它是一种痛苦。 这 --tblout 选项将输出保存在一个
简单的表格格式,简洁且易于解析。 这 -o 选项允许
重定向主输出,包括将其丢弃在 /dev/null 中。

厘米扫描 使用专门的算法重新检查目标序列的 5' 和 3' 末端
用于检测 被截断 命中,在实际完整的 5' 和/或 3' 端的哪一部分
目标序列文件中缺少长度同源序列。 这些类型的点击
将在由未组装测序读取组成的序列文件中最常见。 经过
默认情况下,任何 5' 截断的命中都需要包含目标的第一个残基
它来自于的序列 , 并且任何 3' 截断的命中都需要包括
它源自的目标序列的最终残基。 任何 5' 和 3' 截断命中必须
包括其来源的目标序列的第一个和最后一个残基。 这 --anytrunc
选项将放宽对命中包含序列端点的要求,并被截断
允许命中在目标序列的任何位置开始和停止。 重要的
尽管如此,与 --anytrunc, 命中 E 值将不太准确,因为模型校准确实如此
不考虑截断命中的可能性,因此请谨慎使用。 这 --notrunc
选项可用于关闭截断命中检测。 --notrunc 会减少跑步
的时间 厘米扫描, 对目标最重要 包含许多短的文件
序列。 截断命中检测会在以下情况下自动关闭 - 最大限度, ——不,嗯,
--qdb, or --无带 使用选项是因为它依赖于使用加速 HMM
由任何这些选项关闭的带状对齐策略。

配置


-h 帮助; 打印命令行用法和所有可用选项的简短提醒。

-g 打开 全球本土化 对齐算法,对于查询模型是全局的,并且
本地相对于目标数据库。 默认情况下,局部对齐
使用的算法对于目标序列和
模型。 在本地模式下,如有必要,对齐跨越两个或多个子序列
(例如,如果查询模型和目标序列的结构只是部分
共享),允许结构中的某些大的插入和删除
惩罚不同于正常的插入缺失。 本地模式在经验上表现更好
基准并且对远程同源性检测明显更敏感。
根据经验,glocal 搜索返回的点击次数比本地搜索少得多,因此 glocal
某些应用程序可能需要。

-Z 像搜索空间大小一样计算 E 值 兆碱基 (Mb)。 没有
使用这个选项,每个查询序列的搜索空间大小都会发生变化,它是
定义为当前查询序列的长度乘以 2(因为两条链
的序列将被搜索)乘以 CM 的数量 .

--开发帮助
打印帮助,如 -h , 还包括未显示的专家选项
- -h . 这些专家选项预计与广大
大多数用户等都没有在手册页中描述。 唯一的资源
为了理解他们实际所做的是简短的一行描述输出
,尤其是 --开发帮助 已启用,以及源代码。

配置 用于 控制 OUTPUT


-o 将主要的人类可读输出定向到文件 而不是默认的标准输出。

--tblout
保存一个简单的表格(空格分隔)文件总结找到的命中,一个
每个命中的数据线。 此文件的格式在 Infernal 用户中描述
指南。

--acc 在主输出中使用名称而不是名称,如果可用于配置文件
和/或序列。

--诺阿里
省略主输出中的对齐部分。 这样可以大大减少输出
卷。

--notew
无限制主输出中每行的长度。 默认限制为 120
每行字符,这有助于在终端上清晰地显示输出和
在编辑器中,但可以截断目标配置文件描述行。

--textw
将主输出的行长度限制设置为 每行字符。 默认是
120.

--详细
在主输出中包含额外的搜索管道统计信息,包括过滤器
截断命中检测的生存统计数据和丢弃的信封数量
由于矩阵大小溢出。

配置 控制 REPORTING 阈值


报告阈值控制在输出文件(主要输出和
--tblout) 命中按统计显着性(E 值)排序。 默认情况下,所有命中
报告 E 值 <= 10。 以下选项允许您更改默认设置
E 值报告阈值,或改为使用比特分数阈值。

-E 在每个目标的输出中,报告 E 值为 <= 的目标序列 . 这款
默认为 10.0,这意味着平均会报告大约 10 个误报
每个查询,所以你可以看到噪音的顶部并自己决定它是否
真的很吵。

-T 不是在 E 值上对每个 CM 输出进行阈值处理,而是使用
位得分 >= .

配置 用于 包容 阈值


包含阈值比报告阈值更严格。 包含阈值控制
哪些命中被认为足够可靠,可以包含在可能的后续
搜索回合,或在命中中标记为重要(“!”)而不是有问题的(“?”)
输出。

--ince
使用 <= 的 E 值 作为命中包含阈值。 默认值为 0.01,
这意味着平均而言,每 1 次预计会有 100 次误报
使用不同的查询序列进行搜索。

--incT
不使用 E 值来设置包含阈值,而是使用一点
得分 >= 作为命中包含阈值。 默认情况下,此选项未设置。

配置 用于 特定型号 SCORE 阈值


策划的 CM 数据库可以为每个 CM 定义特定的比特分数阈值,取代任何
仅基于统计显着性的阈值。

要使用这些选项,配置文件必须包含适当的(GA、TC 和/或 NC)
可选的分数阈值注释; 这是由 构建 从斯德哥尔摩格式
对齐文件。 每个阈值选项都有一个分数 位,并表现得好像 -T
--incT 已专门使用每个模型的策划阈值应用。

--cut_ga
使用模型中的 GA(收集)位分数来设置命中报告和包含
阈值。 GA 阈值通常被认为是可靠的策划
界定家庭成员的门槛; 例如,在 Rfam 中,这些阈值
根据使用 Rfam Seed 的搜索定义包含在 Rfam Full 对齐中的内容
楷模。

--cut_nc
使用模型中的 NC(噪声截止)位得分阈值来设置命中报告
和包含阈值。 NC 阈值通常被认为是
得分最高的已知误报。

--cut_tc
使用模型中的 TC(可信截止)位得分阈值来设置命中报告
和包含阈值。 TC 阈值通常被认为是
得分最低的已知真阳性,高于所有已知假阳性。

配置 控制 加速 管道


Infernal 1.1 搜索在六级过滤器管道中得到加速。 前五个
阶段使用配置文件 HMM 来定义传递到阶段 XNUMX CM CYK 的包络
筛选。 使用 CM 为所有过滤器中幸存下来的任何信封分配最终分数
内部算法。

配置文件 HMM 过滤器由 构建 程序并存储在 .

每个连续的过滤器都比前一个慢,但比它好
区分可能包含高分 CM 命中的子序列和包含高分 CM 命中的子序列
不是。 前三个 HMM 滤波器级与 HMMER3 中使用的相同。 第一阶段(F1)
是针对长序列修改的本地 HMM SSV 过滤器。 阶段 2 (F2) 是本地 HMM
维特比过滤器。 第 3 阶段 (F3) 是本地 HMM 前向滤波器。 前三个中的每一个
stage 在本地模式下使用配置文件 HMM,它允许目标子序列与
HMM 的任何区域。 Stage 4 (F4) 是一个全局 HMM 过滤器,它需要一个目标
与全长轮廓 HMM 对齐的子序列。 第 5 阶段(F5)是全局 HMM
包络定义过滤器,它使用 HMMER3 的域识别启发式来定义
包络边界。 在从 2 到 5 的每个阶段之后,一个偏置滤波器步骤(F2b、F3b、F4b 和
F5b) 用于删除由于偏向而似乎已通过过滤器的序列
单独组成。 任何在 F1 到 F5b 阶段存活的信封然后通过
本地 CM CYK 过滤器。 CYK 过滤器使用从 HMM 派生的约束(带)
对齐包络以减少所需的计算次数并节省时间。
任何通过 CYK 的信封都使用本地 CM Inside 算法评分,再次使用 HMM
带加速。

定义子序列所需的最低分数的默认过滤器阈值
根据搜索空间 (Z) 的大小定义每个阶段的存活率,其定义为
作为当前查询序列的长度乘以 2(因为两条链都是
搜索) 次中的配置文件数量 . 但是,如果 -Z or --FZ
选项被使用,那么搜索空间将被认为是 为目的
定义过滤器阈值。

对于更大的数据库,过滤器更严格,导致更多加速,但
可能会造成更大的灵敏度损失。 基本原理是,对于较大的数据库,
命中必须有更高的分数才能达到统计显着性,所以更严格的过滤
删除较低得分的无关紧要的命中是可以接受的。

所有可能的搜索空间大小和所有过滤器阶段的 P 值阈值是
接下来列出。 (0.01 的 P 值阈值意味着大约 1% 的最高得分
期望非同源子序列通过过滤器。)Z 定义为
完整目标序列文件中的核苷酸乘以 2,因为两条链都将
搜索每个模型。

如果 Z 小于 2 Mb:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b和F5为0.02;
F6 是 0.0001。

如果 Z 介于 2 Mb 和 20 Mb 之间:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b 和 F5
是 0.005; F6 是 0.0001。

如果 Z 介于 20 Mb 和 200 Mb 之间:F1 为 0.35; F2和F2b为0.15; F3、F3b、F4、F4b 和 F5
是 0.003; F6 是 0.0001。

如果 Z 介于 200 Mb 和 2 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3, F3b, F4, F4b, F5,
F5b 为 0.0008; F6 为 0.0001。

如果 Z 介于 2 Gb 和 20 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3、F3b、F4、F4b、F5 和
F5b 为 0.0002; F6 为 0.0001。

如果 Z 大于 20 Gb:F1 为 0.06; F2和F2b为0.02; F3、F3b、F4、F4b、F5 和 F5b
是 0.0002; F6 为 0.0001。

这些阈值是根据内部基准测试的性能选择的
不同的可能设置。

有五个选项可用于控制一般过滤级别。 这些选项是,在
从最不严格(最慢但最敏感)到最严格(最快但最不敏感)的顺序
敏感的): - 最大限度, ——不,嗯, - 中, - 默认, (这是默认设置) --rfam。
——嗯。 通过 - 默认 过滤器阈值将取决于数据库大小。 见
有关更多信息,请在下面对每个选项进行说明。

此外,专家用户可以精确控制每个过滤阶段得分阈值
--F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b,--F6 选项。 作为
以及打开或关闭每个阶段 --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5,--noF6。 选项。 这些选项仅显示
如果 --开发帮助 选项用于保持显示选项的数量 -h
合理,因为它们只对少数用户有用。

作为特例,对于任何模型 具有零碱基对,配置文件 HMM
运行搜索而不是 CM 搜索。 HMM 算法比 CM 更有效
算法,并且对于没有辅助的模型,CM 算法的好处将丢失
结构(零碱基对)。 这些配置文件 HMM 搜索的运行速度将明显快于
CM 搜索。 您可以使用 --嗯嗯 选项。 更多
有关仅 HMM 搜索的信息,请参阅用户指南。

- 最大限度 关闭所有过滤器,并在每个全长目标上运行非带状内部
序列。 这在一定程度上提高了灵敏度,但速度上的代价非常大。

——诺姆
关闭所有 HMM 滤波器级(F1 到 F5b)。 CYK 过滤器,使用 QDB,将
在每个全长目标序列上运行,并将强制执行 P 值阈值
0.0001。 每个在 CYK 中幸存下来的子序列都将被传递给 Inside,这将
也使用 QDB(但更松散的集合)。 这在一定程度上提高了灵敏度
速度成本高。

- 中 关闭 HMM SSV 和 Viterbi 滤波器级(F1 到 F2b)。 设置剩余 HMM
过滤阈值(F3 到 F5b)默认为 0.02,但可以更改为 -
--Fmid 序列。 这可能会以显着的速度成本增加灵敏度。

- 默认
使用默认过滤策略。 该选项默认开启。 过滤器
阈值是根据数据库大小确定的。

--rfam 使用为大型数据库(超过 20 Gb)设计的严格过滤策略。 这个
将以潜在的敏感性代价加速搜索。

--嗯嗯
仅使用过滤器配置文件 HMM 进行搜索,不要使用 CM。 只过滤
将执行阶段 F1 到 F3,使用严格的 P 值阈值(0.02
F1,F0.001 为 2,F0.00001 为 3)。 另外一个偏置组合过滤器是
在 F1 阶段后使用(P=0.02 生存阈值)。 任何幸存下来的打击
所有阶段并且具有高于报告阈值的 HMM E 值或位得分将
被输出。 用户可以更改 HMM-only 过滤器阈值和选项
--嗯F1, --嗯F2, --嗯F3, --hmmnobias, --嗯nonull2,--嗯最大。 默认情况下,
搜索任何具有零碱基对的模型将在 HMM-only 模式下运行。 这个可以
被关闭,强制 CM 搜索这些模型 ——诺姆蒙利 选项。

--FZ
将过滤器阈值设置为数据库使用的默认值 兆碱基 (Mb)。
如果与 大于 20000 (20 Gb) 此选项与
--rfam。

--Fmid
随着 - 中 选项将 HMM 过滤器阈值(F3 到 F5b)设置为 . By
默认, 是0.02。

其他 配置


--notrunc
关闭截断命中检测。

--anytrunc
允许截断的命中在目标序列中的任何位置开始和结束。 经过
默认情况下,5' 截断的命中必须包括其目标序列的第一个残基
并且 3' 截断的命中必须包括其目标序列的最终残基。 和
使用此选项,您可能会观察到较少的全长命中,这些命中延伸到开头和
查询CM结束。

--非空3
关闭对有偏见的组合的 null3 CM 分数校正。 这个修正是
在 HMM 过滤阶段不使用。

--mx大小
将允许的最大 CM DP 矩阵大小设置为 兆字节。 默认这个尺寸
是 128 Mb。 这对于绝大多数搜索来说应该足够大,
特别是对于较小的模型。 如果 厘米搜索 遇到 CYK 中的信封或
需要更大矩阵的舞台内部,信封将从
考虑。 这种行为就像一个额外的过滤器,可以防止昂贵的
(慢)CM DP 计算,但潜在的敏感性成本。 请注意,如果
厘米搜索 正在运行 多核机器上的多个线程,然后每个线程
线程可能有一个最大大小的分配矩阵 Mb 在任何给定时间。

--smx大小
将允许的最大 CM 搜索 DP 矩阵大小设置为 兆字节。 默认情况下
这个大小是 128 Mb。 此选项仅在 CM 不使用 HMM 时相关
带状矩阵,即如果 - 最大限度, ——不,嗯, --qdb, --fqdb, --无带, or
--f非带状 选项也被使用。 请注意,如果 厘米搜索 正在运行
多核机器上的多个线程,那么每个线程可能有一个分配的
最大大小的矩阵 Mb 在任何给定时间。

--cyk 使用 CYK 算法而不是 Inside 来确定所有命中的最终分数。

--阿奇克 使用 CYK 算法来对齐命中。 默认情况下,Durbin/Holmes 最佳精度
使用算法,它找到最大化预期精度的对齐方式
所有对齐的残基。

--wcx
对于每个 CM,将 W 参数(命中的预期最大长度)设置为
乘以模型的共识长度。 默认情况下,W 参数是从
CM 文件,并根据模型的转移概率计算
by 厘米构建。 您可以使用以下命令找出模型的默认 W 值 厘米统计。 本篇
应谨慎使用该选项,因为它会影响多个过滤管道
以不明显的方式不同的阶段。 只推荐给专家用户
搜索比用于构建的任何同系物长得多的命中
示范 厘米构建, 例如具有大内含子或其他大插入的那些。 它
不能与 ——不,嗯, --fqdb or --qdb 选项因为在
这些情况 W 受查询相关频带的限制。

--toponly
只搜索目标序列的顶部(Watson)链 . 默认情况下,
搜索两条链。 这将使搜索空间大小 (Z) 减半。

--仅底部
只搜索目标序列的底部 (Crick) 链 . By
默认情况下,搜索两条链。 这将使搜索空间大小 (Z) 减半。

--q格式
断言查询序列数据库文件是格式 . 接受的格式
包括 法斯塔, 标志, 基因库, ddbj, 斯德哥尔摩, pfam, 2米, 阿发, 集群,飞利浦
默认是自动检测文件的格式。

--glist
配置模型的子集 在全局对齐模式下,而不是
本地模式,即文件中列出的模型 . 配置所有其他型号
(未列在 ) 在本地模式下。 此选项不兼容 -G。
文件 必须列出模型的有效名称来自 , 每个由任何分隔
空白字符(例如换行符)。

- 中央处理器
将并行工作线程的数量设置为 . 默认情况下,Infernal 设置这个
到它在您的机器中检测到的 CPU 内核数量 - 也就是说,它试图
最大限度地利用可用的处理器内核。 环境 高于
可用内核的数量几乎没有价值,但您可能希望将其设置为
少一些。 你也可以通过设置环境来控制这个数字
变数 INFERNAL_NCPU。 此选项仅在编译 Infernal 时可用
具有 POSIX 线程支持。 这是默认设置,但它可能已在
出于某种原因,您的站点或机器的编译时间。

--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号) (只要
如果在编译时启用了可选的 MPI 支持,则可用。)

--mpi 在 MPI 主/工作模式下运行,使用 姆皮伦。 (仅当可选 MPI
在编译时启用了支持。)

使用 onworks.net 服务在线使用 cmscan


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad