这是命令 hmmsearch,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
hmmsearch - 针对序列数据库搜索配置文件
概要
嗯搜索 [选项]
商品描述
嗯搜索 用于针对序列数据库搜索一个或多个配置文件。 对于每个
简介 ,使用该查询配置文件搜索序列的目标数据库
,并输出与最重要匹配的序列的排序列表
轮廓。 要从多个路线构建纵断面,请参见 构建.
无论是查询 或目标 可能是“-”(破折号),其中
如果查询配置文件或目标数据库输入将从管道代替
来自一个文件。 只能通过一个输入源, 不是都。 一个例外是
如果 包含多个配置文件查询,然后 不能来自
,因为我们无法倒带流目标数据库以使用另一个
个人资料。
输出格式被设计为人类可读的,但通常如此庞大以至于
阅读它是不切实际的,解析它是一种痛苦。 这 --tblout 和 --domtblout 选项
以简洁且易于解析的简单表格格式保存输出。 这 -o 选项
允许重定向主输出,包括将其丢弃在 /dev/null 中。
配置
-h 帮助; 打印命令行用法和所有可用选项的简短提醒。
配置 用于 控制 OUTPUT
-o 将主要的人类可读输出定向到文件 而不是默认的标准输出。
-A 保存所有重要命中的多重对齐(那些满足 包容
门槛) 到文件 .
--tblout
保存一个简单的表格(空格分隔)文件,总结每个目标的输出,
每个发现的同源目标序列有一条数据线。
--domtblout
保存一个简单的表格(空格分隔)文件,总结每个域的输出,
每个同源域在查询序列中检测到一个数据行
同源模型。
--acc 在主输出中使用名称而不是名称,如果可用于配置文件
和/或序列。
--诺阿里
省略主输出中的对齐部分。 这样可以大大减少输出
卷。
--notew
无限制主输出中每行的长度。 默认限制为 120
每行字符,这有助于在终端上清晰地显示输出和
在编辑器中,但可以截断目标配置文件描述行。
--textw
将主输出的行长度限制设置为 每行字符。 默认是
120.
配置 控制 REPORTING 阈值
报告阈值控制在输出文件(主要输出、
--tblout及 --domtblout)。 序列命中和域命中按统计排序
重要性(E 值)和输出在两个部分中生成,称为 per-target 和 per-
域输出。 在每个目标的输出中,默认情况下,所有序列命中的 E 值 <= 10
被报道。 在每个域的输出中,对于通过每个目标的每个目标
报告阈值,报告满足每个域报告阈值的所有域。
默认情况下,这些是条件 E 值 <= 10 的域。以下选项
允许您更改默认的 E 值报告阈值,或使用位得分
取而代之的是阈值。
-E 在每个目标的输出中,报告 E 值为 <= 的目标序列 。 该
默认为 10.0,这意味着平均会报告大约 10 个误报
每个查询,所以你可以看到噪音的顶部并自己决定它是否
真的很吵。
-T 不是对 E 值的每个配置文件输出进行阈值处理,而是报告目标
位得分 >= 的序列 .
--domE
在 per-domain 输出中,对于已经满足 per-
配置文件报告阈值,报告具有条件 E 值的单个域
<= . 默认值为 10.0。 条件 E 值意味着预期的数字
在那些较小的搜索空间中的额外误报域
已经满足每个目标报告阈值的比较(因此
必须已经至少有一个同源域)。
--domT
不是在 E 值上对每个域的输出进行阈值处理,而是使用
位得分 >= .
配置 用于 包容 阈值
包含阈值比报告阈值更严格。 包含阈值控制
哪些命中被认为足够可靠,可以包含在输出对齐或
随后的搜索轮,或标记为重要(“!”)而不是有问题的(“?”)
在域输出中。
--ince
使用 <= 的 E 值 作为每个目标的包含阈值。 默认是
0.01,这意味着平均而言,在每个
使用不同的查询序列进行 100 次搜索。
--incT
不使用 E 值来设置包含阈值,而是使用一点
得分 >= 作为每个目标的包含阈值。 默认情况下,此选项是
未设置。
--incdomE
使用 <= 的条件 E 值 作为每个域的包含阈值,在
已经满足每个目标的整体包含阈值的目标。
默认值为0.01。
--incdomT
不使用 E 值,而是使用 >= 的位得分 作为每个域的包含
阈。
配置 用于 特定型号 SCORE 阈值
策划的配置文件数据库可以为每个配置文件定义特定的比特分数阈值,
取代仅基于统计显着性的任何阈值。
要使用这些选项,配置文件必须包含适当的(GA、TC 和/或 NC)
可选的分数阈值注释; 这是由 构建 从斯德哥尔摩格式
对齐文件。 每个阈值选项都有两个分数:每个序列的阈值
和每个域的阈值这些行为好像 -T --incT --domT
--incdomT 已专门使用每个模型的策划阈值应用。
--cut_ga
使用模型中的 GA(收集)位分数来设置每序列 (GA1) 和每
域 (GA2) 报告和包含阈值。 GA 阈值一般为
被认为是定义家庭成员资格的可靠的策划阈值; 为了
例如,在 Pfam 中,这些阈值定义了包含在 Pfam Full 中的内容
基于 Pfam Seed 模型搜索的比对。
--cut_nc
使用模型中的 NC(噪声截止)位得分阈值来设置每个序列
(NC1) 和每个域 (NC2) 报告和包含阈值。 NC 阈值是
通常被认为是得分最高的已知假阳性的得分。
--cut_tc
使用模型中的 TC(可信截止)位得分阈值来设置每个序列
(TC1) 和每个域 (TC2) 报告和包含阈值。 TC 阈值是
通常被认为是得分最低的已知真阳性的得分
首先是已知的误报。
配置 控制 “ 加速 管道
HMMER3 搜索在三步过滤器管道中加速:MSV 过滤器、
维特比滤波器和前向滤波器。 第一个过滤器是最快和最多的
近似; 最后是完整的前向评分算法。 还有一个偏置过滤器
MSV 和 Viterbi 之间的步骤。 通过加速管道中所有步骤的目标
然后进行后处理——使用域识别和评分
前向/后向算法。
更改过滤器阈值只会从考虑中删除或包括目标; 改变
过滤阈值不会改变比特分数、E 值或对齐,所有这些都是
仅在后处理中确定。
- 最大限度 关闭所有过滤器,包括偏置过滤器,并完全向前/向后运行
对每个目标进行后处理。 这在很大程度上提高了灵敏度
速度成本。
--F1
设置 MSV 过滤步骤的 P 值阈值。 默认为 0.02,意思是
预计大约 2% 的最高得分非同源目标会通过
过滤器。
--F2
为维特比滤波器步骤设置 P 值阈值。 默认值为 0.001。
--F3
设置前向过滤步骤的 P 值阈值。 默认值为 1e-5。
——诺比亚斯
关闭偏置滤波器。 这在一定程度上提高了灵敏度,但可能会
速度成本高,特别是如果查询有偏差的残基组成(例如
重复序列区域,或者如果它是具有大区域的膜蛋白
疏水性)。 如果没有偏置过滤器,太多的序列可能会通过过滤器
有偏见的查询,导致性能低于预期,因为
计算密集的前向/后向算法肩负着异常沉重的负担
加载。
其他 配置
--非空2
关闭对有偏见的合成的 null2 分数校正。
-Z 断言搜索中的目标总数是 , 为目的
每个序列的 E 值计算,而不是目标的实际数量
看到。
--domZ
断言搜索中的目标总数是 , 为目的
每个域的条件 E 值计算的数量,而不是目标的数量
通过报告阈值的。
- 种子
将随机数种子设置为 . 后处理中的某些步骤需要 Monte
卡罗模拟。 默认是使用固定种子 (42),因此结果是
完全可以重现。 任何其他正整数将给出不同的(但也
可重复)结果。 选择 0 使用随机选择的种子。
--t格式
断言目标序列数据库文件是格式 . 接受的格式
包括 法斯塔, 标志, 基因库, 数据表, 单机, 斯德哥尔摩, 普法姆, a2m及 AFA。 该
默认是自动检测文件的格式。
- 中央处理器
将并行工作线程的数量设置为 . 默认情况下,HMMER 将此设置为
它在您的机器中检测到的 CPU 内核数量 - 也就是说,它试图最大化
使用可用的处理器内核。 环境 高于数量
可用内核几乎没有任何价值,但您可能希望将其设置为某些东西
较少的。 你也可以通过设置环境变量来控制这个数字,
HMMER_NCPU.
此选项仅在 HMMER 编译时支持 POSIX 线程时可用。
这是默认设置,但它可能已在编译时为您的站点关闭
或机器出于某种原因。
--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号控制) (仅有的
如果在编译时启用了可选的 MPI 支持,则可用。)
--mpi 在 MPI 主/工作模式下运行,使用 米匹伦. (仅当可选 MPI
在编译时启用了支持。)
使用 onworks.net 服务在线使用 hmmsearch