这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 vsearch,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
vsearch — 嵌合体检测、聚类、去复制、掩蔽、成对对齐、
从宏基因组项目中搜索、改组和排序扩增子。
概要
嵌合体检测:
vsearch --uchime_denovo 快速文件 (--chimeras | --nonchimeras | --uchimealns |
--uchimeout) 输出文件 [选项]
vsearch --uchime_ref 快速文件 (--chimeras | --nonchimeras | --uchimealns |
--uchimeout) 输出文件 - D b 快速文件 [选项]
聚类:
vsearch (--cluster_fast | --cluster_size | --cluster_smallmem) 快速文件 (--alnout
| --blast6out | --质心 | --集群| --msaout | --samout | --uc | --userout)
输出文件 - ID 真实 [选项]
去复制:
vsearch --derep_fulllength 快速文件 (--输出|--uc) 输出文件 [选项]
掩蔽:
vsearch --maskfasta 快速文件 - 输出 输出文件 [选项]
成对对齐:
vsearch --allpairs_global 快速文件 (--alnout | --blast6out | --matched |
--不匹配 | --samout | --uc | --userout) 输出文件 (--acceptall | --id 真实)
[选项]
搜索:
vsearch --usearch_global 快速文件 - D b 快速文件 (--alnout | --blast6out |
--samout | --uc | --用户输出) 输出文件 - ID 真实 [选项]
洗牌:
vsearch --洗牌 快速文件 - 输出 输出文件 [选项]
排序:
vsearch (--sortbylength | --sortbysize) 快速文件 - 输出 输出文件 [选项]
商品描述
环境或临床分子多样性研究产生大量扩增子
(例如 SSU-rRNA 序列)需要检查嵌合体、去复制、掩蔽、
排序、搜索、聚类或与参考序列比较。 目标是 vsearch 是
使用优化的算法提供一体式开源工具来执行这些任务
实现并收获现代计算机的全部潜力,从而提供快速
和准确的数据处理。
比较核苷酸序列是 vsearch. 为了加快比较速度, vsearch
实现了 Needleman-Wunsch 算法的极快实现,利用
现代 x2-86 CPU 的流式 SIMD 扩展 (SSE64)。 如果 SSE2 指令是
无法使用, vsearch 退出并显示错误消息。 对于涉及序列的比较
长于 5,000 个核苷酸, vsearch 使用内存较小的较慢对齐方法
要求。
输入
vsearch 输入是一个包含一个或多个核苷酸序列的 fasta 文件。 对于每个
序列,序列标识符定义为包含在“>”之间的字符串
符号和第一个空格,或行尾,以先到者为准。 此外,
如果该行以 ">[;]size= 开头整数;label", 包含 ">label;size=整数;标签”或
以 ">label;size= 结尾整数[;]", vsearch 将删除模式 [;]size=整数[;]
从标题和解释 整数 作为出现的次数(或丰度)
研究中的顺序。 在嵌合体期间使用或创建的丰度信息
检测、聚类、去复制、排序和搜索。
核苷酸序列被定义为一串 IUPAC 符号 (ACGTURYSWKMDBHVN),
从标识符行结束之后开始,到下一个标识符行之前结束,
或文件结尾。 vsearch 默默地忽略 ascii 字符 9 到 13,并退出
如果 ascii 字符 0 到 8、14 到 31、“.”,则出现错误消息或“-”存在。 所有其他
ascii 或非 ascii 字符被剥离并在非阻塞警告中抱怨
信息。
vsearch 操作不区分大小写,除非激活软屏蔽。 使用时
聚类、屏蔽或搜索命令,如果使用软屏蔽,大小写很重要。
软屏蔽使用选项“--dbmask soft”(用于搜索)或“--qmask”指定
soft”(用于搜索、聚类和屏蔽)。使用软屏蔽时,小写字母
表示被屏蔽的符号,而大写字母表示常规符号。 蒙面符号
永远不会包含在独特的 k-mers 用于搜索。 当软掩蔽不是
激活后,所有字母都会在内部转换为大写并用于结果文件。
在嵌合体检测、去复制、搜索和
聚类,T 和 U 被认为是相同的,无论它们的情况如何。 如果两个符号是
不相同,它们的对齐将导致负错配得分(默认 -4),
除非一个或两个符号不明确 (RYSWKMDBHVN),在这种情况下,分数
为零。 两个相同的歧义符号(例如 R 对 R)的对齐也会得到一个分数
零。
vsearch 可以编译为接受的压缩 fasta 文件作为输入(gz 和 bzip2
格式)。 另一方面,像管道、命名管道或套接字这样的特殊文件不能被
用作输入。 要呈现进度指示器, vsearch 需要寻求到最后
文件名 找到它的长度。 最后, 文件名 必须是常规文件,而不是流。
附加选项
vsearch 识别大量命令行选项。 为了更容易导航,选项
下面按主题分组(嵌合体检测、聚类、去复制、掩蔽、
洗牌、排序和搜索)。 我们从适用于所有人的一般选项开始
主题。
常规选项:
--fasta_宽度 积极 整数
Fasta 文件由 vsearch 被包裹(序列写在
的线 整数 核苷酸,默认为 80)。 将该值设置为 0 到
消除包装。
- 帮帮我 显示简短的帮助并退出。
- 日志 文件名
将消息写入指定的日志文件。 书面信息包括
程序版本、可用内存量、内核数和命令
线选项。 开始和结束时间也被记录下来
经过的时间。 包括消耗的最大内存量。 这
不同的命令通常也会写一些关于它们的信息
结果。 写入致命、警告和信息性消息。
--最大序列长度 积极 整数
All / 全部 vsearch 操作将丢弃长度等于或更大的序列
比 整数 (默认为 50,000 个核苷酸)。
--minseq长度 积极 整数
All / 全部 vsearch 操作将丢弃长度小于
整数 (默认为 1 个核苷酸用于排序或改组,32 个核苷酸
用于聚类、去复制或搜索)。
--notrunclabels
不要在第一个空格处截断序列标签,在
输出文件。
- 安静的 除警告和致命外,禁止所有输出到标准输出和标准输出
错误信息。
- 版
输出版本信息并退出。
嵌合体检测选项:
嵌合体检测基于由五个选项(--dn、
--mindiffs、--mindiv、--minh、--xn)。 序列首先按降序排序
丰度(如果有的话),并比较它们的 加 仅链(案例
不敏感)。
In de 新 模式,输入 fasta 文件应显示丰富的注释(模式
[;]大小=整数[;] 在 fasta 标题中)。 输入顺序影响嵌合体
检测,因此我们建议通过减少丰度对序列进行排序(默认为
--derep_fulllength 命令)。 如果你的序列集需要排序,请看
排序部分中的 --sortbysize 命令。
--偏斜 真实
使用 --uchime_denovo 时,丰度偏斜用于区分
3 路比对,哪个序列是嵌合体,哪个是亲本。
假设嵌合体出现在 PCR 扩增的后期
过程,因此不如它们的父母丰富。 默认的
value 是 2.0,这意味着父母应该至少多 2 倍
比他们的嵌合体丰富。 任何大于 1.0 的正值都可以是
用过的。
--对齐宽度 积极 整数
--uchimealns 输出中三向对齐的宽度。 默认值为
80. 设置为 0 以消除环绕。
--嵌合体 文件名
将嵌合序列输出到 文件名,fasta 格式。 输出顺序可能
使用多线程时会有所不同。
- D b 文件名
使用 --uchime_ref 时,使用 fasta 格式检测嵌合体
包含的参考序列 文件名. 假设参考序列
没有嵌合体。 如果它们的父母(或
足够近的亲属)在数据库中不存在。
--DN 真实
无投票伪计数(参数 n 在嵌合体评分函数中)
(默认值为 1.4)。
--心智差异 积极 整数
每个段的最小差异数(默认值为 3)。
--mindiv 真实
与最近父级的最小差异(默认值为 0.8)。
--明 真实
最低分数 (h)。 增加这个值往往会减少
误报并降低灵敏度。 默认值为 0.28,并且
接受范围从 0.0 到 1.0 的值。
--非嵌合体 文件名
将非嵌合序列输出到 文件名,fasta 格式。 输出顺序
使用多线程时可能会有所不同。
- 自己 使用 --uchime_ref 时,忽略引用序列的标签
匹配查询序列的标签(用于估计误报
参考序列中的比率)。
--selfid 使用 --uchime_ref 时,忽略参考序列的核苷酸
序列与查询序列严格相同。
--线程 积极 整数
使用 --uchime_ref 的计算线程数(1 到 256)。 这
线程数应小于或等于可用 CPU 的数量
核心。 默认是使用所有可用资源并启动一个
每个逻辑核心的线程。
--uchime_denovo 文件名
检测 fasta 格式中存在的嵌合体 文件名, 无需外部
参考文献(即 de 新)。 自动对序列进行排序 文件名 by
事先减少丰度(有关详细信息,请参阅排序部分)。
不支持多线程。
--uchime_ref 文件名
检测 fasta 格式中存在的嵌合体 文件名 通过比较它们
带有参考序列(选项--db)。 支持多线程。
--乌黑 文件名
将 3 向全局比对(parentA、parentB、chimera)写入 文件名
使用人类可读的格式。 使用 --alignwidth 修改对齐方式
长度。 使用多线程时,输出顺序可能会有所不同。
-- 输出 文件名
将嵌合体检测结果写入 文件名 使用 uchime 制表符分隔
18 个字段的格式(请参阅下面的列表)。 使用 --uchimeout5 使用格式
与 usearch v5 及更早版本兼容。 行输出顺序可能
使用多线程时会有所不同。
1. 分数:分数越高意味着嵌合比对的可能性越大。
2. Q:查询序列标签。
3. A:父A序列标签。
4. B:父B序列标签。
5. T:top parent 序列标签(即与
询问)。 使用--uchimeout5 时会删除该字段。
6. idQM:查询(Q)和模型(M)的相似度百分比
构造为父 A 的一部分和父 B 的一部分。
7. idQA:查询(Q)和父A的相似度百分比。
8. idQB:查询(Q)和父B的相似度百分比。
9. idAB:亲本 A 和亲本 B 的相似度百分比。
10. idQT:query (Q) 和 top parent (T) 的相似度百分比。
11. LY:模型左侧部分的赞成票。
12. LN:模型左边部分没有票。
13. LA:在模型的左侧部分弃权。
14. RY:在模型的右侧部分投赞成票。
15. RN:模型右侧没有选票。
16. RA:在模型的右侧部分弃权。
17. div:散度,定义为(idQM - idQT)。
18. YN:查询是嵌合(Y),还是不嵌合(N),或者是边界情况
(?)。
--uchimeout5
使用--uchimeout时,使用制表符写入嵌合体检测结果-
17 个字段的分隔格式(删除 --uchimeout 的第 5 个字段),
与 userarch 版本 5 及更早版本兼容。
--xn 真实
无投票权重(评分函数中的参数 beta)(默认值为
8.0)。
聚类选项:
vsearch 实现了一个单通道贪心星聚类算法,类似于
例如,在 usearch、DNAclust 和 sumaclust 中实现的算法。 重要的
参数是全局聚类阈值(--id)和成对身份
定义 (--iddef)。
--质心 文件名
输出簇质心序列到 文件名,fasta 格式。 这
质心是播种集群的序列(即第一个序列
集群)。
--cluster_fast 文件名
将 fasta 序列聚类在 文件名, 自动执行
通过预先减少序列长度进行排序。
- 簇的大小 文件名
将 fasta 序列聚类在 文件名, 自动执行
通过预先降低序列丰度进行排序。
--cluster_smallmem 文件名
将 fasta 序列聚类在 文件名 无需自动修改
他们的订单事先。 序列预计按递减排序
序列长度,除非使用 --usersort 。
--集群 绳子
使用前缀将每个集群输出到单独的 fasta 文件 绳子 和
代码(0、1、2 等)来构造路径和文件名。
--咨询 文件名
输出簇一致序列到 文件名. 对于每个集群,一个
计算多重比对,并通过以下方式构建一致序列
从每一列中取多数符号(核苷酸或间隙)
结盟。 跳过包含大部分间隙的列,除了
端子间隙。
- ID 真实
如果成对身份与
质心低于 真实 (包括从 0.0 到 1.0 的值)。 这
成对恒等式定义为(匹配列)/
(对齐长度 - 端子间隙)。 该定义可以通过以下方式修改
--iddef。
--iddef 0|1|2|3|4
更改--id 中使用的成对标识定义。 接受的值是:
0. CD-HIT定义:(匹配列)/(最短序列
长度)。
1.编辑距离:(匹配列)/(对齐长度)。
2. 编辑距离不包括终端间隙(与--id 相同)。
3. 海洋生物实验室定义计算每个扩展间隙
(内部或终端)作为单一差异:1.0 -
[(错配 + 缺口)/(最长序列长度)]
4. BLAST定义,相当于上下文中的--iddef 2
全局成对对齐。
--msaout 文件名
为每个输出多序列比对和一致序列
群集到 文件名,fasta 格式。 共有序列是
通过从每个符号中取出多数符号(核苷酸或间隙)构建
对齐的列。 包含大部分间隙的列是
跳过,除了终端间隙。
--qmask 无|灰尘|软
使用以下方法屏蔽序列中的简单重复和低复杂性区域 灰尘
或者 软 算法,或者不屏蔽 (没有)。 警告,使用时 软
屏蔽,聚类变得区分大小写。 默认是屏蔽使用
灰尘.
--尺寸 考虑输入 fasta 中存在的丰度注释
文件(搜索模式“[>;]size=整数[;]”在序列标题中)。
--尺寸输出
将丰度注释添加到输出 fasta 文件中(添加模式
";大小=整数;" 对标题进行排序。如果指定了 --sizein,则丰度
注释被报告到输出文件,每个簇质心
接收对应于总丰度的新丰度值
簇中包含的扩增子(--centroids 选项)。 如果 --sizein 不是
指定,输入丰度设置为 1 为扩增子,并为数字
用于质心的每个簇的扩增子数。
--链 加|两者
将序列与簇种子进行比较时,请检查 加 仅链
(默认)或检查 都 股。
--线程 积极 整数
要使用的计算线程数(1 到 256)。 线程数
应小于或等于可用 CPU 内核的数量。 这
默认是使用所有可用资源并每个启动一个线程
逻辑核心。
--uc 文件名
输出聚类结果 文件名 使用类似 uclust 的格式。 为一个
格式说明,见
<http://www.drive5.com/usearch/manual/ucout.html>.
--用户排序
使用 --cluster_smallmem 时,允许任何序列输入顺序,而不仅仅是一个
递减长度排序。
大多数搜索选项也适用于聚类:
--alnout,--blast6out,--fastapairs,--matched,--notmatched,--maxaccept,
--maxreject, --samout, --userout, --userfields, 分数过滤, 差距
处罚,掩饰。 (参见搜索部分)。
去复制选项:
--derep_fulllength 文件名
合并包含在 文件名. 完全相同的
序列被定义为具有相同的长度和相同的字符串
核苷酸(不区分大小写,T 和 U 被认为是相同的)。
--最大唯一大小 积极 整数
丢弃丰度值大于 整数.
--最小唯一大小 积极 整数
丢弃丰度值小于 整数.
- 输出 文件名
将去复制的序列写入 文件名, 以 fasta 格式并排序
通过减少丰度。 相同的序列接收
他们组的第一个序列。 如果使用--sizeout,则数量
每个序列的出现次数(即丰度)在末尾表示
他们的 fasta 标题使用模式“;size=整数;”。
--尺寸 考虑输入 fasta 中存在的丰度注释
文件(搜索模式“[>;]size=整数[;]”在序列标题中)。
--尺寸输出
将丰度注释添加到输出 fasta 文件中(添加模式
";大小=整数;" 对标题进行排序。如果指定了 --sizein,则每个
唯一序列接收与其总数相对应的新丰度值
丰度(其出现的丰度的总和)。 如果 --sizein 不是
指定,输入丰度设置为1,每个唯一序列
接收与其出现次数相对应的新丰度值
在输入文件中。
--链 加|两者
搜索完全相同的序列时,请检查 加 缕
仅(默认)或检查 都 股。
--topn 积极 整数
只输出顶部 整数 序列(即最丰富的)。
--uc 文件名
输出去复制导致 文件名 使用类似 uclust 的格式。 为一个
格式说明,见
<http://www.drive5.com/usearch/manual/ucout.html>. 在上下文中
去复制,选项 --uc_allhits 对 --uc 输出没有影响。
屏蔽选项:
输入序列可以由小写或大写核苷酸组成。 小写
核苷酸在掩码前默默地设置为大写,除非 --qmask 软
选项被使用。 以下是组合屏蔽选项 --qmask(或
--dbmask 用于数据库序列)和 --hardmask,假设每个输入序列
包含小写和大写核苷酸:
qmask 硬掩码操作
────────────────────────────────────────────────────── ────────────────────
none off 不屏蔽,所有符号大写
none 无屏蔽,所有符号大写
除尘蒙面符号小写,其他大写
蒙面符号上的灰尘更改为 Ns,其他大写
软关闭小写符号被屏蔽,没有大小写变化
小写符号上的软被屏蔽并更改为 Ns
--硬掩码
通过用 Ns 替换它们而不是设置来掩盖低复杂度区域
他们小写。
--maskfasta 文件名
屏蔽包含在序列中的简单重复和低复杂性区域
文件名. 默认是屏蔽使用 灰尘 (使用 --qmask 修改它
行为)。
- 输出 文件名
将屏蔽序列写入 文件名,fasta 格式。
--qmask 无|灰尘|软
使用以下方法屏蔽序列中的简单重复和低复杂性区域 灰尘
或者 软 算法,或者不屏蔽 (没有)。 默认是屏蔽
运用 灰尘.
--线程 积极 整数
要使用的计算线程数(1 到 256)。 线程数
应小于或等于可用 CPU 内核的数量。 这
默认是使用所有可用资源并每个启动一个线程
逻辑核心。
成对对齐选项:
将 n * (n - 1) / 2 次成对对齐的结果写入结果
使用 --alnout、--blast6out、--fastapairs --matched、--notmatched 指定的文件,
--samout、--uc 或 --userout(请参阅下面的搜索部分)。 指定
--acceptall 选项以输出所有成对对齐,或指定身份级别
使用 --id 丢弃弱对齐。 大多数其他接受/拒绝选项(请参阅
也可以使用下面的搜索选项)。 序列在其上对齐 加
仅股。
- 全都接受
将所有对齐的结果写入输出文件。 此选项覆盖
所有其他接受/拒绝选项(包括 --id)。
--allpairs_global 文件名
执行所有与所有 fasta 序列的最佳全局成对比对
包含在 文件名. 此命令是多线程的。
- ID 真实
如果成对身份低于,则拒绝序列匹配 真实
(包括从 0.0 到 1.0 的值)。
--线程 积极 整数
要使用的计算线程数(1 到 256)。 线程数
应小于或等于可用 CPU 内核的数量。 这
默认是使用所有可用资源并每个启动一个线程
逻辑核心。
搜索选项:
--alnout 文件名
将成对的全局比对写入 文件名 使用人类可读的
格式。 使用 --rowlen 修改对齐长度。 输出顺序可能会有所不同
使用多线程时。
--blast6out 文件名
将搜索结果写入 文件名 使用类似爆炸的制表符分隔格式
十二个字段(如下所列),每个查询目标匹配一行
(或者如果使用 --output_no_hits 则缺少匹配)。 输出顺序可能会有所不同
使用多线程时。 可以使用 --userout 获得类似的输出
文件名 和 --userfields
查询+目标+id+alnlen+mism+opens+qlo+qhi+tlo+thi+evalue+bits。 一套完整的
列表和描述可在本文档的“用户字段”部分找到
手册。
1. 询问: 查询标签。
2. 目标:目标(数据库序列)标签。 该字段设置为
“*”如果没有对齐。
3. id:同一性的百分比(实际值范围从 0.0 到
100.0)。 百分比标识定义为 100 *(匹配
列)/(对齐长度 - 端子间隙)。 查看字段 id0
到 id4 以获得其他定义。
4. 艾伦伦:查询目标对齐的长度(数量
列)。 如果没有对齐,则该字段设置为 0。
5. 相同的:比对中的不匹配数(零或正
整数值)。
6. 打开:包含间隙开口的列数(零或
正整数值)。
7. lo:与目标对齐的查询的第一个核苷酸。
如果有对齐,则始终等于 1,否则为 0。
8. hi:与目标对齐的查询的最后一个核苷酸。
始终等于成对对齐的长度。 场
如果没有对齐,则设置为 0。
9. lo:与查询对齐的目标的第一个核苷酸。
如果有对齐,则始终等于 1,否则为 0。
10. THI:与查询对齐的目标的最后一个核苷酸。
始终等于成对对齐的长度。 场
如果没有对齐,则设置为 0。
11. 评估: 期望值(不为核苷酸计算
对齐)。 始终设置为 -1。
12. 位: 位得分(不为核苷酸比对计算)。
始终设置为 0。
- D b 文件名
将查询序列(用 --usearch_global 指定)与 fasta-
包含在格式化的目标序列 文件名, 使用全局成对
对准。
--数据库掩码 无|灰尘|软
屏蔽目标数据库中的简单重复和低复杂性区域
序列使用 灰尘 或者 软 算法,或者不屏蔽 (没有).
警告,使用时 软 屏蔽搜索命令变得区分大小写。
默认是屏蔽使用 灰尘.
--db匹配 文件名
写数据库目标序列匹配至少一个查询序列到
文件名,fasta 格式。 如果使用选项 --sizeout,则数量
匹配每个目标序列的查询使用模式表示
";大小=整数;”。
--dbnotmatched 文件名
将与查询序列不匹配的数据库目标序列写入 文件名,
以 fasta 格式。
--fastapairs 文件名
将查询和目标序列的成对比对写入 文件名在
fasta 格式。
--fulldp 与 userarch 兼容的虚拟选项。 最大化搜索
灵敏度, vsearch 使用 8 路 16 位 SIMD 矢量化全动态
编程算法 (Needleman-Wunsch),无论 --fulldp 是否为
指定的。
--gapext 绳子
为差距扩大设置惩罚。 有关完整的信息,请参阅 --gapopen
处罚申报制度说明。 默认为
使用惩罚 2 初始化六个差距扩展惩罚
扩大内部间隙和扩大终端间隙的惩罚为 1,在
查询和目标序列(即 2I/1E)。
--gapopen 绳子
设置间隙打开的惩罚。 间隙打开可以发生在六种不同的
上下文:在查询 (Q) 或目标 (T) 序列中,在左侧 (L)
或序列的右 (R) 末端,或序列 (I) 的内部。
序列符号(Q 和 T)可以与位置符号(L、I、
和 R),以及数值来宣布对所有可能的惩罚
上下文:aQL/bQI/cQR/dTL/eTI/fTR,其中 abcdef 为零或正数
整数,“/”用作分隔符。
为了简化声明,位置符号(L、I 和 R)可以是
结合起来,符号 (E) 可用于治疗双肢(L 和 R)
同样,可以省略符号 Q 和 T 来处理查询和目标
顺序相同。 例如,默认是宣布罚款 20
打开内部间隙和打开终端间隙的罚金为 2
(左或右),在查询和目标序列中(即 20I/2E)。 要是
给出一个数值,没有任何序列或位置符号,然后
惩罚适用于所有缺口。 为禁止打开间隙,一个
无限惩罚值可以用符号“*”声明。 使用 vsearch
作为半全局对齐器,可以对左侧 (L) 或
右 (R) 间隙。
vsearch 始终使用默认值初始化六个缺口开放惩罚
参数 (20I/2E)。 然后用户可以自由地只声明值
他/她想修改。 这 绳子 从左到右扫描,接受
符号是 (0123456789/LIREQT*),后面的值会覆盖前面的值
值。
请注意: vsearch, 与 usearch 相比,只允许整数间隙
处罚。 因为在 usearch 中默认的最低差距惩罚是 0.5,
中的所有默认分数和差距惩罚 vsearch 已经翻倍
保持相同的惩罚并产生相同的对齐。
--硬掩码
通过用 Ns 替换它们而不是设置来掩盖低复杂度区域
他们小写。 有关更多信息,请参阅掩蔽部分。
- ID 真实
如果成对身份低于,则拒绝序列匹配 真实
(包括从 0.0 到 1.0 的值)。 搜索过程对目标进行排序
通过减少数量的序列 k- 他们与其他人的共同点
查询序列,使用该信息作为序列相似性的代理。
有效的预过滤也将防止与
弱匹配目标,因为需要至少有 6 个共享目标 k-mers 到
开始成对对齐,每 16 个中至少一个 k- 来自
查询需要匹配目标。 因此,使用低于
--id 0.5 不太可能捕获更弱匹配的目标。 这
默认情况下,成对标识定义为(匹配
列)/(对齐长度 - 端子间隙)。 该定义可以是
由 --iddef 修改。
--iddef 0|1|2|3|4
更改--id 中使用的成对标识定义。 接受的值是:
0. CD-HIT定义:(匹配列)/(最短序列
长度)。
1.编辑距离:(匹配列)/(对齐长度)。
2. 编辑距离不包括终端间隙(与--id 相同)。
3. 海洋生物实验室定义计算每个扩展间隙
(内部或终端)作为单一差异:1.0 -
[(错配 + 缺口)/(最长序列长度)]
4. BLAST定义,相当于上下文中的--iddef 2
全局成对对齐。
选项 --userfields 接受字段 id0 到 id4,除了
字段 id,报告对应于
不同的定义。
--id前缀 积极 整数
如果第一个,则拒绝序列匹配 整数 目标核苷酸
与查询不匹配。
--id后缀 积极 整数
如果最后一个,则拒绝序列匹配 整数 目标的核苷酸 do
与查询不匹配。
--左对齐
如果成对比对以间隙开始,则拒绝序列匹配。
- 比赛 整数
在成对中分配给匹配(即相同的核苷酸)的分数
结盟。 默认值为 2。
--匹配 文件名
将与数据库目标序列匹配的查询序列写入 文件名在
fasta 格式。
--最大接受数 积极 整数
停止搜索前接受的最大命中数。 默认的
值为 1。此选项与 --maxrejects 一起使用。 搜索
过程通过减少数量来对目标序列进行排序 k-他们有
与查询序列相同,使用该信息作为
序列相似性。 成对比对后,如果第一个目标
序列通过接受标准,它被接受为最佳命中并且
搜索过程停止该查询。 如果 --maxaccepts 设置为
值越高,接受的点击次数越多。 如果 --maxaccepts 和 --maxrejects 是
两者都设置为 0,则搜索完整的数据库。
--最大差异 积极 整数
如果比对包含至少 整数
替换、插入或删除。
--最大差距 积极 整数
如果比对包含至少 整数
插入或删除。
--最大点击次数 积极 整数
搜索终止后显示的最大点击次数(点击次数为
按身份递减排序)。 默认无限制。 该选项适用
到--alnout、--blast6out、--fastapairs、--samout、--uc 或--userout
输出文件。
--最大 真实
如果两者之间的同一性百分比匹配,则拒绝序列匹配
序列大于 真实.
--最大大小 积极 整数
拒绝丰度大于 整数.
--maxqt 真实
如果查询/目标序列长度比大于 真实.
--最大拒绝数 积极 整数
之前要考虑的非匹配目标序列的最大数量
停止搜索。 默认值为 32。此选项成对使用
与--maxaccepts。 搜索过程通过递减对目标序列进行排序
数 k-mers 他们与查询序列有共同之处,使用那个
信息作为序列相似性的代理。 成对比对后,
如果前 32 个检查的目标序列都没有通过接受
条件,搜索过程将停止该查询(未命中)。 如果
--maxrejects 设置为更高的值,更多的目标序列
经过考虑的。 如果 --maxaccepts 和 --maxrejects 都设置为 0,则
完整的数据库被搜索。
--最大尺寸比 真实
如果查询/目标丰度比大于 真实.
--maxsl 真实
如果较短/较长的序列长度比大于 真实.
--maxsubs 积极 整数
如果成对比对包含多个,则拒绝序列匹配
整数 替代品。
- 中 真实
如果同一性百分比低于,则拒绝序列匹配 真实
(忽略所有间隙,内部和终端)。
--mincols 积极 整数
如果比对长度小于,则拒绝序列匹配 整数.
--minqt 真实
如果查询/目标序列长度比低于 真实.
--最小化比例 真实
如果查询/目标丰度比低于 真实.
--明斯尔 真实
如果短/长序列长度比低于 真实.
--mintsize 积极 整数
拒绝丰度低于 整数.
--不匹配 整数
分配给成对错配(即不同的核苷酸)的分数
结盟。 默认值为 -4。
--不匹配 文件名
将与数据库目标序列不匹配的查询序列写入 文件名,
以 fasta 格式。
--output_no_hits
将匹配和非匹配查询写入 --alnout、--blast6out、
--samout 或 --userout 输出文件(--uc 和 --uc_allhits 输出文件
始终具有不匹配的查询)。 不匹配的查询被标记
--alnout 文件中的“无命中”。
--qmask 无|灰尘|软
使用以下方法屏蔽查询序列中的简单重复和低复杂性区域
此 灰尘 或者 软 算法,或者不屏蔽 (没有)。 警告,当
运用 软 屏蔽搜索命令变得区分大小写。 默认是
屏蔽使用 灰尘.
--query_cov 真实
如果与目标序列对齐的查询部分是,则拒绝
低于 真实. 查询覆盖率计算为(匹配+不匹配)
/ 查询序列长度。 不考虑内部或终端间隙
帐户。
——恰到好处
如果成对对齐以间隙结束,则拒绝序列匹配。
--罗伦 积极 整数
--alnout 输出中对齐线的宽度。 默认值为 64。 设置
到 0 以消除环绕。
--萨穆特 文件名
将对齐结果写入 文件名 SAM 格式。 对于描述
格式,见. 输出顺序
使用多线程时可能会有所不同。
- 自己 如果查询和目标标签相同,则拒绝序列匹配。
--selfid 如果查询和目标序列严格,则拒绝序列匹配
相同。
--尺寸输出
在选项 --dbmatched 的输出中添加丰度注释(使用
模式 ";size=整数;"),报告查询的数量
匹配每个目标。
--链 加|两者
搜索相似序列时,请检查 加 仅链(默认)
或检查 都 股。
--target_cov 真实
如果目标序列的部分对齐,则拒绝序列匹配
到查询序列低于 真实. 计算目标覆盖率
作为(匹配+错配)/目标序列长度。 内部或终端
不考虑差距。
--线程 积极 整数
要使用的计算线程数(1 到 256)。 线程数
应小于或等于可用 CPU 内核的数量。 这
默认是使用所有可用资源并每个启动一个线程
逻辑核心。
--top_hits_only
仅输出具有最高同一性百分比的命中
查询。
--uc 文件名
输出搜索结果 文件名 使用类似 uclust 的格式。 为一个
格式说明,见
<http://www.drive5.com/usearch/manual/ucout.html>. 输出顺序可能会有所不同
使用多线程时。
--uc_allhits
使用 --uc 选项时,显示所有命中,而不仅仅是每个命中的最高命中
查询。
--usearch_global 文件名
将目标序列 (--db) 与 fasta 格式的查询序列进行比较
包含在 文件名,使用全局成对对齐。
--用户字段 绳子
使用 --userout 时,选择并排序写入输出的字段
文件。 字段以“+”分隔(例如查询+目标+id)。 见
完整的字段列表的“用户字段”部分。
--用户输出 文件名
将用户定义的制表符分隔输出写入 文件名. 选择字段
使用选项 --userfields。 使用多个时,输出顺序可能会有所不同
线程。 如果 --userfields 为空或不存在, 文件名 是空的。
--weak_id 真实
显示匹配百分比至少为 真实,没有
终止搜索。 只要有足够的命中,正常搜索就会停止
找到(由--maxaccepts、--maxrejects 和--id 定义)。 作为 --weak_id
报告不是从 --maxaccepts、高 --id 值推导出的弱命中
可以使用,从而保持速度和灵敏度。 从逻辑上讲, 真实
必须小于--id 指示的值。
--字长 积极 整数
字长(即 k-mers) 用于数据库索引。 可能的范围
值从 3 到 15,但通常建议值接近 8。
较长的词可能会降低对弱相似性的敏感性,但可以
提高准确性。 另一方面,较短的词可能会增加
灵敏度,但会降低精度。 计算时间一般会
用较短的词增加,随着较长的词减少。 记忆
对部分指数的要求每次增加 4 倍
字长增加一个核苷酸,这通常变成
对长词(12 个或更多)有意义。 默认值为 8。
洗牌选项:
- 输出 文件名
将打乱的序列写入 文件名,fasta 格式。
- 种子 积极 整数
打乱序列顺序时,使用 整数 作为种子。 给定的种子将
总是产生相同的输出顺序(对于可复制性很有用)。 设置为 0
使用伪随机种子(默认行为)。
--洗牌 文件名
伪随机打乱包含在 文件名.
--topn 积极 整数
只输出顶部 整数 序列。
排序选项:
Fasta 条目按丰度递减 (--sortbysize) 或序列长度排序
(--sortbylength)。 为了获得稳定的排序顺序,关系通过递减进行排序
丰度和标签增加字母数字顺序(--sortbylength),或者只是通过
标签递增的字母数字顺序 (--sortbysize)。 标签排序假设
所有序列都有唯一的标签。 这同样适用于自动排序
在嵌合体检查 (--uchime_denovo)、去复制期间执行
(--derep_fulllength)和聚类(--cluster_fast 和--cluster_size)。
--最大尺寸 积极 整数
使用 --sortbysize 时,丢弃丰度值更大的序列
比 整数.
--最小 积极 整数
使用--sortbysize时,丢弃丰度值较小的序列
比 整数.
- 输出 文件名
将排序后的序列写入 文件名,fasta 格式。
--重新标记 绳子
使用前缀重新标记序列 绳子 和股票代码(1、2、3 等)
构造新的标头。 使用 --sizeout 来保存丰度
注释。
--尺寸输出
使用 --relabel 时,向输出 fasta 报告丰度注释
文件(使用模式“;size=整数;")。
--按长度排序 文件名
按递减长度排序包含在 文件名。 请参阅
一般选项 --minseqlength 和 --maxseqlength 以消除短和
长序列。
--按大小排序 文件名
按减少的丰度排序包含在 文件名 (
模式“[>;]大小=整数[;]" 必须存在)。查看选项
--minsize 和 --maxsize 以消除稀有和显性序列。
--topn 积极 整数
只输出顶部 整数 序列(即最长或最多
丰富)。
用户字段(--userfields 选项接受的字段):
氮化铝 打印一串M(匹配)、D(删除,即查询中的空白)和I
(插入,即目标中的间隙)代表成对对齐。
如果没有对齐,则为空字段。
艾伦伦 打印查询目标对齐的长度(列数)。 这
如果没有对齐,则字段设置为 0。
位 位得分(不为核苷酸比对计算)。 始终设置为 0。
卡恩 使用 CIGAR 格式的成对比对的紧凑表示
(Compact Idiosyncratic Gapped Alignment Report):M(匹配),D(删除)
而我(插入)。 如果没有对齐,则为空字段。
评估 E 值(不为核苷酸比对计算)。 始终设置为 -1。
分机 包含间隙扩展的列数(零或正整数
值)。
差距 包含间隙(零或正整数值)的列数。
id 身份百分比(实际值范围从 0.0 到 100.0)。 这
百分比标识定义为 100 *(匹配列)/(对齐
长度 - 端子间隙)。
id0 CD-HIT 定义的同一性百分比(实际值不等)
0.0 到 100.0) 使用成对中最短序列的长度
对齐作为分母:100 *(匹配列)/(最短序列
长度)。
id1 身份的百分比(实际值范围从 0.0 到 100.0)是
定义为编辑距离:100 *(匹配列)/(对齐
长度)。
id2 身份的百分比(实际值范围从 0.0 到 100.0)是
定义为编辑距离,不包括终端间隙。 字段 id2 是一个
字段 id 的别名。
id3 海洋生物实验室对同一性百分比的定义(实值
范围从 0.0 到 100.0),计算每个扩展间隙(内部或
终端)作为单一差异并使用最长的长度
成对比对中的序列作为分母:100 * (1.0 -
[(错配 + 缺口)/(最长序列长度)])。
id4 BLAST 定义的同一性百分比(实际值范围从
0.0 到 100.0),相当于全局成对上下文中的 --iddef 2
对准。
IDS 对齐中的匹配数(零或正整数值)。
相同的 对齐中的不匹配数(零或正整数值)。
打开 包含间隙开口的列数(零或正整数
值)。
对 仅包含核苷酸的列数。 该值对应于
对齐的长度减去包含间隙的列(零或
正整数值)。
空缺 包含间隙的列数,以百分比表示
对齐长度(实际值范围从 0.0 到 100.0)。
聚氯乙烯 正列的百分比。 在处理核苷酸序列时,
这相当于匹配的百分比(实际值从
0.0 100.0)。
pv 正列数。 在处理核苷酸序列时,这
相当于匹配的数量(零或正整数值)。
冠状病毒 与目标序列对齐的查询序列的部分
(实际值范围从 0.0 到 100.0)。 查询覆盖率计算为
100.0 *(匹配+不匹配)/查询序列长度。 内部或
不考虑终端间隙。 如果有,则该字段设置为 0.0
没有对齐。
框架 查询帧(-3 到 +3)。 该字段仅涉及编码序列,并且是
不计算 vsearch. 始终设置为 +0。
hi 查询的最后一个核苷酸与目标对齐。 始终等于
成对比对的长度。 如果没有,则该字段设置为 0
对准。
七喜 与目标对齐的查询的最后一个核苷酸(忽略终端
间隙)。 核苷酸编号从 1 开始。如果有,则该字段设置为 0
没有对齐。
奇洛 查询的第一个核苷酸与目标对齐(忽略初始
间隙)。 核苷酸编号从 1 开始。如果有,则该字段设置为 0
没有对齐。
ql 查询序列长度(正整数值)。 该字段设置为 0 如果
没有对齐。
lo 查询的第一个核苷酸与目标对齐。 总是等于 1
如果有对齐,则为 0 否则。
row 打印成对对齐中看到的查询段的序列
(即,如果需要,可以插入间隙)。 如果没有,则为空字段
对准。
qs 查询段长度。 始终等于查询序列长度。
链 查询链方向(+ 或 - 用于核苷酸序列)。 空字段如果
没有对齐。
询问 查询标签。
原 原始对齐分数(负、空或正整数值)。 分数
是比赛奖励的总和减去错配处罚、差距开放和差距
扩展名。 如果没有对齐,则该字段设置为 0。
目标 目标标签。 如果没有对齐,则该字段设置为“*”。
冠状病毒 目标序列与查询序列对齐的部分
(实际值范围从 0.0 到 100.0)。 目标覆盖率计算为
100.0 *(匹配+不匹配)/目标序列长度。 内部或
不考虑终端间隙。 该字段设置为 0.0 如果
没有对齐。
框架 目标帧(-3 到 +3)。 该字段仅涉及编码序列,并且是
不计算 vsearch. 始终设置为 +0。
THI 与查询对齐的目标的最后一个核苷酸。 始终等于
成对比对的长度。 如果没有,则该字段设置为 0
对准。
蒂希 与查询对齐的目标的最后一个核苷酸(忽略终端
间隙)。 核苷酸编号从 1 开始。如果有,则该字段设置为 0
没有对齐。
提洛 与查询对齐的目标的第一个核苷酸(忽略初始
间隙)。 核苷酸编号从 1 开始。如果有,则该字段设置为 0
没有对齐。
tl 目标序列长度(正整数值)。 该字段设置为 0 如果
没有对齐。
lo 与查询对齐的目标的第一个核苷酸。 总是等于 1
如果有对齐,则为 0 否则。
拖曳 打印在成对比对中看到的目标片段的序列
(即,如果需要,可以插入间隙)。 如果没有,则为空字段
对准。
ts 目标段长度。 始终等于目标序列长度。 场
如果没有对齐,则设置为 0。
链 目标链方向(核苷酸序列的 + 或 -)。 始终设置为
"+",所以反向链匹配有 tstrand "+" 和 qstrand "-"。 空的
字段,如果没有对齐。
商榷 变化
如果您是 userarch 用户,我们的目标是让您有宾至如归的感觉。 这就是为什么 vsearch
在某种程度上被设计为像 userarch 一样。 像任何复杂的软件一样,userarch 是
并非没有怪癖和不一致之处。 我们决定不复制其中的一些,并且
为了完全透明,在此记录我们所做的有意更改。
在使用 userarch 搜索期间,当使用选项 --blast6out 和 --output_no_hits 时,对于
与报告的字段数不匹配的查询是 13,它应该是 12。这是
更正 vsearch.
--userfields 选项的字段 raw 在 usearch 中不提供信息。 这是更正的
in vsearch.
字段 qlo, qhi, tlo, thi 现在有对应项 (qilo, qihi, tilo, tihi) 报告
对齐坐标忽略终端间隙。
在 usearch 中,使用选项 --output_no_hits 时,未收到匹配项的查询是
在blast6out 文件中报告,但不在对齐输出文件中报告。 这在
vsearch.
vsearch 引入了一个新的 --cluster_size 命令,它通过减少对序列进行排序
聚类前的丰度。
vsearch 重新引入已删除的 --iddef 替代成对标识定义
从用户搜索。
vsearch 将 --topn 选项扩展到排序命令。
vsearch 将 --sizein 选项扩展到去复制 (--derep_fulllength) 和集群
(--cluster_fast)。
vsearch 在去复制过程中将 T 和 U 视为相同的核苷酸。
vsearch 通过使用序列丰度或序列标签来稳定排序
二级或三级密钥。
新奇特
vsearch 引入了 usearch 7 中不存在的新选项。它们在
本手册的“选项”部分。 这是一个简短的列表:
- alignwidth(嵌合检查)
- cluster_size(聚类)
- fasta_width(一般选项)
- iddef(聚类、成对对齐、搜索)
- maxuniquesize(去复制)
- 洗牌(洗牌)
示例
将数据库中的所有序列相互比对并输出所有成对比对:
vsearch --allpairs_global 数据库.fas --alnout 结果.aln - 全都接受
检查嵌合体的存在(de 新); 父母至少应该多1.5倍
比嵌合体丰富。 以 fasta 格式输出非嵌合序列(无包装):
vsearch --uchime_denovo 查询.fas --非嵌合体 结果.fas --fasta_宽度0
--偏斜 1.5
以 97% 相似度阈值进行聚类,收集聚类质心,并写入聚类
使用类似 uclust 格式的描述:
vsearch --cluster_fast 查询.fas --id 0.97 --质心 质心.fas --uc
集群.uc
删除query.fas中包含的序列,考虑到丰度
信息已经存在,写入解包序列以新的丰度输出
信息,丢弃所有丰度为 1 的序列:
vsearch --derep_fulllength 查询.fas - 输出 query_masked.fas --尺寸
--sizeout --fasta_width 0 --minuniquesize 2
屏蔽输入 fasta 文件中的简单重复和低复杂性区域(屏蔽区域是
小写),并将结果写入输出文件:
vsearch --maskfasta 查询.fas - 输出 query_masked.fas --qmask 灰尘
在参考数据库中搜索查询,具有 80% 的相似度阈值,取终端
计算成对相似性时要考虑的差距:
vsearch --usearch_global 查询.fas - D b 参考资料.fas --alnout 结果.aln - ID
0.8 --iddef 1
针对自身搜索序列数据集(忽略自身命中),获得所有匹配项至少
60% 身份,并以类似爆炸的制表符分隔格式收集结果:
vsearch --usearch_global 查询.fas - D b 查询.fas --id 0.6 --self --blast6out
结果.blast6 --最大接受 0 --最大拒绝 0
以可重复的方式打乱输入的 fasta 文件(更改序列的顺序)
(固定种子),并将解开的 fasta 序列写入输出文件:
vsearch --洗牌 查询.fas - 输出 query_shuffled.fas --种子 13 --fasta_width
0
通过减少包含在 query.fas 中的序列的丰度排序(使用
“尺寸=整数" 信息),重新标记序列,同时保留丰度
信息(使用 --sizeout),只保留丰度等于或大于的序列
比 2:
vsearch --按大小排序 查询.fas - 输出 query_sorted.fas --重新标记样本A_
--尺寸输出 --最小尺寸 2
作者
Torbjørn Rognes 和 Tomás Flouri 的实施,Frédéric Mahé 的文档。
REPORTING BUGS
提交建议和错误报告, 寄一个
拉取请求,或组成一个友好的或
发送给 Torbjørn Rognes 的脾气暴躁的电子邮件[电子邮件保护]>.
可用性
源代码和二进制文件可在.
版权
版权所有 (C) 2014、2015 Torbjørn Rognes、Frédéric Mahé 和 Tomás Flouri。
该程序是免费软件:您可以根据以下条款重新分发和/或修改它
由自由软件基金会发布的 GNU Affero 通用公共许可证,或者
许可证的第 3 版或任何更高版本。
分发此程序是希望它有用,但不作任何保证;
甚至没有对适销性或针对特定目的的适用性的暗示保证。
有关更多详细信息,请参阅 GNU Affero 通用公共许可证。
您应该已经收到一份 GNU Affero 通用公共许可证的副本以及此
程序。 如果没有,请看http://www.gnu.org/licenses/>.
vsearch 包括 Geoff Pike 和 Jyrki Alakuijala 来自 Google CityHash 项目的代码,
提供一些在 MIT 许可下可用的优秀散列函数。
vsearch 包括从 Tatusov 和 Lipman 公开的 DUST 程序派生的代码
域。
vsearch 二进制文件可能包括来自 zlib 库的代码,版权 Jean-Loup Gailly 和
马克·阿德勒。
vsearch 二进制文件可能包括来自 bzip2 库的代码,版权 Julian R. Seward。
使用 onworks.net 服务在线使用 vsearch