这是 jellyfish 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
Jellyfish 是一种计算 DNA 序列中 k-mers 的软件。
概要
水母数[-o字首[-m长度[-t线程[-s散列大小[--双链] 法斯塔
[法斯塔 ... ]
水母合并 哈希1 哈希2 ...
水母垃圾场 哈希
水母统计 哈希
水母组织 [-h高[-l低[-i增量] 哈希
水母查询 哈希
水母引用
加上 Quake 模式的等效版本:qhisto、qdump 和 qmerge。
商品描述
Jellyfish 是一个基于多线程哈希表实现的 k-mer 计数器。
数数 AND 合并
要计算 k-mers,请使用如下命令:
水母计数 -m 22 -o 输出 -c 3 -s 10000000 -t 32 input.fasta
这将计算具有 22 个线程的 input.fasta 中的 32-mers。 中的计数器字段
散列仅使用 3 位,散列至少有 10 万个条目。
输出文件将命名为 output_0、output_1 等(前缀由
-o 转变)。 如果散列足够大(由 -s 开关)以适应所有
k-mers,将只有一个名为 output_0 的输出文件。 如果哈希值之前填满
所有的mers都被读取,散列被转储到磁盘,归零并在mers中读取
简历。 磁盘上将存在多个中间文件,名为 output_0,
output_1 等
要从其他子命令(例如 histo、stats 等)获得正确的结果,
多个输出文件,如果有的话,需要用merge 命令合并成一个。 为了
使用以下命令的示例:
水母合并 -o output.jf output\_*
如果你得到许多中间输出文件(比如数百个),哈希表的大小
太小。 重新运行更大尺寸的水母(选项 -s) 可能比
合并所有中间文件。
迎新会
当输入 fasta 文件中序列的方向未知时,例如在
测序读数,使用 --双链 (-C) 最有意义。
对于任何 k-mer m,其规范表示是 m 本身或其反向补码,
以字典序先出现者为准。 随着选项 -C,只有规范
mers 的表示存储在哈希中,计数值是
mer 及其反向补码的出现。
选择 “ HASH 尺寸
为达到最佳性能,应写入最少数量的中间文件
到磁盘。 所以参数 -s 应该选择适合尽可能多的 k-mers(理想情况下
所有这些)同时仍然适合记忆。
我们考虑示例:在测序读数和完成的基因组中计算mers。
首先,假设我们在短测序reads中计算k-mers:有n个reads,有
每次读取平均 1 个错误,其中每个错误生成 k 个唯一的 mers。 如果基因组
size 是 G,散列的大小(选项 -s) 一次拟合所有 k-mers 估计为:$(G
+ k*n)/0.8$。 除以 0.8 补偿了大约 $80%$ 的最大使用量
的哈希表。
另一方面,当在长度为 G 的组装序列中计算 k 聚体时,设置 -s
以G为宜。
为方便起见,Jellyfish 理解散列大小的 ISO 后缀。
因此,“-s 10M”代表 10 万个条目,而“-s 50G”代表 50 亿个条目。
哈希表的实际内存使用量可以计算如下。 实际尺寸
散列将四舍五入到 2 的下一个幂:s=2^l。 参数 r 是这样的
最大重新探测值(-p) 加一小于 2^r。 然后是每个条目的内存使用情况
在散列中是(以位为单位,而不是字节)2k-l+r+1。 哈希表中的总内存使用量
字节为:2^l*(2k-l+r+1)/8。
选择 “ 数数 领域 尺寸
为了节省空间,哈希表支持变长计数器,即一个k-mer发生
只有几次会使用一个小的计数器,多次出现的 k-mer 会使用多个
哈希中的条目。
重要:计算字段的大小不会改变结果,它只会影响
使用的内存量。 特别是,散列中没有最大值。 即使
计数字段使用 5 位,出现 2 万次的 k-mer 将具有报告的值
2 万(即没有上限为 2^5)。
- -c 指定计数字段的长度(以位为单位)。 权衡如下:
低值将节省散列中每个条目的空间,但可能会增加
使用的条目,因此可能需要更大的哈希值。
在实践中,使用一个值 -c 所以你们中的大多数 k-mers 只需要 1 个条目。 为了
例如,要计算基因组中的 k-mers,其中大部分序列是唯一的,请使用 -c1 or
-c2. 对于测序读取,使用一个值 -c 大到可以计算两倍
覆盖。 例如,如果覆盖率为 10X,则选择计数器长度为 5 (-c5) 作为 $2^5
> 20 美元。
子命令 AND 配置
COUNT个
用法:水母计数[选项]文件:路径+
计算 fasta 或 fastq 文件中的 k-mers 或 qmers
选项(() 中的默认值,*必填):
-m, --mer-len=uint32
* mer的长度
-s, - 尺寸=uint64
*哈希大小
-t, --线程=uint32
线程数 (1)
-o, - 输出=字符串
输出前缀(mer_counts)
-c, --反镜头=长度
计数字段的长度 (7)
--out-counter-len=长度
以字节为单位输出中计数器字段的长度 (4)
-C,--双链
计算两条链,规范表示(假)
-p, --重新探测=uint32
最大重新探测数 (62)
-r,- 生的
写入原始数据库(假)
-q,--地震
Quake 兼容模式 (false)
--质量开始=uint32
质量值的起始 ASCII (64)
--min-质量=uint32
最低质量。 质量较差的碱基变为 N (0)
-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer
-U, --高数=uint64
不要输出 k-mer with count > upper-count
- 矩阵=矩阵
文件哈希函数二进制矩阵
- 定时=计时
文件打印时间信息
--统计=统计
文件打印统计
- 用法
用法
-h, - 帮帮我
这条信息
--全帮助
详细帮助
-V,- 版
版本
统计资料
用法:jellyfish stats [options] db:path
统计
显示散列中 k-mer 的一些统计信息:
唯一性:仅出现一次的 k-mer 的数量。 区别:k-mers的数量,不计算
多样性。 总计:k-mers 的数量,包括多重性。 Max_count:最大数量
k-mer的出现。
选项(() 中的默认值,*必填):
-L, -- 低计数=uint64
不要考虑计数 <lower-count 的 k-mer
-U, --高数=uint64
不要考虑计数 > 上限计数的 k-mer
-v,--详细
详细(假)
-o, - 输出=字符串
输出文件
- 用法
用法
-h, - 帮帮我
这条信息
--全帮助
详细帮助
-V,- 版
版本
历史
用法:jellyfish histo [options] db:path
创建 k-mer 出现的直方图
使用具有给定计数的 k 聚体数量创建直方图。 在桶“我”是
计算具有满足 'low+i*inc <= c < low+(i+1)*inc' 的计数 'c' 的 k 聚体。
输出中的存储桶由低端点 (low+i*inc) 标记。
输出中的最后一个桶表现得像一个包罗万象的东西:它用一个计数来记录所有的 k-mers
大于或等于此桶的低端。
选项(() 中的默认值,*必填):
-l, - 低的=uint64
直方图的低计数值 (1)
-h, - 高的=uint64
直方图的高计数值(10000)
-i, - 增量=uint64
存储桶的增量值 (1)
-t, --线程=uint32
线程数 (1)
-f,- 满的
完整的历史记录。 不要跳过计数 0。(假)
-o, - 输出=字符串
输出文件
-v,--详细
输出信息(假)
- 用法
用法
- 帮帮我
这条信息
--全帮助
详细帮助
-V,- 版
版本
DUMP
用法:jellyfish dump [options] db:path
转储 k-mer 计数
默认情况下,以 fasta 格式转储,其中标头是计数,序列是
k-mer的序列。 列格式是 2 列输出:k-mer 计数。
选项(() 中的默认值,*必填):
-c,- 柱子
列格式(假)
-t,- 标签
制表符分隔符(假)
-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer
-U, --高数=uint64
不要输出 k-mer with count > upper-count
-o, - 输出=字符串
输出文件
- 用法
用法
-h, - 帮帮我
这条信息
-V,- 版
版本
合并
用法:水母合并[选项]输入:字符串+
合并水母数据库
选项(() 中的默认值,*必填):
-s, - 缓冲区大小=缓冲
length 输入缓冲区的字节长度 (10000000)
-o, - 输出=字符串
输出文件(mer_counts_merged.jf)
--out-counter-len=uint32
输出 (4) 中计数字段的长度(以字节为单位)
--输出缓冲区大小=uint64
每个线程的输出缓冲区大小 (10000000)
-v,--详细
冗长(假)
- 用法
用法
-h, - 帮帮我
这条信息
-V,- 版
版本
QUERY
用法:水母查询 [选项] db:path
从压缩的数据库中查询
查询哈希。 它从标准输入中读取 k-mers 并将计数写入标准
输出。
选项(() 中的默认值,*必填):
-C,--双链
两条线(假)
-c,--卡位
值字段作为进位信息(假)
-i, - 输入=文件
输入文件
-o, - 输出=文件
输出文件
- 用法
用法
-h, - 帮帮我
这条信息
-V,- 版
版本
奇多
用法:水母 qhisto [选项] db:string
创建 k-mer 出现的直方图
选项(() 中的默认值,*必填):
-l, - 低的=双
直方图的低计数值 (0.0)
-h, - 高的=双
直方图的高计数值(10000.0)
-i, - 增量=双
存储桶的增量值 (1.0)
-f,- 满的
完整的历史记录。 不要跳过计数 0。(假)
- 用法
用法
- 帮帮我
这条信息
-V,- 版
版本
量子转储
用法:jellyfish qdump [options] db:path
从 qmer 数据库转储 k-mer
默认情况下,以 fasta 格式转储,其中标头是计数,序列是
k-mer的序列。 列格式是 2 列输出:k-mer 计数。
选项(() 中的默认值,*必填):
-c,- 柱子
列格式(假)
-t,- 标签
制表符分隔符(假)
-L, -- 低计数=双
不要输出计数<lower-count的k-mer
-U, --高数=双
不要输出 k-mer with count > upper-count
-v,--详细
冗长(假)
-o, - 输出=字符串
输出文件
- 用法
用法
-h, - 帮帮我
这条信息
-V,- 版
版本
合并
用法:水母合并 [选项] db:string+
合并地震数据库
选项(() 中的默认值,*必填):
-s, - 尺寸=uint64
*合并哈希表大小
-m, --mer-len=uint32
*鱼尾长度
-o, - 输出=字符串
输出文件(merged.jf)
-p, --重新探测=uint32
最大重新探测数 (62)
- 用法
用法
-h, - 帮帮我
这条信息
--全帮助
详细帮助
-V,- 版
版本
CITE
用法:水母引用[选项]
如何引用 Jellyfish 的论文
论文引用
选项(() 中的默认值,*必填):
-b,--bibtex
Bibtex 格式(假)
-o, - 输出=字符串
输出文件
- 用法
用法
-h, - 帮帮我
这条信息
-V,- 版
版本
VERSION
版本:1.1.4 of 2010/10/1
使用 onworks.net 服务在线使用水母