水母 - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 jellyfish

这是 jellyfish 命令，可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

Jellyfish 是一种计算 DNA 序列中 k-mers 的软件。

概要

水母数[-o字首[-m长度[-t线程[-s散列大小[--双链] 法斯塔
[法斯塔 ... ]
水母合并哈希1 哈希2 ...
水母垃圾场哈希
水母统计哈希
水母组织 [-h高[-l低[-i增量] 哈希
水母查询哈希
水母引用

加上 Quake 模式的等效版本：qhisto、qdump 和 qmerge。

商品描述

Jellyfish 是一个基于多线程哈希表实现的 k-mer 计数器。

数数 AND 合并
要计算 k-mers，请使用如下命令：

水母计数 -m 22 -o 输出 -c 3 -s 10000000 -t 32 input.fasta

这将计算具有 22 个线程的 input.fasta 中的 32-mers。中的计数器字段
散列仅使用 3 位，散列至少有 10 万个条目。

输出文件将命名为 output_0、output_1 等（前缀由
-o 转变）。如果散列足够大（由 -s 开关）以适应所有
k-mers，将只有一个名为 output_0 的输出文件。如果哈希值之前填满
所有的mers都被读取，散列被转储到磁盘，归零并在mers中读取
简历。磁盘上将存在多个中间文件，名为 output_0，
output_1 等

要从其他子命令（例如 histo、stats 等）获得正确的结果，
多个输出文件，如果有的话，需要用merge 命令合并成一个。为了
使用以下命令的示例：

水母合并 -o output.jf output\_*

如果你得到许多中间输出文件（比如数百个），哈希表的大小
太小。重新运行更大尺寸的水母（选项 -s) 可能比
合并所有中间文件。

迎新会
当输入 fasta 文件中序列的方向未知时，例如在
测序读数，使用 --双链 (-C) 最有意义。

对于任何 k-mer m，其规范表示是 m 本身或其反向补码，
以字典序先出现者为准。随着选项 -C，只有规范
mers 的表示存储在哈希中，计数值是
mer 及其反向补码的出现。

选择 “ HASH 尺寸
为达到最佳性能，应写入最少数量的中间文件
到磁盘。所以参数 -s 应该选择适合尽可能多的 k-mers（理想情况下
所有这些）同时仍然适合记忆。

我们考虑示例：在测序读数和完成的基因组中计算mers。

首先，假设我们在短测序reads中计算k-mers：有n个reads，有
每次读取平均 1 个错误，其中每个错误生成 k 个唯一的 mers。如果基因组
size 是 G，散列的大小（选项 -s) 一次拟合所有 k-mers 估计为：$(G
+ k*n)/0.8$。除以 0.8 补偿了大约 $80%$ 的最大使用量
的哈希表。

另一方面，当在长度为 G 的组装序列中计算 k 聚体时，设置 -s
以G为宜。

为方便起见，Jellyfish 理解散列大小的 ISO 后缀。
因此，“-s 10M”代表 10 万个条目，而“-s 50G”代表 50 亿个条目。

哈希表的实际内存使用量可以计算如下。实际尺寸
散列将四舍五入到 2 的下一个幂：s=2^l。参数 r 是这样的
最大重新探测值（-p) 加一小于 2^r。然后是每个条目的内存使用情况
在散列中是（以位为单位，而不是字节）2k-l+r+1。哈希表中的总内存使用量
字节为：2^l*(2k-l+r+1)/8。

选择 “ 数数领域尺寸
为了节省空间，哈希表支持变长计数器，即一个k-mer发生
只有几次会使用一个小的计数器，多次出现的 k-mer 会使用多个
哈希中的条目。

重要：计算字段的大小不会改变结果，它只会影响
使用的内存量。特别是，散列中没有最大值。即使
计数字段使用 5 位，出现 2 万次的 k-mer 将具有报告的值
2 万（即没有上限为 2^5）。

- -c 指定计数字段的长度（以位为单位）。权衡如下：
低值将节省散列中每个条目的空间，但可能会增加
使用的条目，因此可能需要更大的哈希值。

在实践中，使用一个值 -c 所以你们中的大多数 k-mers 只需要 1 个条目。为了
例如，要计算基因组中的 k-mers，其中大部分序列是唯一的，请使用 -c1 or
-c2. 对于测序读取，使用一个值 -c 大到可以计算两倍
覆盖。例如，如果覆盖率为 10X，则选择计数器长度为 5 (-c5) 作为 $2^5
> 20 美元。

子命令 AND 配置

COUNT个
用法：水母计数[选项]文件：路径+

计算 fasta 或 fastq 文件中的 k-mers 或 qmers

选项（() 中的默认值，*必填）：

-m, --mer-len=uint32
* mer的长度

-s, - 尺寸=uint64
*哈希大小

-t, --线程=uint32
线程数 (1)

-o, - 输出=字符串
输出前缀（mer_counts）

-c, --反镜头=长度
计数字段的长度 (7)

--out-counter-len=长度
以字节为单位输出中计数器字段的长度 (4)

-C,--双链
计算两条链，规范表示（假）

-p, --重新探测=uint32
最大重新探测数 (62)

-r,- 生的
写入原始数据库（假）

-q,--地震
Quake 兼容模式 (false)

--质量开始=uint32
质量值的起始 ASCII (64)

--min-质量=uint32
最低质量。质量较差的碱基变为 N (0)

-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer

-U, --高数=uint64
不要输出 k-mer with count > upper-count

- 矩阵=矩阵
文件哈希函数二进制矩阵

- 定时=计时
文件打印时间信息

--统计=统计
文件打印统计

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

统计资料
用法：jellyfish stats [options] db:path

统计

显示散列中 k-mer 的一些统计信息：

唯一性：仅出现一次的 k-mer 的数量。区别：k-mers的数量，不计算
多样性。总计：k-mers 的数量，包括多重性。 Max_count：最大数量
k-mer的出现。

选项（() 中的默认值，*必填）：

-L, -- 低计数=uint64
不要考虑计数 <lower-count 的 k-mer

-U, --高数=uint64
不要考虑计数 > 上限计数的 k-mer

-v,--详细
详细（假）

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

历史
用法：jellyfish histo [options] db:path

创建 k-mer 出现的直方图

使用具有给定计数的 k 聚体数量创建直方图。在桶“我”是
计算具有满足 'low+i*inc <= c < low+(i+1)*inc' 的计数 'c' 的 k 聚体。
输出中的存储桶由低端点 (low+i*inc) 标记。

输出中的最后一个桶表现得像一个包罗万象的东西：它用一个计数来记录所有的 k-mers
大于或等于此桶的低端。

选项（() 中的默认值，*必填）：

-l, - 低的=uint64
直方图的低计数值 (1)

-h, - 高的=uint64
直方图的高计数值（10000）

-i, - 增量=uint64
存储桶的增量值 (1)

-t, --线程=uint32
线程数 (1)

-f,- 满的
完整的历史记录。不要跳过计数 0。（假）

-o, - 输出=字符串
输出文件

-v,--详细
输出信息（假）

- 用法
用法

- 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

DUMP
用法：jellyfish dump [options] db:path

转储 k-mer 计数

默认情况下，以 fasta 格式转储，其中标头是计数，序列是
k-mer的序列。列格式是 2 列输出：k-mer 计数。

选项（() 中的默认值，*必填）：

-c,- 柱子
列格式（假）

-t,- 标签
制表符分隔符（假）

-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer

-U, --高数=uint64
不要输出 k-mer with count > upper-count

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

合并
用法：水母合并[选项]输入：字符串+

合并水母数据库

选项（() 中的默认值，*必填）：

-s, - 缓冲区大小=缓冲
length 输入缓冲区的字节长度 (10000000)

-o, - 输出=字符串
输出文件（mer_counts_merged.jf）

--out-counter-len=uint32
输出 (4) 中计数字段的长度（以字节为单位）

--输出缓冲区大小=uint64
每个线程的输出缓冲区大小 (10000000)

-v,--详细
冗长（假）

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

QUERY
用法：水母查询 [选项] db:path

从压缩的数据库中查询

查询哈希。它从标准输入中读取 k-mers 并将计数写入标准
输出。

选项（() 中的默认值，*必填）：

-C,--双链
两条线（假）

-c,--卡位
值字段作为进位信息（假）

-i, - 输入=文件
输入文件

-o, - 输出=文件
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

奇多
用法：水母 qhisto [选项] db:string

创建 k-mer 出现的直方图

选项（() 中的默认值，*必填）：

-l, - 低的=双
直方图的低计数值 (0.0)

-h, - 高的=双
直方图的高计数值（10000.0）

-i, - 增量=双
存储桶的增量值 (1.0)

-f,- 满的
完整的历史记录。不要跳过计数 0。（假）

- 用法
用法

- 帮帮我
这条信息

-V,- 版
版本

量子转储
用法：jellyfish qdump [options] db:path

从 qmer 数据库转储 k-mer

默认情况下，以 fasta 格式转储，其中标头是计数，序列是
k-mer的序列。列格式是 2 列输出：k-mer 计数。

选项（() 中的默认值，*必填）：

-c,- 柱子
列格式（假）

-t,- 标签
制表符分隔符（假）

-L, -- 低计数=双
不要输出计数<lower-count的k-mer

-U, --高数=双
不要输出 k-mer with count > upper-count

-v,--详细
冗长（假）

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

合并
用法：水母合并 [选项] db:string+

合并地震数据库

选项（() 中的默认值，*必填）：

-s, - 尺寸=uint64
*合并哈希表大小

-m, --mer-len=uint32
*鱼尾长度

-o, - 输出=字符串
输出文件（merged.jf）

-p, --重新探测=uint32
最大重新探测数 (62)

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

CITE
用法：水母引用[选项]

如何引用 Jellyfish 的论文

论文引用

选项（() 中的默认值，*必填）：

-b,--bibtex
Bibtex 格式（假）

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

VERSION

版本：1.1.4 of 2010/10/1

使用 onworks.net 服务在线使用水母