英语法语西班牙文

OnWorks 网站图标

水母 - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 jellyfish

这是 jellyfish 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


Jellyfish 是一种计算 DNA 序列中 k-mers 的软件。

概要


水母数[-o字首[-m长度[-t线程[-s散列大小[--双链] 法斯塔
[法斯塔 ... ]
水母合并 哈希1 哈希2 ...
水母垃圾场 哈希
水母统计 哈希
水母组织 [-h[-l[-i增量] 哈希
水母查询 哈希
水母引用

加上 Quake 模式的等效版本:qhisto、qdump 和 qmerge。

商品描述


Jellyfish 是一个基于多线程哈希表实现的 k-mer 计数器。

数数 AND 合并
要计算 k-mers,请使用如下命令:

水母计数 -m 22 -o 输出 -c 3 -s 10000000 -t 32 input.fasta

这将计算具有 22 个线程的 input.fasta 中的 32-mers。 中的计数器字段
散列仅使用 3 位,散列至少有 10 万个条目。

输出文件将命名为 output_0、output_1 等(前缀由
-o 转变)。 如果散列足够大(由 -s 开关)以适应所有
k-mers,将只有一个名为 output_0 的输出文件。 如果哈希值之前填满
所有的mers都被读取,散列被转储到磁盘,归零并在mers中读取
简历。 磁盘上将存在多个中间文件,名为 output_0,
output_1 等

要从其他子命令(例如 histo、stats 等)获得正确的结果,
多个输出文件,如果有的话,需要用merge 命令合并成一个。 为了
使用以下命令的示例:

水母合并 -o output.jf output\_*

如果你得到许多中间输出文件(比如数百个),哈希表的大小
太小。 重新运行更大尺寸的水母(选项 -s) 可能比
合并所有中间文件。

迎新会
当输入 fasta 文件中序列的方向未知时,例如在
测序读数,使用 --双链 (-C) 最有意义。

对于任何 k-mer m,其规范表示是 m 本身或其反向补码,
以字典序先出现者为准。 随着选项 -C,只有规范
mers 的表示存储在哈希中,计数值是
mer 及其反向补码的出现。

选择 HASH 尺寸
为达到最佳性能,应写入最少数量的中间文件
到磁盘。 所以参数 -s 应该选择适合尽可能多的 k-mers(理想情况下
所有这些)同时仍然适合记忆。

我们考虑示例:在测序读数和完成的基因组中计算mers。

首先,假设我们在短测序reads中计算k-mers:有n个reads,有
每次读取平均 1 个错误,其中每个错误生成 k 个唯一的 mers。 如果基因组
size 是 G,散列的大小(选项 -s) 一次拟合所有 k-mers 估计为:$(G
+ k*n)/0.8$。 除以 0.8 补偿了大约 $80%$ 的最大使用量
的哈希表。

另一方面,当在长度为 G 的组装序列中计算 k 聚体时,设置 -s
以G为宜。

为方便起见,Jellyfish 理解散列大小的 ISO 后缀。
因此,“-s 10M”代表 10 万个条目,而“-s 50G”代表 50 亿个条目。

哈希表的实际内存使用量可以计算如下。 实际尺寸
散列将四舍五入到 2 的下一个幂:s=2^l。 参数 r 是这样的
最大重新探测值(-p) 加一小于 2^r。 然后是每个条目的内存使用情况
在散列中是(以位为单位,而不是字节)2k-l+r+1。 哈希表中的总内存使用量
字节为:2^l*(2k-l+r+1)/8。

选择 数数 领域 尺寸
为了节省空间,哈希表支持变长计数器,即一个k-mer发生
只有几次会使用一个小的计数器,多次出现的 k-mer 会使用多个
哈希中的条目。

重要:计算字段的大小不会改变结果,它只会影响
使用的内存量。 特别是,散列中没有最大值。 即使
计数字段使用 5 位,出现 2 万次的 k-mer 将具有报告的值
2 万(即没有上限为 2^5)。

- -c 指定计数字段的长度(以位为单位)。 权衡如下:
低值将节省散列中每个条目的空间,但可能会增加
使用的条目,因此可能需要更大的哈希值。

在实践中,使用一个值 -c 所以你们中的大多数 k-mers 只需要 1 个条目。 为了
例如,要计算基因组中的 k-mers,其中大部分序列是唯一的,请使用 -c1 or
-c2. 对于测序读取,使用一个值 -c 大到可以计算两倍
覆盖。 例如,如果覆盖率为 10X,则选择计数器长度为 5 (-c5) 作为 $2^5
> 20 美元。

子命令 AND 配置


COUNT个
用法:水母计数[选项]文件:路径+

计算 fasta 或 fastq 文件中的 k-mers 或 qmers

选项(() 中的默认值,*必填):

-m, --mer-len=uint32
* mer的长度

-s, - 尺寸=uint64
*哈希大小

-t, --线程=uint32
线程数 (1)

-o, - 输出=字符串
输出前缀(mer_counts)

-c, --反镜头=长度
计数字段的长度 (7)

--out-counter-len=长度
以字节为单位输出中计数器字段的长度 (4)

-C,--双链
计算两条链,规范表示(假)

-p, --重新探测=uint32
最大重新探测数 (62)

-r,- 生的
写入原始数据库(假)

-q,--地震
Quake 兼容模式 (false)

--质量开始=uint32
质量值的起始 ASCII (64)

--min-质量=uint32
最低质量。 质量较差的碱基变为 N (0)

-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer

-U, --高数=uint64
不要输出 k-mer with count > upper-count

- 矩阵=矩阵
文件哈希函数二进制矩阵

- 定时=计时
文件打印时间信息

--统计=统计
文件打印统计

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

统计资料
用法:jellyfish stats [options] db:path

统计

显示散列中 k-mer 的一些统计信息:

唯一性:仅出现一次的 k-mer 的数量。 区别:k-mers的数量,不计算
多样性。 总计:k-mers 的数量,包括多重性。 Max_count:最大数量
k-mer的出现。

选项(() 中的默认值,*必填):

-L, -- 低计数=uint64
不要考虑计数 <lower-count 的 k-mer

-U, --高数=uint64
不要考虑计数 > 上限计数的 k-mer

-v,--详细
详细(假)

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

历史
用法:jellyfish histo [options] db:path

创建 k-mer 出现的直方图

使用具有给定计数的 k 聚体数量创建直方图。 在桶“我”是
计算具有满足 'low+i*inc <= c < low+(i+1)*inc' 的计数 'c' 的 k 聚体。
输出中的存储桶由低端点 (low+i*inc) 标记。

输出中的最后一个桶表现得像一个包罗万象的东西:它用一个计数来记录所有的 k-mers
大于或等于此桶的低端。

选项(() 中的默认值,*必填):

-l, - 低的=uint64
直方图的低计数值 (1)

-h, - 高的=uint64
直方图的高计数值(10000)

-i, - 增量=uint64
存储桶的增量值 (1)

-t, --线程=uint32
线程数 (1)

-f,- 满的
完整的历史记录。 不要跳过计数 0。(假)

-o, - 输出=字符串
输出文件

-v,--详细
输出信息(假)

- 用法
用法

- 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

DUMP
用法:jellyfish dump [options] db:path

转储 k-mer 计数

默认情况下,以 fasta 格式转储,其中标头是计数,序列是
k-mer的序列。 列格式是 2 列输出:k-mer 计数。

选项(() 中的默认值,*必填):

-c,- 柱子
列格式(假)

-t,- 标签
制表符分隔符(假)

-L, -- 低计数=uint64
不要输出计数<lower-count的k-mer

-U, --高数=uint64
不要输出 k-mer with count > upper-count

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

合并
用法:水母合并[选项]输入:字符串+

合并水母数据库

选项(() 中的默认值,*必填):

-s, - 缓冲区大小=缓冲
length 输入缓冲区的字节长度 (10000000)

-o, - 输出=字符串
输出文件(mer_counts_merged.jf)

--out-counter-len=uint32
输出 (4) 中计数字段的长度(以字节为单位)

--输出缓冲区大小=uint64
每个线程的输出缓冲区大小 (10000000)

-v,--详细
冗长(假)

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

QUERY
用法:水母查询 [选项] db:path

从压缩的数据库中查询

查询哈希。 它从标准输入中读取 k-mers 并将计数写入标准
输出。

选项(() 中的默认值,*必填):

-C,--双链
两条线(假)

-c,--卡位
值字段作为进位信息(假)

-i, - 输入=文件
输入文件

-o, - 输出=文件
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

奇多
用法:水母 qhisto [选项] db:string

创建 k-mer 出现的直方图

选项(() 中的默认值,*必填):

-l, - 低的=双
直方图的低计数值 (0.0)

-h, - 高的=双
直方图的高计数值(10000.0)

-i, - 增量=双
存储桶的增量值 (1.0)

-f,- 满的
完整的历史记录。 不要跳过计数 0。(假)

- 用法
用法

- 帮帮我
这条信息

-V,- 版
版本

量子转储
用法:jellyfish qdump [options] db:path

从 qmer 数据库转储 k-mer

默认情况下,以 fasta 格式转储,其中标头是计数,序列是
k-mer的序列。 列格式是 2 列输出:k-mer 计数。

选项(() 中的默认值,*必填):

-c,- 柱子
列格式(假)

-t,- 标签
制表符分隔符(假)

-L, -- 低计数=双
不要输出计数<lower-count的k-mer

-U, --高数=双
不要输出 k-mer with count > upper-count

-v,--详细
冗长(假)

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

合并
用法:水母合并 [选项] db:string+

合并地震数据库

选项(() 中的默认值,*必填):

-s, - 尺寸=uint64
*合并哈希表大小

-m, --mer-len=uint32
*鱼尾长度

-o, - 输出=字符串
输出文件(merged.jf)

-p, --重新探测=uint32
最大重新探测数 (62)

- 用法
用法

-h, - 帮帮我
这条信息

--全帮助
详细帮助

-V,- 版
版本

CITE
用法:水母引用[选项]

如何引用 Jellyfish 的论文

论文引用

选项(() 中的默认值,*必填):

-b,--bibtex
Bibtex 格式(假)

-o, - 输出=字符串
输出文件

- 用法
用法

-h, - 帮帮我
这条信息

-V,- 版
版本

VERSION


版本:1.1.4 of 2010/10/1

使用 onworks.net 服务在线使用水母


免费服务器和工作站

下载 Windows 和 Linux 应用程序

  • 1
    阿伏加德罗
    阿伏加德罗
    阿伏伽德罗是一种先进的分子
    专为跨平台使用而设计的编辑器
    在计算化学,分子
    建模、生物信息学、材料
    科学和...
    下载阿伏加德罗
  • 2
    XML电视
    XML电视
    XMLTV 是一组要处理的程序
    电视 (tvguide) 列表和帮助管理
    您的电视观看,将列表存储在
    基于 XML 的格式。 有实用程序
    做...
    下载 XMLTV
  • 3
    罢工者
    罢工者
    Strikr 自由软件项目。 文物
    在“基于意图的”下发布
    双许可证:AGPLv3(社区)和
    CC-BY-NC-ND 4.0 国际
    (商业的)...
    下载 strikr
  • 5
    GIFLIB
    GIFLIB
    giflib 是一个用于阅读和
    写gif图片。 它是 API 和 ABI
    与 libungif 兼容
    LZW压缩时广泛使用
    算法是...
    下载 GIFLIB
  • 6
    Alt-F
    Alt-F
    Alt-F 提供了一个免费和开源的
    DLINK 的替代固件
    DNS-320/320L/321/323/325/327L and
    DNR-322L。 Alt-F 有 Samba 和 NFS;
    支持ext2/3/4...
    下载 Alt-F
  • 更多 ”

Linux 命令

Ad