这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 pbbarcode,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
pbbarcode - 用条形码信息注释 PacBio 测序读数
商品描述
这款 条码 包提供了直接从一个 ZMW 注释单个 ZMW 的实用程序
bas.h5 文件,为每个条形码发出 fast[a|q] 文件,标记存储在一个
cmp.h5 文件,并就小扩增子达成共识(需要 多巴达康(1))
目前,可以通过两种不同的方式对条形码进行评分: 对称 和 配对.
对称模式支持在一张纸的两侧有两个相同的条码的条码设计
SMRTbell,例如,对于条形码(A、B),分子被标记为 A--A 或 B--B。 这 配对
模式支持在分子每一侧有两个不同条码的设计,但都没有
条码在没有其伴侣的情况下出现。 最小示例如下
条形码:(ALeft、ARight、BLeft、BRight),其中检查以下条形码集:
ALeft--ARight,BLeft--BRight。
重要的是要强调条形码 FASTA 文件指定可用的列表
条形码进行评估。 根据评分模式,条形码被分组在一起
不同的方式。 例如,在 对称 case,可能的条码数量
结果只是提供给 FASTA 中的例程的条形码数量
文件(见下文使用)加上一个额外的 无 条码表示没有条码
可以评估(表示为:'--')。 像这样的标签 (A--A) 用于最终
输出。 在里面 配对 模式,可能的条码结果的数量是数量的一半
FASTA 文件中的序列加上 无 条码。 这 无 条码表示
没有尝试对分子进行评分,或者它被用户的标准过滤掉了。
一个分子没有被评分的大多数情况与没有观察到任何
适配器。 如果用户执行了“热启动”运行,则用户可以尝试“--scoreFirst”
参数以尝试标记第一个适配器的条形码。 这增加了产量
标记程序以牺牲一些可能的误报为代价。
该软件是作为标准的 python 包实现的。 条形码根据
到以下高级逻辑。 对于每个分子,都找到了所有的接头。 对于每个
适配器,我们对齐(使用标准 Smith-Watterman 对齐)每个条形码及其反面
对接头的侧翼序列进行补充。 如果两个完整的侧翼序列是
可用,我们除以 2,否则如果只有一个侧翼序列可用(平均
在适配器上得分)。 这允许跨适配器的分数在相同的范围内(嵌合体
检测)。 取决于 模式,然后我们确定哪些条码最大
得分。 我们存储两个得分最高的条形码,它们的比对分数的总和
跨适配器。 平均条形码分数可以近似地由下式给出:
总分/适配器数量。 目前,对齐参数固定为:
┌────────────┬────────┐
│类型│分数│
├──────────┼────────┤
│插入 │ -1 │
├──────────┼────────┤
│删除│ -1 │
├──────────┼────────┤
│不匹配│ -2 │
├──────────┼────────┤
│匹配 │ 2 │
└────────────┴────────┘
输入 和 产量
标签Zmws
用法: 条码 标签Zmws [-H] [--输出目录 外] [--outFofn 输出]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad INSERTSIDEPAD] [--scoreMode
{对称,配对}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo]barcode.fasta input.fofn
从基本的 h5 文件创建一个 barcode.h5 文件。
阵地 参数:
barcode.fasta 输入条码 fasta 文件 input.fofn 输入库
福恩
可选 参数:
-h, - 帮帮我
显示此帮助信息并退出
--outDir 外向
在哪里写入新创建的barcode.h5 文件。 (默认:
/home/UNIXHOME/jbullard/projects/software/bioinformatics/tools/pbbarcode/doc)
--outFofn 输出
写入 outFofn(默认:barcode.fofn)
--适配器侧板 适配器侧板
带适配器侧板底座的垫(默认:4)
--插入侧板 插页
带 insertSidePad 底座的垫(默认值:4)
--分数模式 {对称,配对}
应该对条形码进行评分的模式。 (默认:对称)
--最大适配器 最大适配器
仅对第一个 maxAdapters 进行评分(默认值:20)
--得分第一
是否尝试对跟踪中最左边的条码进行评分。 (默认:假)
--开始时间截止 开始时间截止
读取必须在此值之前开始,以便在
scoreFirst 已设置。 (默认值:10.0)
--nZmws 新西兰MWS
使用前 n 个 ZMW 进行测试(默认值:-1)
--nProcs 神经过程控制系统
使用多少进程(默认:8)
--保存扩展信息
是否将扩展信息保存到barcode.h5文件中; 这个
信息对于调试和嵌合体检测很有用(默认:
错误的)
这款 标签Zmws 命令采用 input.fofn 表示一组 bas.h5 文件进行操作
在。 此外,它需要一个barcode.fasta 文件。 根据 评分模式, FASTA 文件
会以不同的方式处理。 具体来说,在 配对 模式,每两个连续
文件中的条形码被视为一组。
参数, 适配器侧板 和 插入侧板 表示应该有多少个碱基
在假定条形码的每一侧考虑。 这些参数受到限制,例如
说: |适配器侧板| + |插入侧板| + |条形码| < 65.
用户可以选择为各种输出指定不同的输出位置。
具体来说,对于 input.fofn 中的每个 bas.h5 文件,一个 bc.h5(条码 hdf5)文件是
生成。 这些文件在文件中列出 出局 这通常只是被称为
条形码文件. 有关条码 hdf5 文件的说明,请参见下文。
标签对齐
用法: 条码 标签对齐 [-H]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINCORERATIO]barcode.fofnaligned_reads.cmp.h5
将有关条形码对齐的信息添加到之前调用的 cmp.h5 文件中
“标签Zmws”。
阵地 参数:
条码.fofn 输入条码fofn 文件aligned_reads.cmp.h5 cmp.h5 文件
添加条形码标签
可选 参数:
-h, - 帮帮我
显示此帮助信息并退出
--minAvgBarcodeScore MINAVGBARCODEScore
ZMW 过滤器:如果平均条形码分数小于此值,则排除 ZMW
(默认:0.0)
--minNumBarcodes 最小条码
ZMW 过滤器:如果观察到的条码数量少于此值,则排除 ZMW
值(默认值:1)
--minScoreRatio 小比分
ZMW 过滤器:排除最高得分除以第二个最高得分的 ZMW
小于此比率(默认值:1.0)
这款 标签对齐 命令将通过调用计算的barcode.fofn作为输入
标签ZMW 以及写入条码信息的 cmp.h5 文件。 请参阅下面的
cmp.h5 文件添加的说明。
发射快
用法: 条码 发射快 [-H] [--输出目录 输出.dir] [--子阅读]
[--unlabeledZmws] [--trim TRIM] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINCORERATIO] input.fofn 条码.fofn
获取一个 bas.h5 fofn 和一个 barcode.h5 fofn 并为每个生成一个 fast[a|q] 文件
条码。
阵地 参数:
input.fofn 输入库或CCS fofn 文件barcode.fofn 输入
条形码.h5 fofn 文件
可选 参数:
-h, - 帮帮我
显示此帮助信息并退出
--outDir 输出目录 产量 目录 至 写 快问 档 (默认: / home /
UNIXHOME/jbullard/projects/software/bioinformatics/tool ls/pbbarcode/doc)
--子读
是否为 subreads 生成 fastq 文件;默认是使用
CCS 读取。 此选项仅在 input.fofn 具有共识和
原始读取,否则将返回 input.fofn 的读取类型。
(默认:假)
--unlabeledZmws
是否为未标记的 ZMW 发出 fastq 文件。 这些是 ZMW
通常找不到适配器的地方(默认值:False)
- 修剪 TRIM
修剪条形码和任何多余的恒定序列(默认值:20)
--法斯塔
生成的文件是否应该是与 FASTQ 相对的 FASTA 文件
(默认:假)
--最小最大插入长度 最小插入长度
ZMW 过滤器:如果最长的 subreadis 小于此数量,则排除 ZMW
(默认:0)
--hq开始时间 总部开始时间
ZMW 过滤器:如果 HQ 区域的开始时间大于此值,则排除 ZMW
(秒)(默认值:inf)
--minReadScore MINREADScore
ZMW 过滤器:如果 readScore 小于此值,则排除 ZMW(默认值:0)
--minAvgBarcodeScore MINAVGBARCODEScore
ZMW 过滤器:如果平均条形码分数小于此值,则排除 ZMW
(默认:0.0)
--minNumBarcodes 最小条码
ZMW 过滤器:如果观察到的条码数量少于此值,则排除 ZMW
值(默认值:1)
--minScoreRatio 小比分
ZMW 过滤器:排除最高得分除以第二个最高得分的 ZMW
小于此比率(默认值:1.0)
这款 发射快 命令将 bas.h5 文件的 input.fofn 以及
来自对 labelZmws 的调用的barcode.fofn。 可选参数 出处 规定在哪里
文件将被写入。 对于每个检测到的条形码,将发出一个 fast[a|q] 文件
该条码的所有读数。 这 修剪 参数指示应该读取多少
被修剪掉。 默认参数为 修剪 是条码的长度(即
存储在条形码 hdf5 文件中)。 目前,条码 FASTA 文件中的所有条码
必须是相同的长度,因此只支持恒定的修剪值。 在实践中,
可以积极修剪,以确保不会在末端留下额外的碱基
读。 最后, 子阅读 参数指示应该是子读取还是 CCS 读取
返回的默认值是根据输入文件类型进行的适当读取,
CCS 或 subreads。 仅当 input.fofn 包含两者时才检查此参数
CCS 和子读取数据,如果 input.fofn 只包含子读取或 CCS 数据,那么就是
无论状态如何都返回 子阅读 参数并发出警告。
共识
用法: 条码 共识 [-H] [--子样本 子样本] [--nZmws 新西兰MWS]
[--outDir OUTDIR] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
MINCORERATIO] [--barcode BARCODE [BARCODE ...]] input.fofnbarcode.fofn
计算每个条形码的共识序列。
阵地 参数:
input.fofn 输入bas.h5 fofn 文件barcode.fofn 输入bc.h5
ffn 文件
可选 参数:
-h, - 帮帮我
显示此帮助信息并退出
--子样本 子样本
子样本 ZMW(默认值:1)
--nZmws 新西兰MWS
取 n 个 ZMW(默认值:-1)
--outDir 外向
使用此目录输出结果(默认:.)
--keepTmpDir --ccsFofn CCSFOFN 从 ccsFofn 获取 CCS 数据而不是
输入文件
(默认: )
--nProcs 神经过程控制系统
使用 nProcs 来执行。 (默认:16)
--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
ZMW 过滤器:如果最长的 subreadis 小于此数量,则排除 ZMW
(默认:0)
--hq开始时间 总部开始时间
ZMW 过滤器:如果 HQ 区域的开始时间大于此值,则排除 ZMW
(秒)(默认值:inf)
--minReadScore MINREADScore
ZMW 过滤器:如果 readScore 小于此值,则排除 ZMW(默认值:0)
--minAvgBarcodeScore MINAVGBARCODEScore
ZMW 过滤器:如果平均条形码分数小于此值,则排除 ZMW
(默认:0.0)
--minNumBarcodes 最小条码
ZMW 过滤器:如果观察到的条码数量少于此值,则排除 ZMW
值(默认值:1)
--minScoreRatio 小比分
ZMW 过滤器:排除最高得分除以第二个最高得分的 ZMW
小于此比率(默认值:1.0)
- 条码 条码 [条码 ...]
使用它来提取一个条形码的一致性。 (默认:无)
这款 发射快 命令将 bas.h5 文件的 input.fofn 以及
来自对 labelZmws 的调用的barcode.fofn。 结果是一个 FASTA 文件,每个文件都有一个条目
包含共有扩增子序列的条形码。 这种模式利用 颤动 和 多巴达康
计算共识。
在扩增子少于 2.5k 碱基的情况下,使用 CCS 数据非常有帮助。 这
--ccsFofn 允许直接传递 ccs 文件。 在许多情况下,CCS 和原始
碱基调用位于同一个文件中,因此您可以通过将相同的参数传递给
input.fofn 至 ccsFofn。
依赖
pbbarcode 包依赖于标准的 pbcore 安装(-
https://github.com/PacificBiosciences/pbcore)。 如果希望使用 共识 工具,
多巴达康 需要安装(https://github.com/PacificBiosciences/pbdagcon).
条码 高密度纤维板5 文件
条码hdf5文件, 公元前.h5, 代表一个简单的数据存储,用于条码调用及其
每个 ZMW 的分数。 通常,用户不需要与条码 hdf5 文件进行交互,但可以
使用存储在结果 cmp.h5 文件或 fast[a|q] 文件中的结果。 条码
hdf5 文件包含以下结构:
/BarcodeCalls/best - (nZMWs, 6)[32-bit integer] 数据集,包含以下列:
孔数、nAdapters、barcodeIdx1、barcodeScore1、barcodeIdx2、barcodeScore2
此外,该 世界上最好的 数据集具有以下属性:
┌────────────┬──────────────────────────────────── ────────────────────────────────┐
│电影名称│ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├────────────┼────────────────────────────────────── ────────────────────────────────┤
│columnNames │holeNumber,nAdapters,barcodeIdx1,barcodeScore1,barcodeIdx2, │
│ │ 条码Score2 │
└────────────┴──────────────────────────────────── ────────────────────────────────┘
│scoreMode │ [对称|成对] │
├────────────┼────────────────────────────────────── ────────────────────────────────┤
│条码 │ 'bc_1', 'bc_2', ...., 'bc_N' │
└────────────┴──────────────────────────────────── ────────────────────────────────┘
两个barcodeIdx1 和barcodeIdx2 列是索引 条形码 属性。 这
评分模式 是用于对齐条码的评分模式。 这 条形码 属性对应
条形码.fasta 序列名称。
此外,在某些情况下,保留整个历史记录是有用的。
评分,即每个条形码对所有 ZMW 的每个适配器进行评分。 为了保留这个
信息,必须调用:
条码 标签Zmws --保存扩展信息 ...
在这种模式下,生成的 HDF5 文件将在
BarcodeCalls 组,命名为: 所有. 该数据集具有以下格式:
/BarcodeCalls/all - (nbarcodes * nadapters[zmw_i], 4) forall i in 1 ... nZMWs
`孔数, 适配器Idx, 条形码Idx, 分数`
这款 适配器标识符 是沿着分子的适配器的索引,即,adapterIdx 1 是
第一个适配器得分。
扩建 至 此 比较 高密度纤维板5 (CMP.h5) 文件
除了条形码 hdf5 文件,调用 标签对齐 将注释一个 cmp.h5
文件。 此注释的存储方式与 cmp.h5 文件格式一致。
具体来说,一个新的组:
/条码信息/
ID (nBarcodeLabels + 1, 1)[32 位整数]
Name (nBarcodeLabels + 1, 1)[变长字符串]
除了 /BarcodeInfo/ 组之外,将对齐分配给的关键数据集
条形码位于:
/AlnInfo/Barcode (nAlignments, 3)[32 位整数] 具有以下列:
索引、计数、最佳索引、最佳分数、第二最佳索引、第二最佳分数
这里的index是指进入的索引 姓名 向量,分数对应于
条形码的分数,最后,count 指的是在
分子。
2015 年 12 月 条码(1)
使用 onworks.net 服务在线使用 pbbarcode