这是 ipdSummary 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
ipdSummary - 从动力学特征检测 DNA 碱基修饰。
商品描述
kineticsTool 加载在基因组中每个位置观察到的 IPD,并比较这些 IPD
对未修饰 DNA 的预期值,并输出此统计检验的结果。
未修饰 DNA 的预期 IPD 值可以来自 硅片 控制 或
放大 控制. 计算机控制由 PacBio 培训并随附
包裹。 它使用当前周围的局部序列上下文来预测 IPD
位置。 扩增的对照数据集是通过对未修饰的 DNA 进行测序而产生的
与测试样本相同的顺序。 扩增的对照样品通常由
原始样本的全基因组扩增。
修改 检测
动力学工具的基本模式对每个位置的 IPD 进行独立比较
每个链的基因组,并向 CSV 和 GFF 发送各种统计数据(在应用
显着性过滤器)。
修改 鉴定
kinetics工具 还 具有 a 修改 鉴定 模式 这 能够 解码 多站点 IPD
“指纹” 成 a 减少 集 of 电话 of 具体的 修改。 本篇 特集 具有 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。
以下 好处:
· 可以区分发生在同一碱基上的不同修饰(对于
例如 m5C 和 m4C)
· 一次修改的信号合并为一个统计量,提高
灵敏度,去除额外的峰值,并正确地将呼叫居中
配置
请调用此程序 - 帮帮我 查看可用选项。
算法
合成的 系统
对 IPD 和序列上下文之间关系的研究表明,大多数
可以从 12 碱基序列上下文预测整个基因组平均 IPD 的变化
围绕 DNA 聚合酶的活性位点。 相关上下文的界限
窗口对应于与聚合酶接触的 DNA 窗口,如
DNA/聚合酶晶体结构。 简化寻找 DNA 修饰的过程
使用 PacBio 数据,该工具包括一个预训练的查找表,映射 12 聚体 DNA
序列表示在 C2 化学中观察到的 IPD。
过滤 和 装饰带
kineticsTools 使用 BLASR 生成并存储在 cmp.h5 文件中的 Mapping QV 来
忽略未确定映射的读取。 所需的默认最小映射 QV 是
10,暗示 BLASR 有 90\% 对读取正确映射的信心。 因为
PacBio 数据中固有的读取长度范围这可以在使用
--mapQvThreshold 命令行参数,或通过 SMRTPortal 配置对话框
修改检测。
PacBio 数据的一些特征需要特别注意才能实现
良好的修改检测性能。 kineticsTools 检查
观察到的碱基和参考序列——为了进行 IPD 测量
包含在分析中,PacBio 读取序列必须与参考序列匹配 k
围绕同源碱基。 在当前模块 k = 1 某些位置的 IPD 分布为
被认为是“正常”合并过程 IPD 之间的混合物,这是敏感的
到局部序列上下文和 DNA 修饰以及污染的“暂停”过程
IPD 持续时间更长(平均比正常情况长 10 倍以上),但很少发生
(约 1% 的 IPD)。 注意:我们目前的理解是停顿没有用
有关 DNA 甲基化状态的信息,但可能需要更仔细的分析
保证。 另请注意,大幅增加大约 1% 的修改
观察到的 IPD 是由暂停事件生成的。 在全球第 99 位限制观察到的 IPD
百分位数是由来自稳健假设检验的理论驱动的。 一些序列上下文
可能有自然更长的 IPD,为了避免在这些上下文中限制太多数据,上限
阈值根据上下文调整如下: capThreshold = max(global99,
5*modelPrediction,百分位(ipdObservations,75))
统计 测试
我们检验在样本中特定位点观察到的 IPD 具有
比在未修饰 DNA 中的相同位点观察到的 IPD 更长的平均值。 如果我们已经生成
删除 DNA 修饰的全基因组扩增数据集,我们使用病例对照,
双样本 t 检验。 该工具还提供了预先校准的“合成控制”模型
给定 12 个碱基序列上下文,它预测未修改的 IPD。 在合成
控制案例我们使用单样本 t 检验,并进行调整以解释
综合控制模型。
输入
对齐读取.cmp.h5
标准 cmp.h5 文件包含比对和 IPD 信息提供动力学数据
用于执行修改检测。 SMRTportal 作业的标准 cmp.h5 文件是
数据/aligned_read.cmp.h5。
型号参考 序列
该工具需要用于执行比对的参考序列。 目前这必须
通过指向 SMRTportal 参考存储库条目的路径提供。
输出
修改检测工具提供多种格式的结果,适用于
可视化工具深度统计分析、快速参考、消费
例如 PacBio SMRTView。 结果通常按参考位置和
参考链。 在所有情况下,链值是指携带
DNA 样本中的修饰。 请记住,修改的动力学效应是
在与相反链对齐的读取序列中观察到。 所以读取对齐到
正链携带有关负链修饰的信息,反之亦然
反之亦然,但在这个工具包中,我们总是报告包含假定的链
修改。
修改.csv
modify.csv 文件包含每一对(参考位置、链)的一行
出现在数据集中的覆盖范围至少为 x。 x 默认为 3,但是
可使用 '--minCoverage' 标志配置到 ipdSummary.py。 参考位置索引为
1-based 与 R 环境的 gff 文件兼容。
输出 列
硅片 控制 模式
┌──────────────────┬──────────────────────────────── ──┐
│栏目│说明│
├────────────────┼────────────────────────────────── ──┤
│refId │ 这个的参考序列ID │
│ │ 观察│
├────────────────┼────────────────────────────────── ──┤
│tpl │ 基于1的模板位置│
├────────────────┼────────────────────────────────── ──┤
│strand │ 原生样品strand where │
│ │ 动力学产生。 '0'是│
│ │ 原链│
│ │ FASTA,'1'是相反的链│
│ │ 来自FASTA │
├────────────────┼────────────────────────────────── ──┤
│base │ 这里的同源基 │
│ │ 在参考文献中的位置 │
├────────────────┼────────────────────────────────── ──┤
│score │ Phred 转换的 pvalue 即 a │
│ │ 动力学偏差在此存在 │
│ │ 位置 │
└────────────────┴──────────────────────────────── ──┘
│tMean │ 归一化 IPD 的上限平均值 │
│ │ 在这个位置观察 │
├────────────────┼────────────────────────────────── ──┤
│tErr │ │ 的上限标准误差
│ │ 在此观察到的标准化 IPD │
│ │ 位置(标准差/│
│ │ sqrt(覆盖范围) │
├────────────────┼────────────────────────────────── ──┤
│modelPrediction │ 归一化平均 IPD 预测的 │
│ │ 合成控制模型 │
│ │ 这个序列上下文 │
├────────────────┼────────────────────────────────── ──┤
│ipdRatio │ tMean / modelPrediction │
├────────────────┼────────────────────────────────── ──┤
│覆盖范围│在此有效IPD的数量│
│ │ 位置(见过滤部分│
│ │ 详情) │
├────────────────┼────────────────────────────────── ──┤
│frac │ 的分数的估计 │
│ │ 携带 │ 的分子
│ │ 修改 │
├────────────────┼────────────────────────────────── ──┤
│fracLow │ 2.5% 的 frac 置信区间 │
│ │ 估价│
├────────────────┼────────────────────────────────── ──┤
│fracUpp │ 压裂的 97.5% 置信区间 │
│ │ 估价│
└────────────────┴──────────────────────────────── ──┘
案例控制 模式
┌──────────────────┬──────────────────────────────── ──┐
│栏目│说明│
├────────────────┼────────────────────────────────── ──┤
│refId │ 这个的参考序列ID │
│ │ 观察│
├────────────────┼────────────────────────────────── ──┤
│tpl │ 基于1的模板位置│
├────────────────┼────────────────────────────────── ──┤
│strand │ 原生样品strand where │
│ │ 动力学产生。 '0'是│
│ │ 原链│
│ │ FASTA,'1'是相反的链│
│ │ 来自FASTA │
├────────────────┼────────────────────────────────── ──┤
│base │ 这里的同源基 │
│ │ 在参考文献中的位置 │
├────────────────┼────────────────────────────────── ──┤
│score │ Phred 转换的 pvalue 即 a │
│ │ 动力学偏差在此存在 │
│ │ 位置 │
├────────────────┼────────────────────────────────── ──┤
│caseMean │ 归一化案例 IPD 的均值 │
│ │ 在这个位置观察 │
├────────────────┼────────────────────────────────── ──┤
│controlMean │ 归一化对照 IPD 的均值 │
│ │ 在这个位置观察 │
├────────────────┼────────────────────────────────── ──┤
│caseStd │ case IPD 的标准偏差 │
│ │ 在这个位置观察 │
├────────────────┼────────────────────────────────── ──┤
│controlStd │ 控制的标准偏差 │
│ │ 在这个位置观察到的IPD │
└────────────────┴──────────────────────────────── ──┘
│ipdRatio │ tMean / modelPrediction │
├────────────────┼────────────────────────────────── ──┤
│testStatistic │ t 检验统计量 │
├────────────────┼────────────────────────────────── ──┤
│coverage │ case 和 control 的均值 │
│ │ 覆盖范围│
├────────────────┼────────────────────────────────── ──┤
│controlCoverage │ 有效控制 IPD 的数量 │
│ │ 这个位置(见过滤│
│ │ 部分详情) │
├────────────────┼────────────────────────────────── ──┤
│caseCoverage │ 此处有效案例 IPD 的数量 │
│ │ 位置(见过滤部分│
│ │ 详情) │
└────────────────┴──────────────────────────────── ──┘
修改.gff
modify.gff 符合 GFF 版本 3 规范(-
http://www.sequenceontology.org/gff3.shtml)。 每个模板位置/链对
p-value 超过 pvalue 阈值显示为一行。 模板位置是从 1 开始的,
根据 GFF 规范。 链列是指携带检测到的链
修饰,这是与用于检测修饰的链相反的链。 这
GFF 置信度列是 Phred 转换的检测 p 值。
备注 on 基因组 浏览器 兼容性
修改.gff 文件不能直接与大多数基因组浏览器一起使用。 你会
可能需要复制 GFF 文件并将 _seqid_ 列从
由 PacBio 生成的通用 'ref0000x' 名称,用于原始文件中的 FASTA 标头
参考 FASTA 文件。 映射表写在modifications.gff的头部
文件 #序列头 标签。 此问题将在 1.4 版本中解决
动力学工具。
GFF 文件的辅助数据列包含其他可能有用的统计信息
下游分析或过滤。 特别是用于读取的覆盖水平
发出呼叫,以及围绕该站点的 +/- 20bp 序列上下文。
┌────────────┬──────────────────────────────────┐
│栏目│说明│
├────────────┼──────────────────────────────────┤
│seqid │ Fasta contig 名称 │
├────────────┼──────────────────────────────────┤
│source │ 工具名称——'kinModCall' │
├────────────┼──────────────────────────────────┤
│类型 │ 修改类型 -- in │
│ │ 识别方式这将是 │
│ │ m6A、m4C 或 m5C 用于识别 │
│ │ 基类,或通用标签 │
│ │ 'modified_base' 如果是动力学 │
│ │ 事件被检测到没有 │
│ │ 匹配一个已知的修改 │
│ │ 签名│
├────────────┼──────────────────────────────────┤
│start │ contig 上的修改位置 │
├────────────┼──────────────────────────────────┤
│end │ contig 上的修改位置 │
├────────────┼──────────────────────────────────┤
│score │ Phred 变换的 p 值 │
│ │检测——这就是│
│ │ 单点检测 p 值 │
├────────────┼──────────────────────────────────┤
│链 │ 样品链包含 │
│ │ 修改 │
└────────────┴────────────────────────────────────┘
│相 │ 不适用 │
├────────────┼──────────────────────────────────┤
│attributes │ 与base相关的额外字段│
│ │ 模组。 IPDRatio是传统的│
│ │ IPDRatio,上下文是 │
│ │参考序列-20bp到│
│ │ +20bp左右修改, │
│ │ 和覆盖级别是数字 │
│ │ 之后使用的 IPD 观察结果
│ │ 映射QV过滤和│
│ │ 精度过滤。 若行│
│ │ 结果来自一个确定的 │
│ │ 修改我们还包括一个 │
│ │ 用 │ 标识Qv 标签
│ │ 来自修改 │
│ │鉴定程序。 │
│ │ 识别Qv 是 │
│ │ │ phred 变换的概率
│ │ 一个不正确的标识,对于 │
│ │ 被鉴定为 │ 的碱基
│ │ 有一个特别的 │
│ │ 修改。 压裂, 压裂, │
│ │ fracUp 是估计的 │
│ │ 携带分子的分数 │
│ │ 修改,和 5% │
│ │ 置信区间 │
│ │估计。 甲基化│
│ │ 分数估计是一个 │
│ │ beta 级功能,应该 │
│ │ 仅供探索使用 │
││用途。 │
└────────────┴────────────────────────────────────┘
图案.gff
如果运行 Motif Finder 工具,它会生成motifs.gff,这是一个重新处理的版本
修改.gff 具有以下更改。 如果检测到的修改发生在
由motif finder检测到的motif,修改是用motif数据注释的。 一个
添加包含主题字符串的属性“motif”,并添加属性“id”
包含motif id,它是未配对的motif的motif字符串或
'motifString1/motifString2' 用于配对图案。 如果基因组中存在一个motif实例,
但在modifications.gff 中没有检测到,在motifs.gff 中添加了一个条目,表明
该基序的存在以及在该位点观察到的动力学。
主题摘要.csv
如果运行 Motif Finder 工具,则会生成motif_summary.csv,总结修改后的
该工具发现的主题。 CSV 包含每个检测到的主题的一行,其中
以下列
┌──────────────────────┬────────────────────────────── ──────┐
│栏目│说明│
├────────────────────┼────────────────────────────── ──────┤
│motifString │ 检测到的motif 序列│
├────────────────────┼────────────────────────────── ──────┤
│centerPos │ 在 │ 主题中的位置
│ │ 修改(基于0)│
├────────────────────┼────────────────────────────── ──────┤
│fraction │ 实例的分数 │
│ │ 上面修改QV的主题│
│ │ QV 阈值 │
├────────────────────┼────────────────────────────── ──────┤
│nDetected │ 实例数 │
│ │ 高于阈值的主题 │
└──────────────────────┴───────────────────────────── ──────┘
│nGenome │ 实例数 │
│ │ 参考序列中的基序 │
├────────────────────┼────────────────────────────── ──────┤
│groupTag │ 标识主题的字符串 │
│ │分组。 对于配对图案这 │
│ │ 是 │
│ │ ” / ”, │
│ │ 对于未配对的图案,这等于 │
│ │ 主题字符串 │
├────────────────────┼────────────────────────────── ──────┤
│partnerMotifString │ 成对的motif的motifString │
│ │(动机与 │
│ │ 反补│
│ │motifString) │
├────────────────────┼────────────────────────────── ──────┤
│meanScore │ 检测到的平均修正 Qv │
│ │ 实例│
├────────────────────┼────────────────────────────── ──────┤
│meanIpdRatio │检测到的平均IPD比率│
│ │ 实例│
├────────────────────┼────────────────────────────── ──────┤
│meanCoverage │ 检测到的平均覆盖率 │
│ │ 实例│
├────────────────────┼────────────────────────────── ──────┤
│objectiveScore │ 该主题的客观分数 │
│ │ 主题查找算法 │
└──────────────────────┴───────────────────────────── ──────┘
使用 onworks.net 服务在线使用 ipdSummary