这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 spidey,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
蜘蛛侠 - 将 mRNA 序列与基因组对齐
概要
间谍的 [-[-F N[-G[-L N[-M 文件名[-N 文件名[-R 文件名[-S 下午[-T N]
[-X[-a 文件名[-c N[-d[-e X[-f X[-g X] -i 文件名 [-j[-k 文件名[-l N]
-m 文件名 [-n N[-o STR[-p N[-r c/d/m/p/v[-s[-t 文件名[-u[-w]
商品描述
间谍的 是一种用于将一个或多个 mRNA 序列与给定的基因组序列进行比对的工具。
间谍的 编写时考虑了两个主要目标:无论内含子如何,都找到好的对齐方式
尺寸; 并避免被附近的假基因和旁系同源物混淆。 迈向第一
目标, 间谍的 使用 BLAST 和 Dot View(另一种局部对齐工具)来找到它的
对齐; 因为这些都是局部对齐工具, 间谍的 本质上不是
有利于较短或较长的内含子,并且没有最大内含子大小。 为避免误
包括来自旁系同源和假基因的外显子, 间谍的 首先定义基因组上的窗口
序列,然后在每个窗口内分别执行 mRNA 到基因组的比对。
由于窗口的构造方式,相邻的旁系同源物或假基因应该
位于单独的窗口中,不应包含在最终拼接对齐中。
初始 比对 和 施工 of 基因组 窗户
间谍的 将单个基因组序列和一组 mRNA 加入或 FASTA 作为输入
序列。 所有的处理都是一次处理一个 mRNA 序列。 每个人的第一步
mRNA 序列是针对基因组序列的高严格 BLAST。 结果命中
分析以找到基因组窗口。
BLAST 比对按分数排序,然后通过递归分配到窗口中
函数获取第一个对齐,然后沿着对齐列表向下查找所有
与第一条一致的比对(相同的 mRNA 链,mRNA 和
基因组坐标不重叠且线性一致)。 在随后的传球中,
检查剩余的对齐并放入它们自己的非重叠中,
一致的窗口,直到没有对齐。 取决于有多少基因模型
想要的,顶 n 选择窗口继续下一步,其他窗口
删除。
对齐 in 每 窗口
一旦构建了基因组窗口,初始 BLAST 比对就会被释放并
执行另一个 BLAST 搜索,这次是针对基因组的整个 mRNA
由窗口定义的区域,并且严格性低于初始搜索。 间谍的
然后使用贪心算法生成高分、不重叠的子集
来自第二次 BLAST 搜索的比对。 仔细分析这个一致的集合
确保整个 mRNA 序列都被比对覆盖。 当发现缺口时
在比对之间,针对基因组序列搜索适当的区域
缺少 mRNA,首先使用非常低严格的 BLAST,如果 BLAST 未能找到
命中,使用 DotView 函数定位对齐。 当在末端发现间隙时
比对,BLAST 和 DotView 搜索实际上允许扩展到
窗口的边界。 如果 mRNA 的 3' 端没有完全对齐,则为
首先检查是否存在聚 (A) 尾。 不尝试对齐
似乎是 poly(A) 尾的 mRNA 部分; 有时有一个 poly(A) 尾巴
确实与基因组序列对齐,并且注意到这些是因为它们表明
假基因的可能性。
既然 mRNA 完全被一组比对覆盖,
比对(现在每个外显子应该有一个比对)被调整,以便
对齐精确地相互邻接,以便它们与良好的剪接供体相邻
和受体位点。 最常见的是,两个相邻外显子的对齐重叠多达
mRNA 序列上的 20 或 30 个碱基对。 真正的外显子边界可能位于
这种重叠,或者(正如我们根据经验看到的)重叠之外的几个碱基对。
为了定位外显子边界,每边的重叠加上几个碱基对是
使用具有不同剪接矩阵的函数检查剪接供体位点
取决于选择的生物体。 前几个剪接供体位点(按分数)是
评估它们对原始对齐边界的影响程度。 那个网站
影响最小选择的边界,并评估是否存在
受体位点。 对齐会根据需要被截断或扩展,以便它们
终止于剪接供体位点,因此它们不会重叠。
Final 导致
仔细检查窗口以获得每个外显子的同一性百分比、
每个外显子的差距,整体百分比同一性,mRNA 的覆盖百分比,存在
对齐或非对齐 poly(A) 尾部、剪接供体位点的数量以及是否存在或
每个外显子没有剪接供体和受体位点,以及 mRNA 的出现
具有与基因组序列不对齐的 5' 或 3' 末端(或两者)。 如果
整体百分比同一性和百分比长度覆盖率高于用户定义的临界值,a
打印摘要报告,如果需要,还会打印显示身份和
mismatches 也会被打印出来。
种间 比对
间谍的 能够进行种间比对。 主要区别在于
种间比对是 mRNA 基因组同一性不会接近 100%,因为它
处于种内比对中; 此外,对齐方式有许多冗长的间隙。 如果
间谍的 在正常模式下用于进行种间比对,它生成基因模型
有很多很多短外显子。 当设置了种间标志时, 间谍的 用途不同
BLAST 参数鼓励更长和更多的差距,而不是像
不匹配。 这样,外显子的比对更长更紧密
近似实际的基因结构。
提取中 二氧化氯溶液 CDS 比对
什么时候 间谍的 在网络感知模式下运行或当 ASN.1 文件用于 mRNA 时
记录,它能够从 mRNA 比对和打印中提取 CDS 比对
CDS信息也。 由于 CDS 比对只是 mRNA 比对的一个子集,
根据需要截断外显子比对相对简单,并
生成 CDS 对齐。 此外,现在定义了未翻译的区域,因此
还计算了 5' 和 3' 非翻译区域的同一性百分比。
配置
下面是选项的摘要。
- 打印使用消息。
-F N 所需的基因组间隔的开始(从;基于 0)。
-G 输入文件是一个 GI 列表。
-L N 要使用的超大内含子大小(默认值 = 220000)。
-M 文件名
带有供体拼接矩阵的文件。
-N 文件名
带有受体拼接矩阵的文件。
-R 文件名
文件(包括路径)重复爆炸数据库进行过滤。
-S 下午 限制为基因组序列的正 (p) 或负 (m) 链。
-T N 停止所需的基因组间隔(至;基于 0)。
-X 使用超大内含子大小(增加初始和终止内含子的限制
从 100kb 到 240kb,其他所有文件从 35kb 到 120kb); 可能会导致
显着延长计算时间。
-a 文件名
当定向到一个单独的文件时,用于对齐的输出文件 -p 3 (默认 =
蜘蛛侠.aln)。
-c N 出于质量控制目的,以百分比表示的身份截止值。
-d 还尝试对齐对应于给定 mRNA 记录的编码序列(可能
需要网络访问)。
-e X 首次通过 e 值(默认值 = 1.0e-10)。 更高的值以代价提高速度
的敏感性。
-f X 第二遍 e 值(默认值 = 0.001)。
-g X 第三遍 e 值(默认值 = 10)。
-i 文件名
包含 ASN.1 或 FASTA 格式的基因组序列的输入文件。 如果你的
计算机运行在可以访问 GenBank 的网络上,您可以替换
文件名所需的登录号。
-j 打印 ASN.1 对齐?
-k 文件名
ASN.1 输出文件 -k (默认 = 蜘蛛侠.asn)。
-l N 长度覆盖截止,以百分比表示。
-m 文件名
包含 ASN.1 或 FASTA 格式的 mRNA 序列的输入文件,或
他们的加入(与 -G)。 如果您的计算机在网络上运行
访问 GenBank,您可以用一个登录号替换文件名。
-n N 每个输入 mRNA 返回的基因模型数量(默认值 = 1)。
-o STR 主输出文件(默认 = stdout;内容由 -p).
-p N 打印对齐?
0 汇总和对齐(默认)
1 只是总结
2 只是对齐方式
3 不同文件中的汇总和对齐
-r c/d/m/p/v
基因组序列的有机体,用于确定剪接矩阵。
c 秀丽隐杆线虫
d 果蝇
m 盘基网柄菌(Dictyostelium discoideum)
p 植物
v 脊椎动物(默认)
-s 调整种间比对。
-t 文件名
带有特征表的文件,以 4 个制表符分隔的列:
序列号 (例如, NM_04377.1)
姓名 (只要 重复区域 目前支持)
开始 (从 0 开始)
停止 (从 0 开始)
-u 对所有输入 mRNA 进行多重比对(必须在基因组上重叠)
序列)。
-w 考虑要屏蔽输入 FASTA 序列中的小写字符。
使用 onworks.net 服务在线使用蜘蛛网