英语法语西班牙文

OnWorks 网站图标

getData - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 getData

这是 getData 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


getData - 从 Internet 检索数据库

概要


获取数据 [ --mirrordir ]

获取数据 --list

商品描述


生物信息学具有将生物数据带给最终用户的固有问题。
天文学家和粒子物理学家有同样的问题,好吧,他们已经提出了
使用(第一)网络和(第二)计算网格来解决他们的问题。
Debian 为程序提供帮助,但不会提供如此庞大的数据集
经常更新 - 即使在 volatile.debian.org 中也没有。 大多数生物信息学研究人员将
不需要太多这样的数据库。 更重要的是将很乐意继续使用公共
远程服务。

对于那些定期需要一套数据库的人来说,这个脚本应该是一个开始
自动化下载数据和更新索引等的负担。 世界有
以前使用 Lion Biosciences Prisma 工具见过这种魔法
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) 但是更简单的东西怎么样
(作为开始)至少接近我们想要的并且是免费的。 目标必须是
满足所有(大多数)社区的需求,而不仅仅是生物信息学领域的需求。 这
因此,种子是用天文学数据库制作的。

如果您认为该程序几乎准备就绪,请联系 Debian-Med 社区
满足您的需求并说明仍需添加的内容。 您管理的公共数据库
与此系统集成也非常热烈欢迎作为反馈。

配置


- 帮帮我
这个帮助

- 男人
以手册页的形式提供更详细的描述。

--详细
比要求多说一两个字。

--镜像目录
指定目标目录。 数据将被镜像到文件夹
$mirrordir/$dbname/. 请注意,这个 mirrordir 没有存储在任何地方。 这
目录因此可以随时移动到任意位置,如果用户
的数据只被告知移动。

- 列表
列出可能要求安装的所有数据库。


只有那些明确要求下载的数据库才会被
下载。 此类数据库可能需要相当大的带宽,因此请确保您
知道你在做正确的事情。

- 邮政
仅执行解包/索引,但不检索/更新数据库。 这个
将新的数据库管理系统添加到
系统,例如安装 EMBOSS 后。

- 来源
仅执行解包/索引,但不检索/更新数据库。 这个
当站点管理员知道当前的分析
不应受到索引过程的干扰,但从网上下载可以
已经开始。

--confd
允许指定可以存储多个文件的目录
将在调用时由 getData 读取。 这些可能会为全球增加价值
变量 %toBeMirrored 指定数据库及其下载脚本。

--配置
准备特定系统所需的配置文件
处理数据库。 配置被打印到 stdout 并且是预期的
手动复制到正确的文件或文件夹。 可以想象这个过程
自动化,尽管这尚未实现。 目前可用的是支持
两个系统:

emboss 这指定了用于生物信息学的 EMBOSS 工具套件 (www.emboss.org)
它也可以作为 Debian 软件包使用。 Uniprot 的配置
数据库将允许使用 seqret 工具进行序列检索。

dre - ARC 网格运行时环境
运行时环境 (RE) 是 ARC 网格中间件的概念,其中
更多信息可以在 http://www.nordugrid.org. 需要一个脚本
指示运行时环境的存在。 在这里,脚本的名称
很重要,虽然它不能由 getData 定义,因为它只写入
标准输出。

不幸的是,尚未发现该配置是模块化的。 这一切都需要
发生在 getData 脚本本身中。

- 消除
此命令删除存储数据的文件夹。 原则上可以这样做
手动,尽管某些数据库可能在删除前或删除后有特殊要求,
可以为每个数据库单独指定。

规格 OF 资料库


用于下载及其后处理的数据库在两个不同的位置指定。
一个是getData 脚本本身,另一个是存储在/etc/getData.d 中的文件。 任何一个
将定义相当大的散列的元素。 关键是标识符,它也是
由“getData --list”指令显示。 该值是对另一个散列的引用,该散列
将值分配给数据库用于下载和发布的所有属性
处理:

名称 - 一个人类可读的漂亮印刷名称或简短描述,使
世界这个数据库是关于什么的。
一个不好的例子是仅仅分配“DE405”,很少有人理解。 一个更好的
示例是“Pfam-A:手动策划的蛋白质家族和域,只有种子是
呈现。”。有人可能会争辩说,应该将该字段重命名为“描述”。

source - 执行初始下载和后续更新的 shell 命令
通常使用 wget 工具进行下载。 这样呈现的小脚本是
在 mirrordir 目录下执行。 一个简单的例子是“wget --mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405"。随着增加
熟练使用wget,有人想用“--recursive”代替“--mirror”
--no-host-directories --no-directories --level 1 --no-parent”。

post-download - 下载数据后执行的 shell 命令。
一个简单的(当使用正确的标志来 wget 时是不必要的)示例仅仅是
符号链接的设置:

“下载后”=>“ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405。”

在 TrEMBL 中投入了更多努力,以便将版本与后续版本合并
EMBOSS 的更新和索引:

“d=未压缩;如果 [ ! -d \$d ]; 然后 mkdir \$d; fi; ”
."rm -rf \$d/trembl.dat;"
."(find ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

点在 Perl 中连接字符串。 这有助于代码的可读性。 什么时候
编写这些脚本,请注意换行符不会将个人分开
命令在这里。 分号是必需的。

推荐 - 建议存在一系列包以供使用数据库或
索引的性能。
目前不使用此信息,也使此脚本更有用
Debian 以外的其他 Linux 发行版。

getWgetOptions - 获取 wget 选项的私有命令
这在下载时由 makefile 使用,不打算交互使用,
并且可以随时删除。

示例


下面将列出前 4 个数据库的标识符和描述
可以通过系统上的 getData 获得的区域。

./getData --mirrordir=/local/databases/mirrored --list | 头 4

要安装任何特定的数据库,只需将其名称作为参数。 如果安装
在另一个目录而不是默认目录中执行,那么 --mirrordir 需要再次
设置。

./getData 瑞士.dat

要再次删除数据库,请使用 --remove 标志为脚本提供提示

./getData --remove 瑞士.dat

仅执行索引并绕过下载(注意,这是危险的
因为索引文件看起来比数据库更新),请执行

./getData --post swiss.dat

这些额外脚本的一个特殊例外是 --config 标志,因为它需要一个列表
额外的参数。 每个应表示该数据库可能属于的特定系统
的兴趣。 目前支持两种系统:

ALL


我们现在需要一种机制,通过该机制包可以指定应在调用时调用的钩子
一个数据库的更新。 但是我们不能假设每个可以执行的索引
因为安装一些包也是用户所希望的。 如何配置
这有待决定。

使用 onworks.net 服务在线使用 getData


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad