getData - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 getData

这是 getData 命令，可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

getData - 从 Internet 检索数据库

概要

获取数据 [ --mirrordir ]

获取数据 --list

商品描述

生物信息学具有将生物数据带给最终用户的固有问题。
天文学家和粒子物理学家有同样的问题，好吧，他们已经提出了
使用（第一）网络和（第二）计算网格来解决他们的问题。
Debian 为程序提供帮助，但不会提供如此庞大的数据集
经常更新 - 即使在 volatile.debian.org 中也没有。大多数生物信息学研究人员将
不需要太多这样的数据库。更重要的是将很乐意继续使用公共
远程服务。

对于那些定期需要一套数据库的人来说，这个脚本应该是一个开始
自动化下载数据和更新索引等的负担。世界有
以前使用 Lion Biosciences Prisma 工具见过这种魔法
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) 但是更简单的东西怎么样
（作为开始）至少接近我们想要的并且是免费的。目标必须是
满足所有（大多数）社区的需求，而不仅仅是生物信息学领域的需求。这
因此，种子是用天文学数据库制作的。

如果您认为该程序几乎准备就绪，请联系 Debian-Med 社区
满足您的需求并说明仍需添加的内容。您管理的公共数据库
与此系统集成也非常热烈欢迎作为反馈。

配置

- 帮帮我
这个帮助

- 男人
以手册页的形式提供更详细的描述。

--详细
比要求多说一两个字。

--镜像目录
指定目标目录。数据将被镜像到文件夹
$mirrordir/$dbname/. 请注意，这个 mirrordir 没有存储在任何地方。这
目录因此可以随时移动到任意位置，如果用户
的数据只被告知移动。

- 列表
列出可能要求安装的所有数据库。

只有那些明确要求下载的数据库才会被
下载。此类数据库可能需要相当大的带宽，因此请确保您
知道你在做正确的事情。

- 邮政
仅执行解包/索引，但不检索/更新数据库。这个
将新的数据库管理系统添加到
系统，例如安装 EMBOSS 后。

- 来源
仅执行解包/索引，但不检索/更新数据库。这个
当站点管理员知道当前的分析
不应受到索引过程的干扰，但从网上下载可以
已经开始。

--confd
允许指定可以存储多个文件的目录
将在调用时由 getData 读取。这些可能会为全球增加价值
变量 %toBeMirrored 指定数据库及其下载脚本。

--配置
准备特定系统所需的配置文件
处理数据库。配置被打印到 stdout 并且是预期的
手动复制到正确的文件或文件夹。可以想象这个过程
自动化，尽管这尚未实现。目前可用的是支持
两个系统：

emboss 这指定了用于生物信息学的 EMBOSS 工具套件 (www.emboss.org)
它也可以作为 Debian 软件包使用。 Uniprot 的配置
数据库将允许使用 seqret 工具进行序列检索。

dre - ARC 网格运行时环境
运行时环境 (RE) 是 ARC 网格中间件的概念，其中
更多信息可以在 http://www.nordugrid.org. 需要一个脚本
指示运行时环境的存在。在这里，脚本的名称
很重要，虽然它不能由 getData 定义，因为它只写入
标准输出。

不幸的是，尚未发现该配置是模块化的。这一切都需要
发生在 getData 脚本本身中。

- 消除
此命令删除存储数据的文件夹。原则上可以这样做
手动，尽管某些数据库可能在删除前或删除后有特殊要求，
可以为每个数据库单独指定。

规格 OF 资料库

用于下载及其后处理的数据库在两个不同的位置指定。
一个是getData 脚本本身，另一个是存储在/etc/getData.d 中的文件。任何一个
将定义相当大的散列的元素。关键是标识符，它也是
由“getData --list”指令显示。该值是对另一个散列的引用，该散列
将值分配给数据库用于下载和发布的所有属性
处理：

名称 - 一个人类可读的漂亮印刷名称或简短描述，使
世界这个数据库是关于什么的。
一个不好的例子是仅仅分配“DE405”，很少有人理解。一个更好的
示例是“Pfam-A：手动策划的蛋白质家族和域，只有种子是
呈现。”。有人可能会争辩说，应该将该字段重命名为“描述”。

source - 执行初始下载和后续更新的 shell 命令
通常使用 wget 工具进行下载。这样呈现的小脚本是
在 mirrordir 目录下执行。一个简单的例子是“wget --mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405"。随着增加
熟练使用wget，有人想用“--recursive”代替“--mirror”
--no-host-directories --no-directories --level 1 --no-parent”。

post-download - 下载数据后执行的 shell 命令。
一个简单的（当使用正确的标志来 wget 时是不必要的）示例仅仅是
符号链接的设置：

“下载后”=>“ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405。”

在 TrEMBL 中投入了更多努力，以便将版本与后续版本合并
EMBOSS 的更新和索引：

“d=未压缩；如果 [ ! -d \$d ]; 然后 mkdir \$d; fi; ”
."rm -rf \$d/trembl.dat;"
."(find ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

点在 Perl 中连接字符串。这有助于代码的可读性。什么时候
编写这些脚本，请注意换行符不会将个人分开
命令在这里。分号是必需的。

推荐 - 建议存在一系列包以供使用数据库或
索引的性能。
目前不使用此信息，也使此脚本更有用
Debian 以外的其他 Linux 发行版。

getWgetOptions - 获取 wget 选项的私有命令
这在下载时由 makefile 使用，不打算交互使用，
并且可以随时删除。

示例

下面将列出前 4 个数据库的标识符和描述
可以通过系统上的 getData 获得的区域。

./getData --mirrordir=/local/databases/mirrored --list | 头 4

要安装任何特定的数据库，只需将其名称作为参数。如果安装
在另一个目录而不是默认目录中执行，那么 --mirrordir 需要再次
设置。

./getData 瑞士.dat

要再次删除数据库，请使用 --remove 标志为脚本提供提示

./getData --remove 瑞士.dat

仅执行索引并绕过下载（注意，这是危险的
因为索引文件看起来比数据库更新），请执行

./getData --post swiss.dat

这些额外脚本的一个特殊例外是 --config 标志，因为它需要一个列表
额外的参数。每个应表示该数据库可能属于的特定系统
的兴趣。目前支持两种系统：

ALL

我们现在需要一种机制，通过该机制包可以指定应在调用时调用的钩子
一个数据库的更新。但是我们不能假设每个可以执行的索引
因为安装一些包也是用户所希望的。如何配置
这有待决定。

使用 onworks.net 服务在线使用 getData