这是命令 pavuk 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
pavuk - HTTP、HTTP over SSL、FTP、FTP over SSL 和 Gopher 递归文档检索
程序
概要
帕武克 [-模式 {普通的 | 简历 | 单页 | 单重获取 | 同步 | 不要商店 | ftp目录
| 镜子}] [-X] [-runX] [-bg/-nobg] [首选项/-noprefs] [-H] [-v] [-进度/-无进度]
[-stime/-nostime] [-xmaxlog $nr] [-日志文件 $文件] [-日志文件 $文件] [-auth_file $文件]
[-msgcat $目录] [-语 $海峡] [-gui_font $字体] [-安静/-详细 [-read_css/-noread_css]
[-cdir $目录] [-scndir $目录] [-设想 $海峡] [-dumpscn $文件名] [-lmax $nr] [-dmax $nr]
[-离开级别 $nr] [-最大尺寸 $nr] [-最小尺寸 $nr] [-网站 $列表] [-站点 $列表] [-域
$列表] [-d域 $列表] [-asfx $列表] [-dsfx $列表] [-前缀 $列表] [-d前缀 $列表]
[-目标 $列表] [-dmimet $列表] [-图案 $模式] [-url_pattern $模式] [-模式
$正则表达式] [-url_rpattern $正则表达式] [-skip_pattern $模式] [-skip_url_pattern $模式]
[-skip_rpattern $正则表达式] [-skip_url_rpattern $正则表达式] [-更新比 $时间] [-更老
$时间] [-日程 $时间] [-改期 $nr] [-dont_leave_site/-leave_site]
[-dont_leave_dir/-leave_dir] [-http_代理 $站点[:$端口]] [-ftp_代理 $站点[:$端口]]
[-ssl_代理 $站点[:$端口]] [-gopher_proxy $站点[:$端口]] [-ftp_httpgw/-noftp_httpgw]
[-ftp_dirtyproxy/-noftp_dirtyproxy] [-gopher_httpgw/-nogopher_httpgw] [-noFTP/-FTP]
[-noHTTP/-HTTP] [-无 SSL/-SSL] [-noGopher/-Gopher] [-FTPdir/-noFTPdir] [-noCGI/-CGI]
[-FTPlist/-noFTPlist] [-FTPhtml/-noFTPhtml] [-noRelocate/-重新定位]
[-force_reget/-noforce_reget] [-无缓存/-缓存] [-check_size/-nocheck_size]
[-noRobots/-机器人] [-noEnc/-Enc] [-auth_name $用户] [-auth_passwd $通过] [-auth_scheme
1/2/3/4/用户/基本/摘要/NTLM] [-auth_reuse_nonce/-no_auth_reuse_nonce] [-http_proxy_user
$用户] [-http_proxy_pass $通过] [-http_proxy_auth 1/2/3/4/用户/基本/摘要/NTLM]
[-auth_reuse_proxy_nonce/-no_auth_reuse_proxy_nonce] [-ssl_密钥_文件 $文件] [-ssl_cert_文件
$文件] [-ssl_cert_passwd $通过] [-从 $电子邮件] [-send_from/-nosend_from] [-身份 $海峡]
[-auto_referer/-noauto_referer] [-引荐来源/-无引荐来源] [-阿朗 $列表] [-字符集 $列表]
[-重试 $nr] [-nregets $nr] [-nredirs $nr] [-回滚 $nr] [-睡觉 $nr] [-暂停 $nr]
[-preserve_time/-nopreserve_time] [-preserve_perm/-nopreserve_perm]
[-preserve_slinks/-nopreserve_slinks] [-缓冲区大小 $nr] [-最大速率 $nr] [-分钟 $nr]
[-用户条件 $海峡] [-cookie_文件 $文件] [-cookie_send/-nocookie_send]
[-cookie_recv/-nocookie_recv] [-cookie_update/-nocookie_update] [-cookies_max $nr]
[-disabled_cookie_domains $列表] [-disable_html_tag $TAG,[$ATTRIB][;...]]
[-enable_html_tag $TAG,[$ATTRIB][;...]] [-tr_del_chr $海峡] [-tr_str_str $str1 $str2]
[-tr_chr_chr $chrset1 $chrset2] [-索引名称 $海峡] [-store_index/-nostore_index]
[-商店名称 $海峡] [-调试/-nodebug] [-调试级别 $级别] [-浏览器 $海峡] [-url_文件
$文件] [-文件配额 $nr] [-trans_quota $nr] [-fs_配额 $nr] [-enable_js/-disable_js]
[-规则 $t $m $r] [-store_info/-nostore_info] [-all_to_local/-noall_to_local]
[-sel_to_local/-nosel_to_local] [-all_to_remote/-noall_to_remote] [-url_策略
$策略] [-remove_adv/-noremove_adv] [-adv_re $RE] [-check_bg/-nocheck_bg]
[-send_if_range/-nosend_if_range] [-sched_cmd $海峡] [-unique_log/-nounique_log] [-post_cmd
$海峡] [-ssl_版本 $v] [-unique_sslid/-nounique_sslid] [-aip_pattern $重新] [-dip_pattern
$重新] [-use_http11/-nouse_http11] [-本地IP $地址] [-要求 $请求] [-表单数据 $请求]
[-httpad $海峡] [-n线程 $nr] [-immesg/-noimmesg] [-dumpfd $nr] [-dump_urlfd $nr]
[-unique_name/-nounique_name] [-leave_site_enter_dir/-dont_leave_site_enter_dir]
[-最大时间 $nr] [-del_after/-nodel_after] [-单页/-nosinglepage]
[-dump_after/-nodump_after] [-dump_response/-nodump_response] [-auth_ntlm_domain $海峡]
[-auth_proxy_ntlm_domain $海峡] [-js_pattern $重新] [-follow_cmd $海峡]
[-retrieve_symlink/-noretrieve_symlink] [-js_transform $p $t $h $一个] [-js_transform2 $p $t
$h $一个] [-ftp_代理_用户 $海峡] [-ftp_proxy_pass $海峡] [-limit_inlines/-dont_limit_inlines]
[-ftp_列表选项 $海峡] [-fix_wuftpd_list/-nofix_wuftpd_list]
[-post_update/-nopost_update] [-信息目录 $目录] [-mozcache_dir $目录] [-端口 $列表] [-端口
$列表] [-hack_add_index/-nohack_add_index] [-默认前缀 $海峡] [-rsleep/-norsleep]
[-ftp_login_handshake $主机 $握手] [-js_脚本_文件 $文件] [-dont_touch_url_pattern
$拍] [-dont_touch_url_rpattern $拍] [-dont_touch_tag_rpattern $拍] [-标签模式 $标签
$属性 $网址] [-tag_rpattern $标签 $属性 $网址] [-nss_cert_dir $目录]
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
[-nss_domestic_policy/-nss_export_policy] [-[无]验证] [-tlog文件 $文件] [-相对
{目的 | 程序}] [-透明代理 FQDN[:端口]] [-transparent_ssl_proxy FQDN[:端口]]
[-sdemo] [-无编码] [网址]
帕武克 -模式 {普通的 | 单页 | 单注册} [-基本级别 $nr]
帕武克 -模式 同步 [-ddays $nr] [-子目录 $目录] [-remove_old/-noremove_old]
帕武克 -模式 简历 [-子目录 $目录]
帕武克 -模式 链接更新 [-X] [-H] [-v] [-cdir $目录] [-子目录 $目录] [-scndir $目录]
[-设想 $海峡]
帕武克 -模式 提醒 [-remind_cmd $海峡]
帕武克 -模式 镜面 [-子目录 $目录] [-remove_old/-noremove_old]
[-remove_before_store/-noremove_before_store] [-always_mdtm/-noalways_mdtm]
商品描述
本手册页描述了如何使用 pavuk。 Pavuk 可用于镜像
Internet/Intranet 服务器并在本地文档树中维护副本。 帕武克
将检索到的文档存储在本地映射的磁盘空间中。 局部树的结构
与远程服务器上的相同。 每个支持的服务(协议)都有自己的
本地树中的子目录。 每个引用的服务器在这些目录中都有自己的子目录
协议子目录; 后跟服务所在的端口号,
可以更改字符分隔。 随着选项 -规则 你可以改变
本地文档树的默认布局,不会失去链接的一致性。
在 帕武克 可以在本地磁盘中拥有远程文档的最新副本
空间。
从 0.3pl2 版本开始,pavuk 可以自动重启断开的连接,并重新获取
来自 FTP 服务器的部分内容(必须支持 REST的 命令),从一个正确的
配置的 HTTP/1.1 服务器,或来自支持的 HTTP/1.0 服务器 范围。
从 0.6 版开始,可以通过所谓的场景处理配置。 这
创建此类配置文件的最佳方法是使用 X Window 界面
保存创建的配置。 另一种方法是使用 -dumpscn 开关。
从 0.7pl1 版本开始,可以将身份验证信息存储到 authinfo 中
文件,然后 pavuk 可以解析和使用该文件。
从 0.8pl4 版本开始,pavuk 可以获取用于本地代理/缓存服务器的文档
而不将它们存储到本地文档树中。
从 0.9pl4 版本开始,pavuk 支持 袜子 (4 / 5) 如果您有所需的代理
库。
从 0.9pl12 版本开始,pavuk 可以保留远程文件和符号链接的权限,
所以它可以用于强大的FTP镜像。
Pavuk 支持到 FTP 服务器的 SSL 连接,如果您指定 ftps:// URL 而不是
FTP://.
Pavuk 可以自动处理文件系统中带有不安全字符的文件名。 这是
但仅在 Win32 平台上实现,并且是硬编码的。
Pavuk 现在可以使用 HTTP / 1.1 用于与 HTTP 服务器通信的协议。 它可以使用
持久连接,因此应该使用一个 TCP 连接来传输多个文档
无需关闭它。 此功能可节省网络带宽并加快网络速度
通信。
Pavuk 可以做可配置的 解决方案&帖子 请求 HTTP 服务器并支持文件上传
通过 HTTP POST 请求。
如果用户为其字段提供数据,Pavuk 可以自动填充找到的 HTML 表单
之前有选项 -表单数据.
Pavuk 可以在以下情况下运行可配置数量的并发下载线程
编译时支持多线程。
格式 of 支持的 网址
HTTP
http://[[user][:password]@]host[:port][/document]
[[用户][:密码]@]主机[:端口][/文档]
HTTPS
https://[[user][:password]@]host[:port][/document]
ssl[.域][:端口][/文档]
则fTP
ftp://[[用户][:密码]@]主机[:端口][/relative_path][;type=x]
ftp://[[用户][:密码]@]主机[:端口][//绝对路径][;类型=x]
ftp[.域][:端口][/文档][;类型=x]
FTPS
ftps://[[用户][:密码]@]主机[:端口][/relative_path][;type=x]
ftps://[[用户][:密码]@]主机[:端口][//绝对路径][;类型=x]
ftps[.域][:端口][/文档][;类型=x]
戈弗
gopher://主机[:端口][/类型[文档]]
gopher[.域][:端口][/类型[文档]]
默认 制图 of 网址 至 本地 档名
HTTP
http://[[user][:password]@]host[:port][/document][?query]
至
http/host_port/[文档][?query]
HTTPS
https://[[user][:password]@]host[:port][/document][?query]
至
https/host_port/[文档][?query]
则fTP
ftp://[[用户][:密码]@]主机[:端口][/路径]
至
ftp/host_port/[路径]
FTPS
ftps://[[用户][:密码]@]主机[:端口][/路径]
至
ftps/host_port/[路径]
戈弗
gopher://主机[:端口][/类型[文档]]
至
gopher/host_port/[类型[文档]]
注意: Pavuk 将使用它查询目标服务器的字符串作为目标服务器的名称
结果文件。 在某些情况下,此文件名可能包含标点符号,例如 $,?,=,& 等等
当您尝试浏览下载的文件时,此类标点符号可能会导致问题
您的浏览器或您正在尝试使用 shell 脚本或视图处理下载的文件
带有文件管理实用程序的文件,这些实用程序引用了结果文件的名称。 如果你
相信这可能会给你带来问题,那么你可以删除所有标点符号
带有选项的结果文件名: -tr_del_chr [:点:] 或其他选项
调整文件名。
配置
所有选项都不区分大小写。
列表 of 选项 章节
时尚
政策和帮助
指示/记录/接口 选项
网利 选项
Special 开始
场景/任务 选项
目录 选项
保存 选项
代理 选项
代理 认证
协议/下载 附加选项
认证
站点/域/端口 局限性 附加选项
局限性 文件
局限性 文件 姓名
局限性 协议 附加选项
其他 局限性 附加选项
使用Javascript 支持
利用Cookies的
HTML 重写 发动机 调音 选项
文件名/网址 转化 附加选项
其他 附加选项
时尚
-模式 {普通的, 链接更新, 同步, 单页, 单重, 简历注册}
设置操作模式。
正常 - 检索递归文档
链接更新 - 将本地 HTML 文档中的远程 URL 更新为本地 URL,如果这些 URL
存在于本地树中
同步 - 将远程文档与本地树同步(如果文档的本地副本
比远程更旧,再次检索文档,否则什么也不会发生)
单页 - URL 被检索为包含所有内联对象(图片、声音)的一页
...)此模式现在已被废弃 -单页 选项。
简历 - pavuk 扫描本地树中未完全检索到的文件
并再次检索它们(如果可能,使用部分获取)
单重获取 - 获取 URL,直到它被完整检索
不要商店 - 从服务器传输页面,但不要将其存储到本地树。 这个
模式适用于获取保存在本地代理/缓存服务器中的页面。
提醒 - 用于通知用户有关更改的文档
ftp目录 - 用于列出 FTP 目录的内容
默认操作模式是 正常 模式。
政策和帮助
-h 打印冗长的帮助信息
-v 在编译时显示版本信息和配置。
指示/记录/接口 选项
-安静的 不要在屏幕上显示任何消息。
-冗长
强制在屏幕上显示输出消息(默认)
-进步/-没有进步
在终端中运行时显示检索进度(默认为关闭进度)
-stime/-nostime
显示传输的开始和结束时间。 (默认不显示此信息)
-xmax日志 $nr
日志小部件中的最大日志行数。 0 表示无限制。 这个选项是
仅当使用 GTK+ GUI 编译时可用。 (默认值为 0)
-日志文件 $文件
存储所有生成的消息的文件。
-unique_log/-nounique_log
当使用选项指定日志文件时 -日志文件 已被另一个人使用
过程中,尝试为日志文件生成新的唯一名称。 (默认是这个选项
关闭)
-日志文件 $文件
用于存储短日志的文件。该文件每个包含一行信息
处理的文件。 这旨在与任何类型的脚本结合使用
生成一些统计数据,用于验证您网站上的链接,或生成
简单的站点地图。 多个 pavuk 进程可以同时使用这个文件,而不需要
覆盖彼此的条目。 记录结构:
- 电位诱导衰减 pavuk 工艺
- 时间 当前时间
- COUNTER 以当前/网址总数的格式
- 状态 包含错误类型:FATAL、ERR、
警告或确定
- 错误代码 是错误的编号
(参见 pavuk 源代码中的 errcode.h)
- 网址 文件的
- 家长网址 此 URL 的第一个父文档
(当它没有父母时 - [无])
- 文件名 是本地文件的名称
文档保存在
- 尺寸 所需文件的大小(如果已知)
- 下载时间 下载这个需要时间
格式为 seconds.mili_seconds 的文档
- HTTP响应 包含 HTTP 服务器的第一行
响应
-语言 $海峡
pavuk 应该用于与其用户交流的母语(仅适用于
当有该语言的消息目录时) GNU gettext的 支持(对于消息
国际化)也必须编译。默认语言取自您的
NLS 环境变量。
-gui_font $字体
GUI 界面中使用的字体。 要列出可用的 X 字体,请使用 字体 命令。
此选项仅在使用 GTK+ GUI 支持编译时可用。
网利 选项
-[没有]read_css
启用或禁用获取样式表中提到的对象。
-[没有]验证
在 SSL 模式下启用或禁用验证服务器 CERTS。
-tlog文件 $文件
打开 Netli 日志记录并输出到指定文件。
-相对的 {目的 | 程序}
相对于第一个对象或程序的开始进行 Netli 计时。
-透明代理 FQDN[:端口]
处理 URL 时,发送原件,但发送到 FQDN 处的 IP 地址
-transparent_ssl_proxy FQDN[:端口]
处理HTTPS URL时,发送原件,但发送到FQDN处的IP地址
-sdemo 以 sdemo 兼容格式输出。 这仅由 sdemo 使用。 (现在它只是
表示当测量值无效时输出“-1”而不是“*”。)
-无编码
不要转义 URL 中“不安全”的字符。
Special 开始
-X 使用 X Window 界面启动程序(如果编译时支持 GTK+)。 帕武克
默认启动时没有 GUI,并作为常规命令行工具运行。
-runX 当与 -X 选项,pavuk 立即开始处理 URL
GUI 窗口启动后。 没有 -X 给定,此选项没有
任何效果。 仅在使用 GTK+ 支持编译时可用。
-bg/-nobg
此选项允许 pavuk 与其终端分离并在后台模式下运行。
Pavuk 不会向终端输出任何消息。 如果你想看
消息,您必须使用 -日志文件 用于指定消息的文件的选项
将被写入。 默认 pavuk 在前台执行。
-check_bg/-nocheck_bg
正常情况下,在前台运行后发送到后台的程序继续
将消息输出到终端。 如果此选项被激活,pavuk 检查是否
它作为后台作业运行,不会向终端写入任何消息
这个案例。 再次成为前台工作后,它会开始写消息
以正常方式到终端。 此选项仅在您的系统
支持通过检索终端信息 时间*() 功能。
-首选项/-无首选项
当您打开此选项时,pavuk 将在退出时保留所有设置,并且
当您再次使用 GUI 界面运行 pavuk 时,将恢复所有设置。 这
设置将存储在 〜./pavuk_prefs 文件。 默认 pavuk 想要恢复它的
启动时的选项。 此选项仅在使用 GTK+ 编译时可用。
-日程 $时间
在参数指定的时间执行 pavuk。 $time 参数的格式
是 YYYY.MM.DD.hh.mm。 你需要一个正确配置的调度 at 命令
在您的系统上使用此选项。 如果默认配置(在 -f %f %t
%d.%m.%Y) 的调度命令在您的系统上不起作用,请尝试调整它
-sched_cmd 选项。
-改期 $nr
以 $nr 小时为周期定期执行 pavuk。 您需要正确配置
与 at 在您的系统上使用此选项的命令。
-sched_cmd $海峡
用于调度的命令。 Pavuk 明确支持调度 at $海峡
应该包含常规字符和宏,通过转义 % 特点。 支持的
宏是:
%f
- 用于脚本文件名
%t
- 时间(格式为 HH:MM)
- 支持的所有宏 时间() 功能
-url_文件 $文件
如果你使用这个选项,pavuk 会在启动前从 $file 读取 URLs
加工。 在这个文件中,每个 URL 都需要在一个单独的行上。 最后一次之后
URL,一个点 . 后跟一个 LF(换行符)字符表示结束。 帕武克
将在读取所有 URL 后立即开始处理。 如果 $文件 给出为
此 - 字符,将读取标准输入。
-store_info/-nostore_info
此选项使 pavuk 将有关每个文档的信息存储到单独的
文件中 .pavuk_info 目录。 此文件用于存储来自
下载的文件。 对于通过 HTTP 或 HTTPS 下载的文件
协议,整个 HTTP 响应头都存储在那里。 我建议使用这个
选项,当您使用更改本地默认布局的选项时
文档树,因为这个信息文件帮助 pavuk 将本地文件名映射到
网址。 当不同的 URL 具有相同的文件名时,此选项也非常有用
当地的树。 发生这种情况时,pavuk 会使用信息文件检测到这一点,它会
在本地名称前加上数字。 默认情况下禁用存储这个额外的
信息。
-信息目录 $目录
您可以使用此选项设置用于存储信息文件的单独目录的位置
创建时 -商店信息 选项被使用。 当您不想混合时,这很有用
在目标目录中,包含常规文档文件的信息文件。 结构
信息文件的一部分被保留,只是存储在不同的目录中。
-要求 $请求
使用此选项,您可以为起始 URL 指定扩展信息。 和
此选项可以指定查询数据 解决方案&帖子 or 的GET . 这个的当前语法
选项是: 网址:["]$url["] [方法:["]{GET|POST}["]] [编码:["]{u|m}["]]
[字段:["]变量=值["]] [文件:["]变量=文件名["]
[LNAME:["]local_filename["]]
- 网址: 指定请求 URL
- 方法: 指定 URL 的请求方法,是
之一 的GET or 解决方案&帖子.
- 编码: 指定请求正文数据的编码。
m 是 多部分/表单数据 编码
u 是 应用程序/ x-www-form-urlencoded
编码
- 场地: 以格式指定请求数据的字段
变量=值. 用于特殊字符的编码
in 变量 和 折扣值 你可以使用相同的编码
如用于 应用程序/ x-www-form-urlencoded
编码。
- 文件: 指定查询的特殊字段,即
用于指定文件 解决方案&帖子 基于文件上传。
- 姓名: 指定此请求的本地名称
当您需要在内部使用时 场地: 和 文件: 请求规范的特殊领域
字符,你应该使用 应用程序/ x-www-form-urlencoded 字符的编码。
它表示所有非 ASCII 字符、引号字符 (")、空格字符 ( )、与号
字符 (&)、百分号 (%) 和等号 (=) 应以形式编码 %xx
哪里 xx 是字符的 ASCII 值的十六进制表示。 所以例如 %
字符应该像这样编码 25%.
-表单数据 $请求
此选项使您有机会为在此期间找到的 HTML 表单指定内容
遍历文档树。
此选项的当前语法与 for -要求 选项,但是 编码: 和
方法: 在这个选项语义中是没有意义的。
In 网址: 您必须指定 HTML 表单操作 URL,它将与
在已处理的 HTML 文档中找到的操作 URL。 如果 pavuk 找到操作 URL
提供的匹配 -表单数据 选项,pavuk 将构建 的GET or 解决方案&帖子 请求
来自此选项中提供的数据和中提供的默认表单字段值
HTML 文档。 在命令行上提供的值优先于提供的值
在 HTML 文件中。
-n线程 $nr
通过此选项,您可以指定将下载的并发线程数
文件。 默认 pavuk 执行 3 个并发下载线程。 这个选项是
仅当 pavuk 被编译为支持多线程时才可用。
-immesg/-noimmesg
运行多个下载线程时的默认 pavuks 行为是缓冲所有
在内存缓冲区中输出消息并在线程执行时刷新缓冲的数据
完成一个文档的处理。 使用此选项,您可以更改此行为
以在消息生成时立即查看消息。 仅当您使用它时才可用
想在多线程环境中调试一些特殊的。 这个选项是
仅当 pavuk 被编译为支持多线程时才可用。
-dumpfd $nr
有时可以使用脚本将文档直接下载到管道
或变量而不是将其存储到常规文件中。 在这种情况下,您可以使用此
将数据转储到例如标准输出 ($nr = 1) 的选项。
-dump_after/-nodump_after
使用时 -dumpfd 多线程 pavuk 中的选项,需要转储文件
一时间,因为在多个线程中下载的文档可能会重叠。 这个
当您想在 pavuk 调整链接后转储文档时,该选项也很有用
在 HTML 文档中。
-dump_response/-nodump_response
此选项仅在与 -dumpfd 选项。 它用于转储 HTTP
响应头。
-dump_urlfd $nr
当您使用此选项时,pavuk 将输出在 HTML 文档中找到的所有 URL
到文件描述符 $nr。 您可以使用此选项提取所有 URL 并将其转换为
绝对。
场景/任务 选项
-设想 $海峡
要加载和/或运行的场景的名称。 场景是具有类似结构的文件
以及 .pavukrc 文件。 场景包含保存的配置。 您可以将其用于
定期镜像。 在命令行指定的场景中的参数可以
被命令行参数覆盖。 为了能够使用此选项,您需要
使用选项指定场景基目录 -scndir.
-转储 $文件名
将实际配置存储到具有名称的场景文件中 $文件名. 这很有用
快速创建用于手动编辑的预配置场景。
目录 选项
-msgcat $目录
包含 pavuk 消息目录的目录。 如果你没有
在系统目录中存储 pavuk 消息目录的权限,您应该
只需在您的主目录中创建类似的目录结构即可
你的系统。
对于 例:
您的母语是德语,您的主目录是 /home/jano。
您应该首先创建目录/home/jano/locales/de/LC_MESSAGES/,然后
将德语 pavuk.mo 放在那里并将 -msgcat 设置为 /home/jano/locales/。 如果你有
正确设置区域设置环境值,您将看到 pavuk 说德语。 这个
选项仅在您编译以支持 GNU gettext 消息时可用
国际化。
-cdir $目录
存储所有检索文档的目录。 如果未指定,则
使用当前目录。 如果指定的目录不存在,它将是
创建。
-scndir $目录
存储您的方案的目录。 您必须在以下情况下使用此选项
正在加载或存储场景文件。
保存 选项
-preserve_time/-nopreserve_time
以与远程站点上相同的修改时间存储下载的文档。
仅当此类信息可用时才会设置修改时间(某些 FTP
服务器不支持 MDTM 命令,以及一些 HTTP 服务器上的文件是
在线创建,所以 pavuk 无法检索此文档的修改时间)。 在
不保留文档的默认修改时间。
-preserve_perm/-nopreserve_perm
使用与远程站点上相同的权限存储下载的文档。 这个
选项仅在通过 FTP 协议下载文件时有效,并假设
该 -ftplist 选项被使用。 默认情况下不保留权限。
-preserve_slinks/-nopreserve_slinks
将符号链接设置为指向与远程服务器完全相同的位置; 别
做任何搬迁。 此选项仅在通过 FTP 下载文件时有效
协议并假设 -ftplist 选项被使用。 默认符号链接是
不保留,并作为具有链接的完整内容的常规文档检索
文件中。
例如,假设在 FTP 服务器 ftp.xx.org 上有一个符号链接
/pub/pavuk/pavuk-current.tgz,指向 /tmp/pub/pavuk-0.9pl11.tgz。 帕武克
将创建符号链接 ftp/ftp.xx.org_21/pub/pavuk/pavuk-current.tgz
如果将使用选项 -preserve_slinks,则此符号链接将指向
/tmp/pub/pavuk-0.9pl11.tgz
如果要使用选项 -preserve_slinks,则此符号链接将指向
../../tmp/pub/pavuk-0.9pl11.tgz
-retrieve_symlink/-noretrieve_symlink
检索符号链接后面的文件,而不是在本地树中复制符号链接。
代理 选项
-http_代理 $站点[:$端口]
如果使用这个参数,那么所有的 HTTP 请求都经过这个代理
服务器。 如果您的站点位于防火墙后面,或者如果您想
使用 HTTP 代理缓存服务器。 默认端口号是 8080。Pavuk 允许你
指定多个 HTTP 代理(使用多个 -http_proxy 选项),它将
使用循环优先级轮换代理禁用有错误的代理。
-nocache/-缓存
每当您想直接从站点获取文档时,请使用此选项并
不是来自您的 HTTP 代理缓存服务器。 默认 pavuk 允许传输文件
从缓存中复制。
-ftp_代理 $站点[:$端口]
如果使用此参数,则所有 FTP 请求都经过此代理
服务器。 当您的站点位于防火墙后面时,这很有用,或者如果您想
使用 FTP 代理缓存服务器。 默认端口号是 22。Pavuk 支持三个
不同类型的 FTP 代理,请参阅选项 -ftp_httpgw, -ftp_dirtyproxy。
如果上述选项均未使用,则 pavuk 假定使用常规 FTP 代理
- USER 用户@主机 连接到远程 FTP 服务器。
-ftp_httpgw/-noftp_httpgw
指定的 FTP 代理是 FTP 协议的 HTTP 网关。 默认 FTP 代理
是普通的FTP代理。
-ftp_dirtyproxy/-noftp_dirtyproxy
指定的 FTP 代理是一个 HTTP 代理,它支持 建立联系 请求 (pavuk
应使用完整的 FTP 协议,活动数据连接除外)。 默认FTP
proxy 是普通的 FTP 代理。 如果同时指定了 -ftp_dirtyproxy 和 -ftp_httpgw,
-ftp_dirtyproxy 是首选。
-gopher_proxy $站点[:$端口]
Gopher 网关或代理/缓存服务器。
-gopher_httpgw/-nogopher_httpgw
指定的 Gopher 代理服务器是 Gopher 协议的 HTTP 网关。 什么时候
-gopher_proxy 已设置,这 -gopher_httpgw 选项未使用,pavuk 正在使用
代理作为 HTTP 隧道 建立联系 请求打开与 Gopher 服务器的连接。
-ssl_代理 $站点[:$端口]
SSL 代理(隧道)服务器 [如 CERN httpd + patch 或 Squid 中的] 与
启用 建立联系 请求(至少在端口 443 上)。 此选项仅在以下情况下可用
使用 SSL 支持编译(您需要 SSleay 或 OpenSSL 库
开发标题)
代理 认证
-http_代理_用户 $用户
HTTP 代理身份验证的用户名。
-http_proxy_pass $通
HTTP 代理验证的密码。
-http_proxy_auth {1/2/3/4/user/基本/摘要/NTLM}
代理访问的认证方案。 类似的意思 -auth_scheme
选项(有关更多详细信息,请参阅此选项的帮助)。 默认值为 2(基本方案)。
-auth_proxy_ntlm_domain $海峡
NTLM 时使用 NT 或 LM 域再次授权 HTTP 代理服务器
需要认证方案。 此选项仅在编译时可用
使用 OpenSSL 或 libdes 库。
-auth_reuse_proxy_nonce/-noauth_reuse_proxy_nonce
当使用 HTTP Proxy Digest 访问认证方案时使用 first received
多个后续请求中的 nonce 值。
-ftp_代理_用户 $用户
FTP 代理验证的用户名。
-ftp_代理_pass $通
FTP代理认证密码。
协议/下载 附加选项
-ftp_被动
通过 ftp 下载时使用被动 ftp。
-ftp_活动
通过 ftp 下载时使用活动的 ftp。
-active_ftp_端口范围 $最小值:$最大值
此选项允许指定用于活动 ftp 的端口。 这允许更容易
防火墙配置,因为可以限制端口范围。
Pavuk 会从指定范围内随机选择一个数字,直到打开
端口被找到。 如果在给定范围内找不到开放端口,pavuk 将
默认为正常的内核分配端口,并且一条消息(调试级别网络)是
输出。
选择的端口范围必须在非特权范围内(例如大于或
等于 1024); 强烈建议选择的范围足够大
处理许多同时活动的连接(例如,49152-65534、IANA-
注册的临时端口范围)。
-always_mdtm/-noalways_mdtm
强制 pavuk 始终使用“MDTM”来确定文件修改时间,从不
使用列出远程文件时确定的缓存时间。
-remove_before_store/-noremove_before_store
在新内容存储到文件之前强制取消文件链接。 这很有帮助
如果本地文件被硬链接到某个其他目录并且在镜像之后
检查硬链接。 所有“损坏的”硬链接都表示文件更新。
-重试 $nr
设置尝试传输已处理文档的次数。 默认设置为1,这个
意味着 pavuk 将重试一次以获取第一次尝试失败的文档。
-nregets $nr
在传输中断后,在单个文档上设置允许的重新获取次数。
此选项的默认值为 2。
-n目录 $nr
设置允许的 HTTP 重定向数。 (使用它来防止循环)默认
此选项的值为 5,并且符合 HTTP 规范。
-force_reget/-noforce_reget
在服务器中断传输后强制重新获取整个文档
不支持检索部分内容。 Pavuk 默认行为是停止
获取不允许从指定位置重新开始传输的文件。
-暂停 $nr
以分钟为单位的停滞连接超时。 该值也用于连接
超时。 对于亚分钟超时,您可以使用浮点数。 默认
timeout 为 0,表示禁用超时检查。
-noRobots/-机器人
此开关禁止使用 的robots.txt 标准,用于
限制 Web 机器人访问 Web 服务器上的某些位置。 默认是
允许检查 HTTP 服务器上的 robots.txt 文件。 始终启用此选项
当您下载具有不可预测布局的大量页面时。 这个
防止您打扰服务器管理员:-)。
-noEnc/-Enc
此开关禁止使用 GZIP or 压缩 or 放气 传输中的编码。 一世
不知道某些服务器是否损坏或什么,但它们正在传播该 MIME
输入 application/gzip 或 application/compress 作为编码。 关闭这个选项,
当您没有编译 libz 支持时 GZIP 使用的程序
解码以这种方式编码的文档。 默认是对下载的文件进行解码
禁用。
-check_size/-nocheck_size
如果您尝试从
发送错误的 HTTP 服务器 内容长度: 的 MIME 标头中的字段
回复。 默认 pavuk 行为是检查此字段并在以下情况下抱怨
有什么不对。
-最大速率 $nr
如果您不想将所有传输带宽都提供给 pavuk,请使用此选项
设置 pavuk 的最大传输速率。 此选项接受浮点数
以 kB/s 为单位指定传输速率。 如果您想获得最佳设置,您还可以
使用读取缓冲区的大小(选项 -缓冲区大小) 因为 pavuk 正在做
仅在应用程序级别进行流量控制。 默认情况下 pavuk 使用全带宽。
-分钟 $nr
如果您讨厌传输速度缓慢,此选项可让您中断传输
速度慢。 您可以设置最小传输速率,如果连接得到
比给定的速率慢,传输将停止。 最低传输率
以 kB/s 为单位。 默认情况下,pavuk 不检查此限制。
-缓冲区大小 $nr
该选项用于指定读取缓冲区的大小(默认大小:32kB)。
如果您的连接速度非常快,您可以增加缓冲区的大小以获得
更好的读取性能。 如果您需要降低传输速率,您可能需要
减少缓冲区的大小并设置最大传输速率
-最大速率 选项。 此选项接受以 kB 为单位的缓冲区大小。
-fs_配额 $nr
如果您在多用户系统上运行 pavuk,您可能需要避免填满
你的文件系统。 此选项可让您指定必须保留多少可用空间。 如果
pavuk 检测到可用空间不足,它将停止下载文件。
以 kB 为单位指定此配额。 默认值为 0,这意味着不检查此
配额。
-文件配额 $nr
当您想限制大文件的下载,但又想
从大文件中下载至少 $nr 千字节。 将传输一个大文件,
当它达到指定大小时,传输将中断。 这样的文件将是
处理为正确下载,因此使用此选项时要小心。 默认情况下
pavuk 正在传输全尺寸文件。
-trans_配额 $nr
如果您知道您的选择应该处理大量数据,您可以
使用此选项来限制传输的数据量。 默认是按大小
无限制转移。
-最大时间 $nr
设置程序运行的最长时间。 超过时间后,pavuk会停止
下载。 时间以分钟为单位指定。 默认值为 0,表示
下载时间不受限制。
-url_策略 $策略
此选项允许您指定文档树中 URL 的下载顺序。
此选项接受以下字符串作为参数:
水平 - 将在从 HTML 文件加载 URL 时对其进行排序(默认)
水平 - 和以前一样,但内联对象 URL 是第一位的
预 - 将在开始时插入来自实际 HTML 文档的 URL,在其他之前
预 - 和以前一样,但内联对象 URL 是第一位的
-send_if_range/-nosend_if_range
提交 如果范围: HTTP 请求中的标头。 我发现,一些 HTTP 服务器
(问候,MS :-))正在发送不同的 电子标签: 不同响应中的字段
相同的、未更改的文档。 当 pavuk 尝试重新获取一个
来自这样一个服务器的文档:pavuk 会记住旧的 ETag 值并使用它
遵循对本文件的要求。 如果服务器用新的 ETag 检查它
value 和它不同,它只会拒绝发送文件的一部分,并开始
从头开始下载。
-ssl_版本 $v
设置 SSL 通信所需的 SSL 协议版本。 $v 是 ssl2、ssl23 之一,
ssl3 或 tls1。 此选项仅在使用 SSL 支持编译时可用。
默认为 ssl23。
-unique_sslid/-nounique_sslid
如果要使用唯一的,可以使用此选项 SSL ID 对于所有 SSL 会话。
默认的 pavuk 行为是每次协商新的会话 ID
联系。 此选项仅在使用 SSL 支持编译时可用。
-use_http11/-nouse_http11
此选项用于在 HTTP/1.0 和与 HTTP 一起使用的 HTTP/1.1 协议之间切换
服务器。 现在使用的不是默认的 HTTP/1.1 协议,因为它的实现
非常新鲜,未经 100% 测试。 即使使用 HTTP/1.1 非常
推荐,因为它比 HTTP/1.0 更快并且使用更少的网络带宽
发起连接。 在任何进一步的版本中,我将使用 HTTP/1.1 作为激活
默认。
-本地IP $ addr
当您想使用指定的网络接口时,您可以使用此选项
与其他主机的通信。 此选项适用于具有
几个网络接口。 地址应输入为常规 IP 地址或作为
主机名。
-身份 $海峡
此选项允许您指定内容 用户代理: HTTP 请求字段。
这是可用的,当远程服务器上的脚本返回相同的不同文档时
不同浏览器的 URL,或者某些 HTTP 服务器拒绝为 Web 提供文档
像 pavuk 这样的机器人。 默认 pavuk 发送 用户代理: 部分 帕武克/$VERSION 字符串。
-auto_referer/-noauto_referer
此选项强制 pavuk 发送 HTTP 推荐人: 带有起始 URL 的标头字段。
此字段的内容将是自己的 URL。 远程时需要使用此选项
服务器检查 Referer: 字段。 默认情况下 pavuk 不会发送 Referer: 字段
起始网址。
-引用者/-无引用者
此选项允许启用和禁用 HTTP 传输 推荐人: 头
场地。 默认情况下,pavuk 发送 Referer: 字段。
-httpad $海峡
在某些情况下,您可能希望向 HTTP/HTTPS 请求添加用户定义的字段。 这个
选项正是为此目的。 在 $海峡 您可以直接指定内容
附加标题。 如果您仅指定原始标头,它将仅用于
启动请求。 当您想在每个请求中使用此标头时
爬行,在标题前加上 + 字符。
-del_after/-nodel_after
此选项允许您从远程服务器删除文件,当下载是
正确完成。 默认情况下此选项关闭。
-FTPlist/-noFTPlist
当使用选项 -FTPlist 时,pavuk 将检索 FTP 目录的内容
使用 FTP 命令 清单 而不是 神经网络. 所以相同的列表将被检索为
使用“ls -l”UNIX 命令。 如果您需要保留此选项是必需的
远程文件的权限,或者您需要保留符号链接。 帕武克支持
定期在 FTP 服务器上广泛列出 BSD or 系统软件 样式“ls -l”目录
列出,在 FTP 服务器上 EPFL 列表格式, VMS 样式列表, 操作系统/视窗
样式列表和 小说 列表格式。 默认 pavuk 行为是使用 NLST 来
FTP 目录列表。
-ftp_列表_选项 $海峡
一些 FTP 服务器需要为 LIST 或 NLST FTP 命令提供额外的选项以
正确显示所有文件和目录。 但一定不要使用任何额外的选项
它可以重新格式化列表的输出。 特别有用 -a 选项
强制 FTP 服务器也显示点文件和目录以及损坏的 WuFTP
服务器它还有助于生成完整的目录列表,而不仅仅是文件。
-fix_wuftpd/-nofix_wuftpd
此选项是多次尝试正常工作的结果
-删除旧的 选项与 WuFTPd 服务器时 -ftplist 选项被使用。 问题是
WuFTPd 上的 FTP 命令 LIST 不介意尝试列出不存在的
目录,并在 FTP 响应代码中指示成功。 当你激活这个
选项,pavuk 使用额外的 FTP 命令(STAT -d dir)来检查目录是否
确实存在。 在您确定确实需要它之前,不要使用此选项!
认证
-auth_file $文件
存储用于访问某些服务的身份验证信息的文件。
有关文件结构,请参见下面的 FILES 部分。
-auth_name $用户
如果您使用此参数,则程序正在对每个 HTTP 进行身份验证
访问文档。 仅当您知道只能使用一个 HTTP 服务器时才使用它
访问或使用 -网站 选项来指定您使用身份验证的站点。
否则您的身份验证参数将被发送到每个访问的 HTTP 服务器。
-auth_passwd $密码
该参数的值用作认证密码
-auth_scheme {1/2/3/4/user/基本/摘要/NTLM}
该参数指定使用的认证方案。
1 or 用户 手段 用户 使用 HTTP/1.0 中定义的身份验证方案或
HTTP/1.1。 密码和用户名未经编码发送。
2 or 基本版 手段 基本版 使用 HTTP/1.0 中定义的身份验证方案。
密码和用户名以 BASE64 编码发送。
3 or 消化 手段 消化 基于MD5校验和的访问认证方案为
RFC2069 中定义。
4 or NTLM 手段 NTLM Microsoft 使用的专有访问身份验证方案
IIS 或代理服务器。 使用此方案时,还必须指定 NT 或 LM
带选项的域 -auth_ntlm_domain. 此方案仅在编译时支持
使用 OpenSSL 或 libdes 库。
-auth_ntlm_domain $海峡
NTLM认证时用于再次授权HTTP服务器的NT或LM域
方案是必需的。 此选项仅在使用 OpenSSL 编译时可用或
libdes 库。
-auth_reuse_nonce/-noauth_reuse_nonce
在使用 HTTP Digest 访问身份验证方案时,使用 first received nonce
在更多后续请求中的价值。 默认 pavuk 为每个请求协商随机数。
-ssl_密钥_文件 $文件
带有 SSL 证书公钥的文件(从 SSLeay 或 OpenSSL 了解更多信息
文档)此选项仅在编译时使用 SSL 支持才可用(您
需要 SSleay 或 OpenSSL 库和开发头文件)
-ssl_证书_文件 $文件
PEM 格式的证书文件(从 SSLeay 或 OpenSSL 文档中了解更多信息)
此选项仅在使用 SSL 支持编译时可用(您需要 SSleay 或
OpenSSL 库和开发头文件)
-ssl_cer_passwd $海峡
用于生成证书的密码(从 SSLeay 或 OpenSSL 了解更多信息
文档)此选项仅在编译时使用 SSL 支持才可用(您
需要 SSLeay 或 OpenSSL 库和开发头文件)
-nss_cert_dir $目录
NSS(Netscape SSL 实现)证书的配置目录。 通常
~/.网景 (由 Netscape 通信器/导航器创建)或下面的配置文件目录
〜/.mozilla (由 Mozilla 浏览器创建)。 该目录应包含 证书7.db 和
key3.db 文件。 如果您不使用 Mozilla 或 Netscape,则必须通过以下方式创建此文件
与 NSS 库一起分发的实用程序。 Pavuk 只打开证书数据库
只读。 此选项仅在 pavuk 编译时支持 SSL 时可用
由 Netscape NSS SSL 实现提供。
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
默认情况下,pavuk 将拒绝连接到证书不是的 SSL 服务器
存储在本地证书数据库中(由 -nss_cert_dir 选项)。 你必须
明确强制 pavuk 允许连接到具有未知证书的服务器。
此选项仅在 pavuk 使用由提供的 SSL 支持编译时可用
Netscape NSS SSL 实现。
[-nss_domestic_policy/-nss_export_policy]
选择美国出口规则允许/禁用的密码集。 这个选项是
仅当 pavuk 使用 Netscape NSS SSL 提供的 SSL 支持编译时可用
实施。
从 $电子邮件
该参数用于作为密码访问匿名 FTP 服务器时使用或
可选地插入 从 HTTP 请求中的字段。 如果没有指定 pavuk
从 USER 环境变量和来自站点主机名。
-send_from/-nosend_from
此选项用于启用或禁用用户标识的发送,
进入 从 选项,作为 FTP 匿名用户密码和 起步价 HTTP领域
要求。 默认情况下此选项关闭。
-ftp_login_handshake $主机 $握手
当您需要对某些 FTP 服务器使用非标准登录程序时,您可以
使用此选项更改默认的 pavuk 登录程序。 为了提供更大的灵活性,
您可以将登录程序分配给某些服务器或所有服务器。 什么时候 $主机 is
指定为空字符串 (""),然后将附加的登录程序分配给所有
除了那些分配了自己的登录程序的 FTP 服务器。 在里面 $握手
参数您可以指定由 FTP 命令指定的确切登录程序
由用反斜杠分隔的预期 FTP 响应代码 () 人物。
例如,这是登录常规 ftp 服务器时的默认登录程序
不通过代理服务器: USER %u\331\通过 %p\230。 那里有两个
命令后跟两个响应代码。 在用户命令 pavuk 期望 FTP 之后
响应代码 331 和 PASS 命令之后 pavuk 期望来自服务器 FTP 响应
代码 230。在 ftp 命令中,您可以使用以下宏,这些宏将被替换为
各自的价值:
%u - 用于访问 FTP 服务器的用户名
%p - 用于访问 FTP 服务器的密码
%U - 用于访问 FTP 代理服务器的用户名
%P - 用于访问 FTP 代理服务器的密码
%h - FTP 服务器的主机名
%s - FTP 服务器侦听的端口号
站点/域/端口 局限性 附加选项
-网站 $列表
指定引用文档所在的允许站点的逗号分隔列表
存储。
-现场 $列表
指定禁止站点的逗号分隔列表。 上一个参数相反
到这个。 如果两者都使用,则它们的最后一次出现是有效的。
-域 $列表
指定引用文档所在的允许域的逗号分隔列表
存储。
-d域 $列表
指定禁止域的逗号分隔列表。 上一个参数相反
到这个。 如果两者都使用,则它们的最后一次出现是有效的。
-端口 $列表
In $列表,您可以编写逗号分隔的端口列表,您允许从这些端口
下载文件。
-端口 $列表
此选项与上一个选项相反。 它用于指定拒绝
端口。 如果两者 -端口 和 -端口 使用选项的最后一次出现是
曾经是有效的,所有其他事件将被省略。
局限性 文件
-阿米特 $列表
逗号分隔的允许 MIME 类型列表。 您也可以使用此选项
通配符模式。
-dmimet $列表
逗号分隔的不允许的 MIME 类型列表。 您也可以使用此选项
通配符模式。 前一个参数与此相反。 如果两者都使用
它们的最后一次出现是有效的。
-最大尺寸 $nr
允许的最大文档大小。 此选项仅在 pavuk 可用时应用
在开始传输之前检测文档。 默认值为 0,它
表示不应用此限制。
-最小 $nr
允许的最小文档大小。 此选项仅在 pavuk 可用时应用
在开始传输之前检测文档。 默认值为 0,它
表示不应用此限制。
-更新时间 $时间
只允许传输修改时间比指定的更新时间的文档
参数 $time。 $time 的格式为:YYYY.MM.DD.hh:mm。 应用此选项 pavuk
必须能够检测文档的修改时间。
-更老 $时间
只允许传输修改时间早于指定的文档
参数 $time。 $time 的格式为:YYYY.MM.DD.hh:mm。 应用此选项 pavuk
必须能够检测文档的修改时间。
-noCGI/-CGI
此开关可防止通过以下方式传输动态生成的参数文档
CGI界面。 这是在发生时检测到的 ? URL 中的字符。 默认
pavuk 行为是允许传输带有查询字符串的 URL。
-阿朗 $列表
这允许您指定首选自然的有序逗号分隔列表
语言。 此选项仅适用于 HTTP 和 HTTPS 协议,使用 接受-
语言: MIME 字段。
-字符集 $列表
此选项允许您输入逗号分隔的首选编码列表
转移的文件。 这仅适用于 HTTP 和 HTTPS 网址,并且仅适用于
文档编码位于目标服务器上。
例: -字符集 ISO-8859-2,Windows-1250,UTF8
局限性 文件 姓名
-asfx $列表
此参数允许您指定一组用于限制选择的后缀
将被处理的文件。
-dsfx $列表
一组后缀,用于指定对文档选择的限制。
这个选项与前一个选项相反。 他们在互相隔离。
-前缀 $列表, -d前缀 $列表
这两个选项允许您指定一组允许或不允许的前缀
文件。 他们在互相隔离。
-模式 $模式
此选项允许您为文档指定通配符模式。 所有文件都是
测试它们是否匹配此模式。
-r模式 $reg_exp
这是与以前相同的选项,但它使用正则表达式。 可用的
仅在具有任何受支持的 RE 实现的平台上。
-skip_pattern $模式
此选项允许您为应该使用的文档指定通配符模式
跳过。 如果所有文档与此模式匹配,则测试所有文档。
-skip_rpattern $reg_exp
这是与以前相同的选项,但它使用正则表达式。 可用的
仅在具有任何受支持的 RE 实现的平台上。
-url_pattern $模式
此选项允许您为 URL 指定通配符模式。 所有 URL 都经过测试,如果
他们匹配这个模式。
示例:
-url_pattern http://\*.idata.sk:\*/~ondrej/\* 。 此选项启用所有 HTTP URL
来自域 .idata.sk 位于 /~ondrej/ 下的所有端口。
-url_rpattern $reg_exp
这是与以前相同的选项,但它使用正则表达式。 可用的
仅在具有任何受支持的 RE 实现的平台上。
-skip_url_pattern $模式
此选项允许您为应跳过的 URL 指定通配符模式。
如果所有 URL 与此模式匹配,则会对其进行测试。
-skip_url_rpattern $reg_exp
这是与以前相同的选项,但它使用正则表达式。 可用的
仅在具有任何受支持的 RE 实现的平台上。
-aip_pattern $重新
此选项允许您通过服务器 IP 地址限制传输的文档集。
IP地址可以指定为正则表达式,因此可以指定
一组 IP 地址由一个表达式。 仅在具有任何
支持 RE 实施。
-dip_pattern $重新
此选项类似于上一个选项,但用于指定一组不允许的 IP
地址。 仅在具有任何受支持的 RE 实现的平台上可用。
-标签模式 $标签 $属性 $ url
更强大的版本 -url_pattern 允许更精确匹配的选项
基于 HTML 标签名称模式、HTML 标签属性名称模式和 URL 的 URL
图案。 您可以在此选项通配符模式的所有三个参数中使用,因此
就像是 -标签模式 '*' '*' 网址模式 等于 -url_pattern
网址模式。 该 $标签 和 $属性 参数总是再次匹配大写
字符串。 例如,如果您只想让 pavuk 只关注常规链接而忽略
任何样式表、图像等,使用选项 -标签模式 A HREF '*'.
-tag_rpattern $标签 $属性 $ url
这是变体 -标签模式. 它使用正则表达式模式
参数而不是前一个选项中使用的通配符模式。
局限性 协议 附加选项
-无HTTP/-HTTP
此开关禁止通过 HTTP 协议进行的所有传输。 默认为转移
通过启用 HTTP。
-无 SSL/-SSL
此开关禁止所有通过 HTTPS 协议(HTTP 协议通过
SSL)。 默认为启用 HTTPS 传输。 此选项仅可用
使用 SSL 支持编译时(您需要 SSleay 或 OpenSSL 库和
开发标题)
-noGopher/-Gopher
禁止通过 Gopher Internet 协议进行的所有传输。 默认为转移
通过 Gopher 启用。
-noFTP/-FTP
此开关阻止处理分配在所有 FTP 服务器上的文档。 默认是
传输槽 FTP 启用。
-noFTPS/-FTPS
此开关阻止处理分配在所有访问的 FTP 服务器上的文档
通过 SSL。 默认为启用传输槽 FTPS。 此选项可用
仅当使用 SSL 支持编译时(您需要 SSleay 或 OpenSSL 库和
开发标题)
-FTPhtml/-noFTPhtml
通过使用选项 -FTPhtml,您可以强制 pavuk 处理下载的 HTML 文件
与 FTP 协议。 默认情况下,pavuk 不会解析来自 FTP 服务器的 HTML 文件。
-FTPdir/-noFTPdir
也强制递归处理 FTP 目录。 默认是递归的
从 FTP 服务器下载被拒绝。
-disable_html_tag $TAG,[$ATTRIB][;...]
-enable_html_tag $TAG,[$ATTRIB][;...] 启用或禁用特定处理
HTML 标签或属性。 默认情况下,所有支持的 HTML 标签都已启用。
例如,如果您不想处理所有图像,则应使用选项
-disable_html_tag 'IMG,SRC;输入,SRC;正文,背景' .
其他 局限性 附加选项
-子目录 $目录
本地树目录的子目录,限制一些模式{sync,
resumeregets, linkupdate} 在其树扫描中。
-dont_leave_site/-离开网站
(不要)离开起点。 默认情况下,pavuk 在递归时可以跨越主机
万维网树。
-dont_leave_dir/-离开目录
(不要)离开起始目录。 如果使用 -dont_leave_dir 选项,pavuk 将保留
仅在起始目录(包括其自己的子目录)中。 默认情况下 pavuk
可以离开起始目录。
-leave_site_enter_dir/-dont_leave_site_enter_dir
如果您正在下载 WWW 树,它跨越多个具有巨大树的主机,您可能
想要允许下载位于以下目录层次结构中的文档
我们在每个站点上首先访问的目录。 要获得它,请使用选项
-dont_leave_site_enter_dir。 作为默认 pavuk 也会去更高的目录
该网站上的级别。
-l最大 $nr
设置树遍历的最大允许级别。 默认设置为0,是什么意思
pavuk 可以无限遍历。 从 0.8pl1 版本开始,HTML 页面的内联对象
放置在与父 HTML 页面相同的级别。
-离开级别 $nr
起始 URL 站点之外的最大文档级别。 默认设置为 0,
0 表示不应用检查。
-站点级别 $nr
起始 URL 站点之外的站点的最大级别。 默认设置为 0,并且
0 表示不应用检查。
-dmax $nr
设置允许处理的最大文档数。 默认值为 0。
这意味着对处理的文档数量没有限制。
-单页/-nosinglepage
使用选项 -单页 允许您只传输 HTML 页面及其所有内容
内联对象(图片、声音、框架文档等)。 默认禁用
单页传输。 此选项使 -模式 单页 选项已过时。
-limit_inlines/-dont_limit_inlines
使用此选项,您可以控制限制选项是否也适用于内联
对象(图片、声音等)。 当您要下载指定的
一组带有所有内联选项的 HTML 页面,没有任何限制。
-用户条件 $海峡
用户自己条件的脚本或程序名称。 您可以编写任何脚本
应该用退出值决定是否下载 URL。 脚本从 pavuk any
选项数量,含义如下:
-网址 $ url - 处理过的网址
-父母 $ url - 任意数量的父 URL
电平 $nr - 从起始 URL 开始的此 URL 的级别
-尺寸 $nr - 请求的 URL 的大小
-日期 $日期 - 请求 URL 格式的修改时间 YYYYMMDDhhmmss
脚本或程序的退出状态 0 表示应拒绝当前 URL
非零退出状态意味着应该接受 URL。
警告 : 仅在需要时使用用户条件,因为由
为每个检查的 URL 分叉脚本。
-follow_cmd $海峡
此选项允许您指定脚本或程序可以通过其退出状态
决定是否遵循当前 HTML 文档中的 URL。 这个脚本将
在下载每个 HTML 文档后调用。 该脚本将获得以下选项
因为它的参数:
-网址 $ url - 当前 HTML 文档的 URL
-infile $文件 - 存储 HTML 文档的本地文件
脚本或程序的退出状态 0 表示当前文档中的 URL 将
被禁止,其他退出状态意味着 pavuk 可以跟踪当前的链接
HTML 文档。
使用Javascript 支持
在 pavuk 中对 JavaScript 或 VBScript 等脚本语言的支持有点老套
道路。 这种语言没有解释器,所以不是所有的东西都能工作。 所有的
pavuk 对这种脚本语言的支持基于正则表达式
用户指定的模式。 Pavuk 在 HTML 的 DOM 事件属性中搜索此模式
标签,在 javascript:... URLs 中,在 HTML 文档中的内联脚本中
标签和单独的 javascript 文件。 支持脚本语言
仅在使用适当的正则表达式库编译 pavuk 时可用
(POSIX/GNU/PCRE)。
-enable_js/-disable_js
此选项用于启用或禁用处理 HTML 的 Javascript 部分
文件。 您必须启用此选项才能使用 javascript 处理
图案。
-js_pattern $重新
使用此选项,您可以指定哪些模式匹配感兴趣的部分
用于提取 URL 的 Javascript。 参数必须是 RE 模式,只有一个
与 URL 部分完全匹配的子模式。 例如匹配以下 URL
javascript表达式的类型:
document.b1.src='图片/button1_pre.jpg'
你可以使用这种模式
"^document.[a-zA-Z0-9_]*.src[]*=[]*'(.*)'$"
-js_transform $p $t $h $a
此选项与前一个类似,但您可以使用自定义转换规则
模式的 URL 部分,并指定确切的 HTML 标记和属性
寻找这种模式。 这 $p 是匹配感兴趣部分的模式
脚本。 这 $t 是 URL 的转换规则,在这个参数中 $x 零件将
被替换为第 x 个子模式 $p 图案。 这 $h 参数是精确的 HTML
当这适用于 javascript 时,标记或“*”:URL 或 DOM 事件属性或“”(空
string) 当这适用于 HTML 文档的 javascript 正文或单独的 JS 文件时。
这款 $a 当此规则时,参数是标签或“”(空字符串)的确切 HTML 属性
适用于 javascript 正文。
-js_transform2 $p $t $h $a
此选项与以前的非常相似。 所有参数的含义都是一样的,
只是模式 $p 只能有一个将用于转换的子字符串
排除 $t. 这是允许重写标记和脚本的 URL 部分所必需的。
此选项还可用于强制 pavuk 识别 HTML targ/attribute 对
哪个 pavuk 不支持。
利用Cookies的
-cookie_文件 $文件
存储 cookie 信息的文件。 此文件必须在 Netscape cookie 文件中
格式(使用 Netscape Navigator 或 Communicator ...生成)。
-cookie_send/-nocookie_send
在 HTTP/HTTPS 请求中使用收集的 cookie。 Pavuk 不会默认发送
饼干。
-cookie_recv/-nocookie_recv
将收到的来自 HTTP/HTTPS 响应的 cookie 存储到内存 cookie 缓存中。 在
默认 pavuk 不会记住收到的 cookie。
-cookie_update/-nocookie_update
更新磁盘上的 cookie 文件并将其与任何并发所做的更改同步
过程。 默认情况下,pavuk 不会更新磁盘上的 cookie 文件。
-cookies_max $nr
内存 cookie 缓存中的最大 cookie 数。 默认值为 0,即
意味着对cookies数量没有限制。
-disabled_cookie_domains $列表
允许发送存储的 cookie 的 cookie 域的逗号分隔列表
进入cookie缓存
-cookie_check/-nocookie_check
接收cookie时检查cookie域是否等于服务器的域
发送这个cookie。 默认情况下,pavuk 检查服务器正在为其设置 cookie
域,如果它试图为外域设置 cookie,pavuk 会抱怨
并且会拒绝这样的cookie。
HTML 重写 发动机 调音 选项
-noRelocate/-重新定位
此开关可防止程序在 HTML 之后将相对 URL 重写为绝对 URL
文件被转移。 默认的 pavuk 行为是保持链接的一致性
HTML 文档。 所以总是在下载 HTML 文档时 pavuk 会重写所有
指向本地文档(如果可用,如果不可用)的 URL
将指向远程文档。 正确下载文件后,pavuk 将
更新 HTML 文档中的链接,指向此链接。
-all_to_local/-noall_to_local
此选项强制 pavuk 将 HTML 文档中的所有 URL 更改为本地 URL
下载文件后立即。 默认禁用此选项。
-sel_to_local/-nosel_to_local
此选项强制 pavuk 更改所有 URL,从而满足以下条件
下载文件后,立即下载到本地的 HTML 文件中。 一世
建议使用此选项,当您确定时,该传输将没有任何
问题。 这个选项可以节省大量的处理器时间。 默认是这个选项
禁用。
-all_to_remote/-noall_to_remote
此选项强制 pavuk 将 HTML 文档中的所有 URL 更改为远程 URL
下载文件后立即。 默认禁用此选项。
-post_update/-nopost_update
此选项专门设计用于允许 -规则 选项做基于的规则
MIME 类型的文档。 此选项强制 pavuk 生成本地名称
在 pavuk 知道文档的 MIME 类型是什么之后的文档。 这个有大
对 HTML 文档内链接的重写引擎的影响。 此选项导致
用于控制链接重写引擎的其他选项失效。 用这个
仅当您知道自己在做什么时才选择:-)
-dont_touch_url_pattern $拍
此选项用于拒绝重写和处理 HTML 中的特定 URL
pavuk HTML 重写引擎的文档。 此选项接受通配符模式以
指定此类 URL。 匹配是针对未触及的 URL 完成的,因此当他的 URL 是
相对,你必须使用匹配相对 URL 的模式,当它是绝对的时,
您必须使用绝对 URL。
-dont_touch_url_rpattern $拍
此选项是先前选项的变体。 这个使用常规模式
匹配 URL 而不是使用的通配符模式 -dont_touch_url_pattern
选项。 此选项仅在 pavuk 编译时支持
正则表达式模式。
-dont_touch_tag_rpattern $拍
此选项是上一个选项的变体,只是在完整的 HTML 标签上进行匹配
包括<>。 此选项接受正则表达式模式。 可以使用
仅当 pavuk 编译时支持正则表达式模式。
文件名/网址 转化 附加选项
-tr_del_chr $海峡
中找到的所有字符 $海峡 将从文档的本地名称中删除。 $海峡
应该包含类似于 tr 命令中的转义序列:
\n - 新队
\r - 回车
\t - 水平制表符空间
\0xXX - 十六进制 ASCII 值
[:上:] - 所有大写字母
[:降低:] - 所有小写字母
[:α:] - 所有字母
[:铝:] - 所有字母和数字
[:数字:] - 所有数字
[:x数字:] - 所有十六进制数字
[:空间:] - 所有水平和垂直空白
[:空白的:] - 所有水平空白
[:控制:] - 所有控制字符
[:打印:] - 所有可打印的字符,包括空格
[:n打印:] - 所有不可打印的字符
[:点:] - 所有标点字符
[:图形:] - 除空格外的所有可打印字符
-tr_str_str $str1 $str2
串 $str1 来自文档的本地名称将被替换为 $str2.
-tr_chr_chr $chrset1 $chrset2
来自的字符 $chrset1 来自文档的本地名称将被替换为
对应的字符来自 $chrset2. $字符集1 和 $字符集2 应该有相同的
语法为 $海峡 in -tr_del_chr 选项。
-商店名称 $海峡
当您想更改使用单页下载的第一个文件的本地文件名时
模式,您应该使用此选项。
-索引名称 $海峡
使用此选项,您可以更改目录索引名称。 默认使用 _.__.html .
-store_index/-nostore_index
使用选项 -nostore_index 您应该拒绝将目录索引存储到 HTML 中
文件。
-规则 $t $m $r
这是一个非常强大的选择! 此选项用于灵活更改布局
本地文档树。 它接受三个参数。 第一个参数 $t 用来说
以下模式是什么类型。 F 用于通配符模式(使用 匹配())
和 R 用于正则表达式模式(使用任何支持的 RE
执行)。 第二个参数是用于为此选择 URL 的匹配模式
规则。 如果 URL 匹配此模式,则计算此 URL 的本地名称
遵循第三个参数的规则。 第三个参数是本地名称构建
规则。 Pavuk 现在支持两种本地名称构建规则。 一个很简单
仅基于 简单 宏和其他更复杂的 扩展 规则,这也
可以执行多种功能。 这两种规则的识别
是通过查看规则的第一个字符来完成的。 如果第一个字符是
'(', 规则是扩展的,在所有其他情况下,它是一种简单的规则。
简易 排除 应该包含文字或转义的宏。 宏被 % 转义
字符或 $ 字符。
服务 is 名单 of 确认 宏:
$x - 其中 x 是任何正数。 这个宏被替换为第 x 个子串
由 RE 模式匹配。 (如果您使用它,您需要了解 RE !)
%i - 替换为协议 ID(http、https、ftp、gopher)
%p - 替换为密码。 (仅在可用时使用)
%u - 替换为用户名。
%h - 替换为主机名。
%m - 替换为域名。
%r - 替换为端口号。
%d - 替换为文档路径。
%n - 替换为文档名称。
%b - 替换为文档的基本名称(无扩展名)。
%e - 替换为扩展名。
%s - 替换为搜索字符串。
%M - 替换为 MIME 类型的文档。 当你使用这个宏时,你
*必须*也使用 -更新后 选择否则它不会工作。
%E - 替换为分配给 MIME 类型文档的默认扩展名。 当你
正在使用这个宏,你*必须*也使用 -更新后 选择否则它不会工作。
%x - 其中 x 是正数。 这个宏被替换为第 x 个目录
从头开始的文档路径。
%-X - 其中 x 是正数。 这个宏被替换为第 x 个目录
从结尾到文档的路径。
这是示例。 如果您想通过扩展将文档放入单个目录中,
您应该使用以下 fnrules 选项:
-规则 F '*' '/%e/%n'
扩展 排除 永远从性格开始 '('. 它使用某种 LISP 喜欢
语法。
服务 旨在 基地 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。 写作 扩展 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。 : - 本地文件名
kind是返回值函数
- 每个函数都包含在圆括号内 ()
- 大括号后的第一个标记是函数名
- 每个函数都有非零固定数量的参数
- 每个函数返回数字或字符串值
- 函数参数由任意数量的空格字符分隔
- 函数的参数应该是字符串、数字、宏或其他函数
- 字符串被引用过 "
- 每个数字参数可以是任何支持的编码 strtod() 功能
(八进制,十进制,十六进制,...)
- 没有从数字到字符串的隐式转换
- 每个宏都有前缀 % 一个字符长
- 每个宏都被当前 URL 中的字符串表示替换
- 严格输入函数参数
- 顶层函数必须返回字符串值
扩展规则支持全套 % 转义宏支持简单的规则,
加上以下两个加法宏:
%U - 网址字符串
%o - URL 的默认本地名称
服务 is 描述 of 所有 支持的 功能
sc - 连接两个字符串参数
- 接受两个字符串参数
- 返回字符串值
ss - 子串形式字符串
- 接受三个参数。
- 首先是我们要从中剪切子部分的字符串
- 第二个是代表字符串起始位置的数字
- 第三个是代表字符串结束位置的数字
- 返回字符串值
HSH - 从具有指定基数的字符串计算模哈希值
- 接受两个参数
- 首先是我们正在计算哈希值的字符串
- 第二个是模散列基数的数值
- 返回数值
md5 - 计算字符串的 MD5 校验和
- 接受一个字符串值
- 返回代表 MD5 校验和的字符串
lo - 将字符串中的所有字符转换为小写
- 接受一个字符串值
- 返回字符串值
up - 将字符串中的所有字符转换为大写
- 接受一个字符串值
- 返回字符串值
ue - 使用相同的编码在字符串中编码不安全的字符,用于
在 URL 中编码不安全的字符 (%xx) 作为默认编码所有非ASCII
使用此函数时的值。
- 接受两个字符串值
- 首先是我们要编码的字符串
- 第二个是包含不安全字符的字符串
- 返回字符串值
dc - 从字符串中删除不需要的字符(具有与
-tr_del_chr 选项)
- 接受两个字符串值
- 首先是我们想要删除的字符串
- 第二个是包含我们要删除的字符的字符串。
- 返回字符串值
tc - 用字符串中的其他字符替换字符(具有类似的功能
as -tr_chr_chr 选项)
- 接受三个字符串值
- 首先是我们想要替换字符的字符串
- 第二个是我们要替换的字符集
- 第三个是我们要替换的字符集
- 返回字符串值
ts - 用任何其他字符串替换字符串中的一些字符串(有类似的
功能如 -tr_str_str 选项)
- 接受三个字符串值
- 首先是我们想要替换字符串的字符串
- 第二个是来自字符串
- 第三是串起来
- 返回字符串值
n - 计算只包含指定集合的字符串的初始长度
人物。 (具有相同的功能 字符串() libc 函数)
- 接受两个字符串值
- 首先是输入字符串
- 第二个是可接受的字符集
- 返回数值
国家航天局 - 计算不包含指定集合的字符串的初始长度
人物。 (具有相同的功能 strcspn() libc 函数)
- 接受两个字符串值
- 首先是输入字符串
- 第二个是不可接受的字符集
- 返回数值
sl - 计算字符串的长度
- 接受一个字符串值
- 返回数值
ns - 按格式将数字转换为字符串
- 接受两个参数
- 第一个参数是与 for 相同的格式字符串 打印输出() 功能
- 第二个是我们要转换的数字
- 返回字符串值
lc - 返回指定字符在字符串中最后一次出现的位置
- 接受两个字符串参数
- 我们正在搜索的第一个字符串
- 第二个字符串包含我们正在寻找的字符
- 返回数值
+ - 添加两个数值
- 接受两个数值
- 返回数值
- - 减去两个数值
- 接受两个数值
- 返回数值
% - 模加
- 接受两个数值
- 返回数值
* - 多个两个数值
- 接受两个数值
- 返回数值
/ - 除以两个数值
- 接受两个数值
- 返回数值
参数 - 从查询字符串中删除参数
- 接受两个字符串
- 第一个字符串是我们正在调整的字符串
- 第二个参数是应该删除的参数名称
- 返回调整后的字符串
获取值 - 获取查询字符串参数值
- 接受两个字符串
- 第一个字符串是查询字符串,从中获取参数
值(通常为 %s)
- 第二个字符串是我们想要获取的参数名称
价值
- 参数时返回参数的值或空字符串
不存在
复原 - 逻辑决定
- 接受三个参数
- 第一个是数字,什么时候比这个决定的结果为零
是第二个参数的结果,否则结果是第三个参数的结果
参数
- 第二个参数是字符串
- 第三个参数是字符串
- 返回决定的字符串结果
! - 逻辑不
- 接受一个数字参数
- 返回参数的否定
& - 逻辑和
- 接受两个数字参数
- 返回逻辑和参数
| - 逻辑或
- 接受两个数字参数
- 返回逻辑或参数
获取文本 - 获取文件扩展名
- 接受一刺(文件名或路径)
- 返回包含参数扩展名的字符串
以次 - 比较两个字符串
- 接受两个字符串进行比较
- 返回数值 0 - 如果不同 1 - 如果相等
JSF - 执行 JavaScript 函数
- 接受一个包含名称的字符串参数
在加载的脚本中指定的 JavaScript 函数
-js_脚本_文件 选项。
- 返回等于返回值的字符串值
JavaScript 函数
- 此功能仅在编译 pavuk 时可用
支持 JavaScript 绑定
例如,如果您将大量互联网站点镜像到相同的
本地目录,一个目录中的条目过多,应该会导致性能下降
问题。 你可以使用例如 HSH or md5 函数生成一个额外的
基于主机名的哈希目录级别,具有以下选项之一:
-规则 F '*' '(sc (数控 "%02d/" (嘘 %h 100)) %o)'
-规则 F '*' '(sc (ss (MD5 %H) 0 2) %o)'
-基本级别 $nr
本地树中要省略的目录级别数。
例如下载 URL 时 ftp://ftp.idata.sk/pub/unix/www/pavuk-0.7pl1.tgz
你在命令行输入 -基本级别 4 在本地树中将被创建
www/pavuk-0.7pl1.tgz 不是 ftp/ftp.idata.sk_21/pub/unix/www/pavuk-0.7pl1.tgz 作为
一般。
-默认前缀 $海峡
镜像目录的默认前缀。 此选项仅在您尝试时使用
同步使用下载的远程目录的内容 -基本级别
选项。 此外,您必须使用基于目录的同步方法,而不是基于 URL
同步方法。 这特别有用,当与
-删除旧的 选项。
-remove_adv/-noremove_adv
此选项用于打开/关闭删除包含
广告横幅。 横幅不会从 HTML 文件中删除,但会
注释掉了。 此类 URL 也不会被下载。 这个选项有效果
仅当与选项一起使用时 -adv_re. 默认是关闭的。 这个选项是
仅当您的系统支持其中一种受支持的常规时才可用
表达式实现。
-adv_re $RE
此选项用于为匹配的 URL 指定正则表达式
广告横幅。 例如:-adv_re http://ad.doubleclick.net/。* 用来
匹配来自服务器 ad.doubleclick.net 的所有文件。 此选项仅可用
当您的系统具有任何受支持的正则表达式实现时。
-unique_name/-nounique_name
默认情况下,Pavuk 始终尝试为唯一的 URL 分配唯一的本地文件名。 如果
不需要这种行为,您可以使用选项 -名词唯一名称 禁用此功能。
其他 附加选项
-睡觉 $nr
此选项允许您指定程序运行期间的秒数
在两次转移之间暂停。 用于拒绝服务器过载。 默认值
此选项为 0。
-rsleep/-norsleep
当此选项处于活动状态时,pavuk 会随机化传输之间的睡眠时间
在零和指定的值之间的间隔中 -睡觉 选项。 默认是这个
选项无效。
-ddays $nr
如果文档的修改时间晚于 $nr 天,则在同步模式 pavuk
尝试从远程服务器检索较新的文档副本。 默认值为 0。
-remove_old/-noremove_old
删除不正确的文件(远程站点上不存在的文件)。 这个选项
仅在基于目录使用时有效 同步 模式。 与基于 URL 的一起使用时
同步模式,pavuk 不会删除从文档中排除的任何旧文件
树,并没有在任何 HTML 文档中引用。 您还必须使用选项
-子目录, 让 pavuk 找到属于当前镜像的文件。 作为默认 pavuk
不会删除任何旧文件。
-浏览器 $海峡
用于设置浏览器命令(在 URL 树对话框中,您可以使用右键单击
提升菜单,从中您可以在实际选择的 URL 上启动浏览器)。 这个
选项仅在使用 GTK GUI 编译并支持 URL 树时可用
预习。
-调试/-nodebug
打开调试消息的显示。 此选项仅在编译时可用
带有 -DDEBUG。 如果使用了 -debug 选项,pavuk 将输出关于
文档、整个协议级别信息、锁定信息等(取决于
on -调试级别 设置)。 此选项就像触发器一样用于启用输出
选择的调试消息 -调试级别 选项。 默认是调试模式关闭。
-调试级别 $级别
设置所需调试信息的级别。 $级别 可以是数值
表示请求的调试级别的二进制掩码,或逗号分隔的列表
支持的调试级别。 目前 pavuk 支持以下调试级别:
HTML - 用于 HTML 解析器调试
原始人 - 查看服务器端协议消息
协议 - 查看客户端协议消息
过程 - 查看一些特殊程序调用
锁 - 用于调试文档锁定
净 - 用于调试一些低级网络内容
杂项 - 用于其他未分类的调试消息
用户 - 用于详细的用户级消息
所有 - 请求所有当前支持的调试级别
联锁 - 多线程环境中的资源锁定
月度 - 在多线程环境中启动/弱化/休眠/停止线程
原型 - 用于 POST 请求的调试
范围 - 对于调试限制选项,您将看到特定的原因
URL 被 pavuk 拒绝以及哪个选项导致了这种情况。
SSL - 启用有关 SSL 相关内容的详细报告。
-remind_cmd $海峡
此选项仅在运行 pavuk 时有效 提醒 模式。 命令
使用此选项指定 pavuk 发送运行提醒模式的结果。 有
列出已更改的 URL 和有任何错误的 URL。 默认提醒
命令是 "mailx user@server -s \"pavuk 提醒结果\""。
-nscache_dir $目录
Netscape 浏览器缓存目录的路径。 如果您指定此路径,pavuk 会尝试
找出您在此缓存中是否有 URL。 如果 URL 在那里,它将被其他方式获取
pavuk 将从网上下载它。 缓存目录索引文件必须命名
索引文件 并且必须位于缓存目录中。 为了支持这个功能,
pavuk 必须与 BerkeleyDB 1.8x 链接。
-mozcache_dir $目录
Mozilla 浏览器缓存目录的路径。 与之前的功能相同
选项,仅适用于具有不同缓存格式的不同浏览器。 帕武克支持
Mozilla 浏览器磁盘缓存的两种格式(旧版本 <0.9 和新版本用于
0.9=<)。 旧格式缓存目录必须包含缓存目录索引数据库
有名字 缓存文件. 那么新的格式缓存目录必须包含地图文件
_缓存地图_, 和三个块文件 _缓存_001_, _缓存_002_, _缓存_003_。 至
支持旧的 Mozilla 缓存格式,pavuk 必须与 BerkeleyDB 1.8x 链接。 新的
Mozilla 缓存格式不需要任何外部库。
-post_cmd $海峡
后处理命令,下载成功后执行
文档。 此命令可能会以某种方式处理文档。 跑步期间
这个命令,pavuk 将实际文档锁定,所以不可能有一些
其他 pavuk 进程将修改文件。 这个后处理命令将得到
来自 pavuk 的三个附加参数。
- 文件的本地名称
- 1/0 1 如果文档是 HTML 文档,0 如果不是
- 本文档的原始 URL
-hack_add_index/-nohack_add_index
这是一个有点hacky的选择。 它强制 pavuk 添加到 URL 队列和目录
所有排队文档的索引。 这允许 pavuk 下载更多文件
站点,而不是在正常遍历 HTML 文档时能够实现的。 有点脏
但在某些情况下很有用。
-js_脚本_文件 $文件
Pavuk 有可选的内置 JavaScript 解释器以允许高级别的
一些内部程序的定制。 目前您可以自定义
用你自己的 JavaScript 函数做两件事。 您可以使用它来设置精确
限制选项,或者您可以编写自己的函数,这些函数可以在规则中使用
-规则 选项。 使用此选项,您可以加载带有函数的 JavaScript 脚本
进入 pavuks 内部 JavaScript 解释器。 要了解有关此功能的更多信息
读取单独的文档 jsbind.txt,它与顶层的 pavuk 源一起提供
目录。 此选项仅在您编译带有支持的 pavuk 时可用
用于 JavaScript 绑定。
退出 状态
从 0.9pl29 版本开始,pavuk 通过退出代码更改了状态指示。 在早些时候
版本退出状态 0 表示没有错误,非零退出状态类似于计数
失败的文件。 在 0.0pl29 之后的所有版本中,定义了以下退出代码:
0 - 没有错误,一切正常
1 - pavuk 选项配置错误或
配置文件中的错误
2 - 下载文件时出现错误
环境 变数
USER 变量用于根据用户和主机名构造电子邮件地址
LC_* or 朗
用于设置国际化环境
PAVUKRC_FILE文件
使用此变量,您可以为您的 pavukrc 指定替代位置
配置文件。
所需 外部 美加学院课程
at 用于调度。
拉链 用于解码 gzip 或压缩编码文档。
错误
如果你找到了,请告诉我。
使用 onworks.net 服务在线使用 pavuk