这是 pdf2htmlEX 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
pdf2htmlEX - 在不丢失文本和格式的情况下将 PDF 转换为 HTML。
用法
pdf2htmlEX [选项] [ ]
商品描述
pdf2htmlEX 是一个将 PDF 文件转换为 HTML 文件的实用程序。
pdf2htmlEX 尽最大努力精确呈现 PDF,保持适当的样式,同时
保留文本并针对 Web 进行优化。
字体从 PDF 中提取出来,然后嵌入到 HTML 中,转换后的 HTML 文件中的文本
通常是可选择和可复制的。
其他对象呈现为图像并嵌入。
配置
前往
-F, - 第一页 (默认: 1)
指定要处理的第一页
-l, - 最后一页 (默认: 最后 页)
指定要处理的最后一页
尺寸
- 飞涨 , --适合宽度 , --适合高度
--zoom 直接指定缩放系数; --fit-width/height 指定最大值
页面的宽度/高度,值以像素为单位。
如果指定了多个值,则将使用最小的一个。
如果没有指定,页面将呈现为 72DPI。
--使用裁剪框 <0|1> (默认: 1)
使用 CropBox 而不是 MediaBox 进行输出。
--hdpi , --vdpi (默认: 144)
指定图像的水平和垂直 DPI
输出
--嵌入
--嵌入CSS <0|1> (默认: 1)
--嵌入字体 <0|1> (默认: 1)
--嵌入图像 <0|1> (默认: 1)
--嵌入-javascript <0|1> (默认: 1)
--嵌入大纲 <0|1> (默认: 1)
指定应将哪些元素嵌入到输出 HTML 文件中。
如果关闭,分离的文件将与 HTML 文件一起生成
相应的元素。
--embed 接受一个字符串作为参数。 字符串的每个字母必须是以下之一
`cCfFiIjJoO`,对应于 --embed-*** 开关之一。 小写
0 的字母和 1 的大写字母。例如,`--embed cFIJo` 表示
嵌入除 CSS 文件和轮廓之外的所有内容。
--分页 <0|1> (默认: 0)
如果打开,每个页面的内容都存储在一个单独的文件中。
如果您希望单独和动态加载页面,则此开关很有用 -- a
可能需要支持服务器。
另请参阅--page-filename。
--目标目录 (默认: .)
指定目标文件夹。
--css-文件名 (默认: )
如果未嵌入,请指定生成的 css 文件的文件名。
如果为空,文件名将自动确定。
--页面文件名 (默认: )
当 --split-pages 为 1 时指定页面的文件名模板
%d 占位符可以包含在 `filename` 中以指示页码的位置
应该放置。 占位符支持正常数字的有限子集
占位符,包括指定的宽度和零填充。
如果 `filename` 不包含页码占位符,则页码
将直接插入文件扩展名之前。 如果文件名没有
扩展名,页码将放在文件名的末尾。
如果未指定 --page-filename, 将用于输出
文件名,用.page替换扩展名并直接添加页码
在延长之前。
例子
pdf2htmlEX --分页 1 foo.pdf
生成页面文件 foo1.page、foo2.page 等。
pdf2htmlEX --分页 1 foo.pdf --页面文件名 酒吧.baz
生成页面文件 bar1.baz、bar2.baz 等。
pdf2htmlEX --分页 1 foo.pdf --页面文件名 页%dbar.baz
生成页面文件 page1bar.baz、page2bar.baz 等。
pdf2htmlEX --分页 1 foo.pdf --页面文件名 栏%03d.baz
生成页面文件 bar001.baz、bar002.baz 等。
--outline-文件名 (默认: )
如果未嵌入,请指定生成的大纲文件的文件名。
如果为空,文件名将自动确定。
--过程非文本 <0|1> (默认: 1)
是否处理非文本对象(作为图像)
--流程大纲 <0|1> (默认: 1)
是否在生成的 HTML 中显示轮廓
--process-注解 <0|1> (默认: 0)
是否在生成的 HTML 中显示注释
--流程表单 <0|1> (默认: 0)
是否在生成的 HTML 中包含文本字段和单选按钮
- 印刷 <0|1> (默认: 1)
启用打印支持。 禁用此选项可能会减小 CSS 的大小。
- 倒退 <0|1> (默认: 0)
以回退模式输出,以获得更好的准确性和浏览器兼容性,但
尺寸变大。
--tmp 文件大小限制 (默认: -1)
这限制了临时文件的总大小(以 KB 为单位),这也将限制
输出文件的总大小。 这是一个估计值,它会在一页后停止,
一旦总临时文件大小大于此数字。
-1 表示没有限制并且是默认值。
字体
--嵌入外部字体 <0|1> (默认: 1)
指定本地匹配的字体,对于未嵌入 PDF 的字体,是否应为
嵌入到 HTML 中。
如果此开关关闭,则仅导出字体名称,以便 Web 浏览器可以尝试
自己找到合适的字体,这可能会导致字体不正确的问题
指标。
--字体格式 (默认: 哇)
指定从 PDF 文件中提取的字体格式。
--分解-连字 <0|1> (默认: 0)
分解连字。 例如'fi' -> 'f''i'。
--自动提示 <0|1> (默认: 0)
如果设置为 1,将使用 FontForge 为字体生成提示。
这可能以 --external-hint-tool 开头。
--外部提示工具 (默认: )
如果指定,将调用该工具以增强字体提示,这
将在 --auto-hint 之前。
该工具将被称为“ ', 后缀在哪里
与为 --font-format 指定的相同。
--拉伸-窄字形 <0|1> (默认: 0)
如果设置为 1,则比 PDF 中描述的字形更窄的字形将被拉伸; 除此以外
空格将填充到字形的右侧
--squeeze-wide-字形 <0|1> (默认: 1)
如果设置为 1,则比 PDF 中描述的更宽的字形将被压缩; 否则它会
被截断。
--覆盖-fstype <0|1> (默认: 0)
清除 TTF/OTF 字体中的 fstype 位。
如果 Internet Explorer 抱怨“权限必须可安装”,请打开此选项
并且您有权这样做。
--进程类型3 <0|1> (默认: 0)
如果打开,pdf2htmlEX 将尝试转换 Type 3 字体,以便文本可以
在 HTML 中原生呈现。 否则所有带有 Type 3 字体的文本都将被渲染
作为图像。
此功能是高度实验性的。
文本
--heps , --veps (默认: 1)
指定最大容许水平/垂直偏移(以像素为单位)。
pdf2htmlEX 会尝试优化生成的 HTML 文件,在这个文件中移动文本
距离。
--空间阈值 (默认: 0.125)
pdf2htmlEX 将插入一个空白字符 ' ' 如果两个之间的距离
同一行中的连续字母比 ratio * font_size 宽。
--字体大小乘数 (默认: 4.0)
许多网络浏览器限制最小字体大小,许多浏览器会将给定的字体四舍五入
大小,这会导致不正确的渲染。
指定大于 1 的比率将解决此问题,但它可能会冻结
一些浏览器。
但是对于某些版本的 Firefox,字体大小时会出现问题
太大,在这种情况下,应在此处指定较小的值。
--空间作为偏移量 <0|1> (默认: 0)
如果设置为 1,空格字符将被视为偏移量,这样可以更好地
优化。
对于编码错误的 PDF 文件,打开此选项可能会导致丢失
字符。
--tounicode <-1|0|1> (默认: 0)
可以为 PDF 中的每种字体提供 ToUnicode 映射,指示“含义”
的字符。 但是通常在类型 0/1 中有更好的“ToUnicode”信息
字体,有时提供的 ToUnicode 映射是错误的。 如果此值设置为
1、ToUnicode Map 始终适用,如果以 PDF 格式提供,则字符可能不适用
如果存在冲突,则在 HTML 中正确呈现。
如果设置为 -1,则使用自定义地图,以便在 HTML 中正确呈现
(视觉上相同),但您可能无法通过 select & copy & 获得正确的字符
糊。
如果设置为 0,pdf2htmlEX 会尽量平衡上述两种方法。
--优化文本 <0|1> (默认: 0)
如果设置为 1,pdf2htmlEX 将尝试减少用于
文本。 如果出现任何问题,请将其关闭。
--正确的文本可见性 <0|1> (默认: 0)
如果设置为 1,pdf2htmlEX 将尝试检测被其他图形覆盖的文本并
正确排列它们,即覆盖的文本在文本层中变得透明,并且
绘制在背景层上。
背景 图片
--bg-格式 (默认: .png)
指定背景图像格式。 运行 `pdf2htmlEX -v` 以检查所有支持
格式。
--svg-节点计数限制 (默认: -1)
如果 svg 背景图像中的节点数超过此限制,则将此页面回退到
位图背景; 负值表示没有限制。 此选项仅在以下情况下有用
'--bg-format svg' 已指定。 注意svg中的节点数只是计算出来的
大约。
--svg-embed-位图 <0|1> (默认: 1)
是否在 svg 背景图像中嵌入位图。 1:在svg背景中嵌入位图;
0:如果可能,将位图转储到外部文件。
此选项仅在指定 '--bg-format svg' 和 '--embed-image' 时有用
已关闭。
目前,可以转储 PDF 中的 RGB 或灰色 JPEG 位图,而其他格式的位图
格式或色彩空间仍然嵌入。 如果位图没有按预期转储,
尝试通过 ghostscript 或 acrobat 预处理您的 PDF 并确保其中包含位图
转换为 RGB/Gray JPEG 格式。 有关更多详细信息,请参阅项目 wiki。
PDF 防护
-o, --所有者密码
指定所有者密码
-你, - 用户密码
指定用户密码
--无DRM <0|1> (默认: 0)
覆盖文档 DRM 设置
仅在您获得许可时才启用此功能。
杂项。
--clean-tmp <0|1> (默认: 1)
如果关闭,则最终不会清除中间文件。
--数据目录 (默认: /usr/share/pdf2htmlEX)
指定保存清单和其他文件的文件夹(请参阅下面的清单
文件)`
--tmp-目录 (默认: / tmp目录 or $ TMPDIR if 组)
指定用于临时文件的临时文件夹
--css-绘制 <0|1> (默认: 0)
实验性和不受支持的 CSS 绘图
-调试 <0|1> (默认: 0)
打印调试信息。
- 证明 <0|1|2> (默认: 0)
输出证明版本。 如果指定了正值,则文本会同时绘制在两个
用于比较的文本层和背景图像。 如果指定了 2,则文本
背景是不同的颜色。 如果使用 png/jpg 背景格式,则更高
建议使用 hdpi/vdpi(例如 288)以提高可读性。
元
-v, - 版
打印版权和版本信息
- 帮帮我 打印使用信息
表现 和 数据目录
当 split-pages 为 0 时,清单文件描述了最终的 html 页面应该如何
产生。
默认情况下,pdf2htmlEX 将使用默认数据目录中的清单(运行`pdf2htmlEX -v`
检查),它给出了其语法的简单演示。
您可以修改默认的,也可以创建一个新的并指定正确的
命令行中的数据目录。
清单引用的所有文件都必须位于数据目录中。
例
pdf2htmlEX /路径/到/file.pdf
将 file.pdf 转换为 file.html
pdf2htmlEX --clean-tmp 0 -调试 1 /路径/到/file.pdf
转换 file.pdf 并保留所有中间文件。
pdf2htmlEX --目标目录 输出 --嵌入 fi /路径/到/file.pdf
将 file.pdf 转换为 out/file.html 并将字体/图像文件分开。
版权
版权所有 2012,2013 鲁王[电子邮件保护]>
pdf2htmlEX 在 GPLv3 下获得许可,并附有附加条款,详情请阅读许可。
使用 onworks.net 服务在线使用 pdf2htmlEX