这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 tesseract,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
tesseract - 命令行 OCR 引擎
概要
正方体 图像名称|标准输入 产出基地|标准输出 [选项...] [配置文件...]
商品描述
正方体(1) 是 HP 于 1985 年间最初开发的商用质量 OCR 引擎
和1995年。1995年,该发动机被UNLV评为前三名。 它是开源的
由 HP 和 UNLV 于 2005 年开发,此后一直由 Google 开发。
进出 争论
图像名称
输入图像的名称。 大多数图像文件格式(Leptonica 可读的任何格式)
支持。
标准输入
从标准输入读取数据的指令
产出基地
输出文件的基本名称(将附加适当的扩展名)。
默认情况下,输出将命名为 外库.txt.
标准输出
将输出数据发送到标准输出的指令
配置
--tessdata-目录 /路径
指定tessdata路径的位置
--用户词 /路径/到/文件
指定用户词文件的位置
--用户模式 /路径/到/文件 指定
用户模式文件的位置
-c 配置变量=值
设置控制参数值。 允许多个 -c 参数。
-l 郎
要使用的语言。 如果没有指定,则假定为英语。 多种语言可能
指定,用加号分隔。 Tesseract 使用 3 个字符的 ISO 639-2
语言代码。 (见语言)
-psm N
将 Tesseract 设置为仅运行布局分析的一个子集并假设某种形式的布局分析
图片。 的选项 N 是:
0 = 仅方向和脚本检测 (OSD)。
1 = 带有 OSD 的自动页面分割。
2 = 自动页面分割,但没有 OSD 或 OCR。
3 = 全自动页面分割,但没有 OSD。 (默认)
4 = 假设有一列大小可变的文本。
5 = 假设有一个统一的垂直对齐文本块。
6 = 假设有一个统一的文本块。
7 = 将图像视为单个文本行。
8 = 将图像视为单个单词。
9 = 将图像视为圆圈中的单个单词。
10 = 将图像视为单个字符。
配置文件
要使用的配置的名称。 配置是一个纯文本文件,其中包含一个列表
变量及其值,每行一个,用空格分隔变量和值。
有趣的配置文件包括:
· hocr - 以 hOCR 格式输出,而不是作为文本文件。
· pdf - 以 pdf 格式输出,而不是文本文件。
注意 贝恩: 选项 -l 郎 和 -psm N 必须发生在任何 配置文件.
单盒 配置
-v
返回当前版本 正方体(1) 可执行。
--列表语言
列出 tesseract 引擎的可用语言。 可以与 --tessdata-dir 一起使用。
--打印参数
将 tesseract 参数打印到标准输出。
语言
目前有以下语言的语言包(在
https://github.com/tesseract-ocr/tessdata):
AFR (南非荷兰语) 嗯 (阿姆哈拉语) 中间 (阿拉伯) ASM (阿萨姆语) 阿塞拜疆 (阿塞拜疆语) aze_cyrl
(阿塞拜疆 - 西里尔文) 贝尔 (白俄罗斯语) 本 (孟加拉) 点 (藏) BOS (波斯尼亚语) BUL
(保加利亚语) 猫 (加泰罗尼亚语;巴伦西亚语) CEB (宿雾语) CES (捷克语) 模拟卡 (中国人 -
简化) 奇特拉 (中国传统的) CHR (切诺基) ym (威尔士语) 担 (丹麦文)
丹弗拉克 (丹麦语 - Fraktur) 申 (德语) 德乌弗拉克 (德语 - Fraktur) 佐 (宗喀语) ELL
(希腊语,现代(1453-)) ENG (英文) 恩 (英语,中 (1100-1500)) EPO (世界语)
EQU (数学/方程检测模块) 是 (爱沙尼亚语) EUS (巴斯克) FAS (波斯语) 结束
(芬兰) FRA (法文) FRK (法兰克语) FRM (法国,中部(约 1400-1600)) GLE (爱尔兰语) GLG
(加利西亚语) GRC (希腊语,古代(至 1453 年)) GUJ (古吉拉特语) 帽子 (海地;海地克里奥尔语) 希伯来书
(希伯来语) ^ h (印地语) HRV (克罗地亚语) 匈奴 (匈牙利) 伊库 (因纽特语) 工业 (印度尼西亚) ISL
(冰岛的) ITA (意大利语) 旧版 (意大利语 - 旧) JAV (爪哇语) 日本 (日本) 可以
(卡纳达语) 吉 (格鲁吉亚语) 老 (格鲁吉亚语 - 旧) 哈萨克斯坦 (哈萨克) hm (中高棉) 基尔
(吉尔吉斯语;吉尔吉斯语) 奶牛 (韩文) 库尔 (库尔德) 老挝 (老挝语) 纬度 (拉丁) 盥洗室 (拉脱维亚语) 床
(立陶宛语) 时 (马拉雅拉姆语) 损伤 (马拉地语) k (马其顿语) t (马耳他语) MSA (马来语) 妙
(缅甸语) 不 (尼泊尔) 全国人大 (荷兰语;佛兰芒语) 也不 (挪威) ORI (奥里亚) OSD (方向
和脚本检测模块) 锅 (旁遮普语;旁遮普语) 极 (抛光) 由 (葡萄牙语) 脓
(普什图语;普什图语) 罗恩 (罗马尼亚语;摩尔多瓦语;摩尔多瓦语) 病毒 (俄语) 圣 (梵文) 无
(僧伽罗语;僧伽罗语) SLK (斯洛伐克文) slk_frak (斯洛伐克语 - Fraktur) SLV (斯洛文尼亚语) 温泉
(西班牙语;卡斯蒂利亚语) 水疗旧 (西班牙语;卡斯蒂利亚语 - 旧) qi (阿尔巴尼亚语) SRP (塞尔维亚)
srp_latn (塞尔维亚语 - 拉丁语) 或 (斯瓦希里语) we (瑞典) 锡尔 (叙利亚语) 担 (泰米尔语) 联系电话
(泰卢固语) g (塔吉克) g (他加禄语) THA (泰国) TIR (提格里尼亚语) TUR (土耳其) 威格 (维吾尔;
维吾尔语) 乌克兰 (乌克兰) 南台 (乌尔都语) 乌兹别克斯坦 (乌兹别克语) 乌兹布_西尔 (乌兹别克语 - 西里尔文) 争夺 (越南文)
id (Y语)
使用名为的非标准语言包 foo.traineddata,设置 TESSDATA_PREFIX
环境变量,因此可以在以下位置找到该文件 TESSDATA_PREFIX/测试数据/FOO.traineddata
并给 Tesseract 论证 -l FOO.
配置 FILES AND 增强 与 USER 数据
Tesseract 配置文件由带有变量值对(空格分隔)的行组成。 这
变量在源代码中被记录为标志,如下所示
tesseractclass.h:
STRING_VAR_H(tessedit_char_blacklist, "", "无法识别的字符黑名单");
这些变量可以启用或禁用引擎的各种功能,并可能导致它
加载(或不加载)各种数据。 例如,假设您想用英语进行 OCR,
但抑制普通词典并加载替代单词列表和替代
模式列表——这两个文件是最常用的额外数据文件。
如果您的语言包在 /path/to/eng.traineddata 中并且 hocr 配置在
/path/to/configs/hocr 然后创建三个新文件:
/path/to/eng.user-words:
此
快
棕色
狐狸
跳下
/path/to/eng.user 模式:
1-\d\d\d-GOOG-411
www.\n\\\*.com
/path/to/configs/集市:
load_system_dawg F
load_freq_dawg F
user_words_suffix 用户词
user_patterns_suffix 用户模式
现在,如果你传递这个词 市场 作为 Tesseract 的尾随命令行参数,
Tesseract 不会费心加载系统字典或频繁的字典
words 并将加载和使用您提供的 eng.user-words 和 eng.user-patterns 文件。
前者是一个简单的单词表,每行一个。 后者的格式记录在
read_pattern_list() 上的 dict/trie.h。
历史
该引擎是在 Hewlett Packard Laboratories Bristol 和 Hewlett Packard 开发的
Co, Greeley Colorado 于 1985 年至 1994 年间,1996 年进行了更多更改以移植到
Windows 和 1998 年的一些 C++ 化。很多代码是用 C 编写的,然后还有一些
是用 C++ 写的。 C\++ 代码大量使用使用宏的列表系统。 这个
早于 stl,在 stl 之前是可移植的,并且比 stl 列表更有效,但具有
很大的负面影响,如果您确实遇到分段违规,则很难调试。
2.00 版带来了 Unicode (UTF-8) 支持、六种语言和训练能力
立方体。
Tesseract 被纳入 UNLV 的第四次 OCR 准确性年度测试。 看
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. 使用 Tesseract 2.00,
现在包含脚本以允许任何人重现其中的一些测试。 看
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract ,了解更多详情。
Tesseract 3.00 添加了许多新语言,包括中文、日语和韩语。 它
还引入了一种新的、基于单文件的语言数据管理系统。
Tesseract 3.02 增加了双向文本支持,能够识别多个
单个图像中的语言,并改进了布局分析。
有关更多详细信息,请参阅发行版中包含的文件 ReleaseNotes。
资源
主要网站: https://github.com/tesseract-ocr 培训信息:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
使用 onworks.net 服务在线使用 tesseract