Englishํ”„๋ž‘์Šค์–ด์ŠคํŽ˜์ธ์–ด

์˜จ์›์Šค ํŒŒ๋น„์ฝ˜

tesseract - ํด๋ผ์šฐ๋“œ ์˜จ๋ผ์ธ

Ubuntu Online, Fedora Online, Windows ์˜จ๋ผ์ธ ์—๋ฎฌ๋ ˆ์ดํ„ฐ ๋˜๋Š” MAC OS ์˜จ๋ผ์ธ ์—๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ†ตํ•ด OnWorks ๋ฌด๋ฃŒ ํ˜ธ์ŠคํŒ… ๊ณต๊ธ‰์ž์—์„œ tesseract ์‹คํ–‰

์ด๊ฒƒ์€ Ubuntu Online, Fedora Online, Windows ์˜จ๋ผ์ธ ์—๋ฎฌ๋ ˆ์ดํ„ฐ ๋˜๋Š” MAC OS ์˜จ๋ผ์ธ ์—๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ๊ฐ™์€ ์—ฌ๋Ÿฌ ๋ฌด๋ฃŒ ์˜จ๋ผ์ธ ์›Œํฌ์Šคํ…Œ์ด์…˜ ์ค‘ ํ•˜๋‚˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ OnWorks ๋ฌด๋ฃŒ ํ˜ธ์ŠคํŒ… ๊ณต๊ธ‰์ž์—์„œ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ช…๋ น tesseract์ž…๋‹ˆ๋‹ค.

ํ”„๋กœ๊ทธ๋žจ:

์ด๋ฆ„


tesseract - ๋ช…๋ น์ค„ OCR ์—”์ง„

๊ฐœ์š”


ํ…Œ์„ธ ๋ž™ํŠธ ์ด๋ฏธ์ง€ ์ด๋ฆ„|ํ‘œ์ค€ ์ถœ๋ ฅ๋ฒ ์ด์Šค|ํ‘œ์ค€ ์ถœ๋ ฅ [์˜ต์…˜...] [๊ตฌ์„ฑ ํŒŒ์ผ...]

๊ธฐ์ˆ 


ํ…Œ์„ธ ๋ž™ํŠธ(1)์€ ์›๋ž˜ 1985๋…„ ์‚ฌ์ด์— HP์—์„œ ๊ฐœ๋ฐœ๋œ ์ƒ์šฉ ํ’ˆ์งˆ OCR ์—”์ง„์ž…๋‹ˆ๋‹ค.
1995๋…„์— ์ด ์—”์ง„์€ UNLV์—์„œ ํ‰๊ฐ€ํ•œ ์ƒ์œ„ 1995๊ฐœ ์—”์ง„ ์ค‘ ํ•˜๋‚˜์˜€์Šต๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค์˜€์Šต๋‹ˆ๋‹ค
2005๋…„์— HP์™€ UNLV์— ์˜ํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ ๊ทธ ์ดํ›„๋กœ Google์—์„œ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ž… / ์ถœ๋ ฅ ์ธ์ˆ˜


์ด๋ฏธ์ง€ ์ด๋ฆ„
์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์ด๋ฆ„์ž…๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ด๋ฏธ์ง€ ํŒŒ์ผ ํ˜•์‹(Leptonica์—์„œ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ํ˜•์‹)
์ง€์›๋ฉ๋‹ˆ๋‹ค.

ํ‘œ์ค€
ํ‘œ์ค€ ์ž…๋ ฅ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ๋Š” ๋ช…๋ น์–ด

์ถœ๋ ฅ๋ฒ ์ด์Šค
์ถœ๋ ฅ ํŒŒ์ผ์˜ ๊ธฐ๋ณธ ์ด๋ฆ„(์ ์ ˆํ•œ ํ™•์žฅ์ž๊ฐ€ ์ถ”๊ฐ€๋จ).
๊ธฐ๋ณธ์ ์œผ๋กœ ์ถœ๋ ฅ ์ด๋ฆ„์€ ์•„์›ƒ๋ฒ ์ด์Šค.txt.

ํ‘œ์ค€ ์ถœ๋ ฅ
์ถœ๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œ์ค€ ์ถœ๋ ฅ์œผ๋กœ ๋ณด๋‚ด๋Š” ๋ช…๋ น์–ด

์˜ต์…˜


--tessdata-dir /๊ธธ
tessdata ๊ฒฝ๋กœ์˜ ์œ„์น˜ ์ง€์ •

--์‚ฌ์šฉ์ž ๋‹จ์–ด /๊ฒฝ๋กœ/๋Œ€์ƒ/ํŒŒ์ผ
์‚ฌ์šฉ์ž ๋‹จ์–ด ํŒŒ์ผ์˜ ์œ„์น˜ ์ง€์ •

--์‚ฌ์šฉ์ž ํŒจํ„ด /๊ฒฝ๋กœ/๋Œ€์ƒ/ํŒŒ์ผ ์ง€์ •ํ•˜๋‹ค
์‚ฌ์šฉ์ž ํŒจํ„ด ํŒŒ์ผ์˜ ์œ„์น˜

-c ๊ตฌ์„ฑ ๋ณ€์ˆ˜=๊ฐ’
์ œ์–ด ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ฐ’์„ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ -c ์ธ์ˆ˜๊ฐ€ ํ—ˆ์šฉ๋ฉ๋‹ˆ๋‹ค.

-l ๋žญ
์‚ฌ์šฉํ•  ์–ธ์–ด์ž…๋‹ˆ๋‹ค. ์•„๋ฌด๊ฒƒ๋„ ์ง€์ •ํ•˜์ง€ ์•Š์œผ๋ฉด ์˜์–ด๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์–ธ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋”ํ•˜๊ธฐ ๋ฌธ์ž๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ์ง€์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Tesseract๋Š” 3์ž ISO 639-2๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
์–ธ์–ด ์ฝ”๋“œ. (์–ธ์–ด ์ฐธ์กฐ)

-psm N
๋ ˆ์ด์•„์›ƒ ๋ถ„์„์˜ ํ•˜์œ„ ์ง‘ํ•ฉ๋งŒ ์‹คํ–‰ํ•˜๋„๋ก Tesseract๋ฅผ ์„ค์ •ํ•˜๊ณ 
์˜์ƒ. ์˜ต์…˜ N ์œ„์น˜ :

0 = ๋ฐฉํ–ฅ ๋ฐ ์Šคํฌ๋ฆฝํŠธ ๊ฐ์ง€(OSD)๋งŒ.
1 = OSD๋ฅผ ์‚ฌ์šฉํ•œ ์ž๋™ ํŽ˜์ด์ง€ ๋ถ„ํ• .
2 = ์ž๋™ ํŽ˜์ด์ง€ ๋ถ„ํ• , OSD ๋˜๋Š” OCR ์—†์Œ.
3 = ์™„์ „ ์ž๋™ ํŽ˜์ด์ง€ ๋ถ„ํ• ์ด์ง€๋งŒ OSD๋Š” ์—†์Šต๋‹ˆ๋‹ค. (๊ธฐ๋ณธ)
4 = ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋‹จ์ผ ํ…์ŠคํŠธ ์—ด์„ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
5 = ์„ธ๋กœ๋กœ ์ •๋ ฌ๋œ ๋‹จ์ผ ํ…์ŠคํŠธ ๋ธ”๋ก์„ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
6 = ํ•˜๋‚˜์˜ ๊ท ์ผํ•œ ํ…์ŠคํŠธ ๋ธ”๋ก์„ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
7 = ์ด๋ฏธ์ง€๋ฅผ ๋‹จ์ผ ํ…์ŠคํŠธ ์ค„๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
8 = ์ด๋ฏธ์ง€๋ฅผ ๋‹จ์ผ ๋‹จ์–ด๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
9 = ์ด๋ฏธ์ง€๋ฅผ ์› ์•ˆ์˜ ๋‹จ์ผ ๋‹จ์–ด๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
10 = ์ด๋ฏธ์ง€๋ฅผ ๋‹จ์ผ ๋ฌธ์ž๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

๊ตฌ์„ฑ ํŒŒ์ผ
์‚ฌ์šฉํ•  ๊ตฌ์„ฑ์˜ ์ด๋ฆ„์ž…๋‹ˆ๋‹ค. ๊ตฌ์„ฑ์€ ๋‹ค์Œ ๋ชฉ๋ก์„ ํฌํ•จํ•˜๋Š” ์ผ๋ฐ˜ ํ…์ŠคํŠธ ํŒŒ์ผ์ž…๋‹ˆ๋‹ค.
๋ณ€์ˆ˜์™€ ํ•ด๋‹น ๊ฐ’์„ ํ•œ ์ค„์— ํ•˜๋‚˜์”ฉ, ๋ณ€์ˆ˜์™€ ๊ฐ’์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ณต๋ฐฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
ํฅ๋ฏธ๋กœ์šด ๊ตฌ์„ฑ ํŒŒ์ผ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

ยท hocr - ํ…์ŠคํŠธ ํŒŒ์ผ ๋Œ€์‹  hOCR ํ˜•์‹์œผ๋กœ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

ยท pdf - ํ…์ŠคํŠธ ํŒŒ์ผ ๋Œ€์‹  pdf๋กœ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์˜ ๋ฒ ๋„ค : ์˜ต์…˜ -l ๋žญ and -psm N ์–ด๋–ค ๊ฒƒ๋ณด๋‹ค ๋จผ์ € ๋ฐœ์ƒํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์„ฑ ํŒŒ์ผ.

SINGLE ์˜ต์…˜


-v
์˜ ํ˜„์žฌ ๋ฒ„์ „์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ํ…Œ์„ธ ๋ž™ํŠธ(1) ์‹คํ–‰ ๊ฐ€๋Šฅ.

--๋ชฉ๋ก-์–ธ์–ด
tesseract ์—”์ง„์— ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์–ธ์–ด๋ฅผ ๋‚˜์—ดํ•ฉ๋‹ˆ๋‹ค. --tessdata-dir๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

--์ธ์‡„ ๋งค๊ฐœ๋ณ€์ˆ˜
tesseract ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ stdout์— ์ธ์‡„ํ•ฉ๋‹ˆ๋‹ค.

์–ธ์–ด


ํ˜„์žฌ ๋‹ค์Œ ์–ธ์–ด์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด ํŒฉ์ด ์žˆ์Šต๋‹ˆ๋‹ค(์—์„œ
https://github.com/tesseract-ocr/tessdata):

afr (์•„ํ”„๋ฆฌ์นด ์–ด) ์•” (์•”ํ•˜๋ผ ์–ด) ์•„๋ผ (์•„๋ผ๋น„์•„ ๋ง) asm (์•„์Œˆ์–ด) ์•„์ฆˆ (์•„์ œ๋ฅด๋ฐ”์ด์ž”) aze_cyrl
(์•„์ œ๋ฅด๋ฐ”์ด์ž”์–ด - ํ‚ค๋ฆด ๋ฌธ์ž) ๋ฒจ (๋ฒจ๋กœ๋ฃจ์‹œ์–ด) ๋ฒค (๋ฒต๊ณจ ์‚ฌ๋žŒ) ๋ชธ๋งค (ํ‹ฐ๋ฒ ํŠธ์–ด) BOS (๋ณด์Šค๋‹ˆ์•„์–ด) bul
(๋ถˆ๊ฐ€๋ฆฌ์•„ ์‚ฌ๋žŒ) ๋ฐฉ๋ฒ• (์นดํƒˆ๋กœ๋‹ˆ์•„์–ด, ๋ฐœ๋ Œ์‹œ์•„์–ด) ceb (์„ธ๋ถ€์•„๋…ธ) CES (์ฒด์ฝ” ์‚ฌ๋žŒ) chi_sim (์ค‘๊ตญ์ธ -
์‰ฝ๊ฒŒ ํ•œ) ์น˜_ํŠธ๋ผ (์ค‘๊ตญ ์ „ํ†ต) chr (์ฒด๋กœํ‚ค) ์‹ฌ๋ฒŒ์ฆˆ (์›จ์ผ์Šค ๋ง) ๋‹จ (๋ด๋งˆํฌ ๋ง)
dan_frak (๋ด๋งˆํฌ์–ด - Fraktur) DEU (๋…์ผ์–ด) deu_frak (๋…์ผ์–ด - Fraktur) ์กฐ (์ข…์นด) ์—˜์ž
(๊ทธ๋ฆฌ์Šค, ํ˜„๋Œ€(1453-)) ENG (์˜์–ด) ์—”์—  (์˜์–ด, ์ค‘์„ธ(1100-1500)) ์—ํฌ (์—์ŠคํŽ˜๋ž€ํ†  ๋ง)
๋“ฑ๊ฐ€ (์ˆ˜ํ•™/๋ฐฉ์ •์‹ ๊ฐ์ง€ ๋ชจ๋“ˆ) Nireco์™€ (์—์Šคํ† ๋‹ˆ์•„ ์‚ฌ๋žŒ) ๊ท€ (๋ฐ”์Šคํฌ ์‚ฌ๋žŒ) ์ง€๋ฐฉ (ํŽ˜๋ฅด์‹œ์•„ ์ธ) ์ง€๋Š๋Ÿฌ๋ฏธ
(ํ•€๋ž€๋“œ์–ด) (ํ”„๋ž‘์Šค ๊ตญ๋ฏผ) frk (ํ”„๋ž‘ํฌ์–ด) ํ”„๋กฌ (ํ”„๋ž‘์Šค, ์ค‘์„ธ(ca.1400-1600)) GLE (์•„์ผ๋žœ๋“œ์˜) GLG
(๊ฐˆ๋ฆฌ์‹œ์•„์–ด) ๊ทธ๋ฆฌ์Šค ์–ด (๊ทธ๋ฆฌ์Šค์–ด, ๊ณ ๋Œ€(1453๋…„๊นŒ์ง€)) guj (๊ตฌ์ž๋ผํŠธ์–ด) ๋ชจ์ž (์•„์ดํ‹ฐ์–ด; ์•„์ดํ‹ฐ ํฌ๋ฆฌ์˜ฌ์–ด) b
(ํ—ค๋ธŒ๋ผ์ด ์‚ฌ๋žŒ) ์•„๋ž˜๋กœ (ํžŒ๋”” ์–ด) HRV (ํฌ๋กœ์•„ํ‹ฐ์•„์–ด) ํ›ˆ (ํ—๊ฐ€๋ฆฌ ์ธ) ์ด์ฟ  (์ด๋ˆ„์ดํŠธ์–ด) ์‚ฐ์—… (์ธ๋„๋„ค์‹œ์•„ ์ธ) ์•„์ผ
(์•„์ด์Šฌ๋ž€๋“œ์–ด) ITA (์ดํƒˆ๋ฆฌ์•„ ์‚ฌ๋žŒ) ita_old (์ดํƒˆ๋ฆฌ์•„์–ด - ๊ตฌ) JAV (์ž๋ฐ”์–ด) ์ผ๋ณธ (์ผ๋ณธ์–ด) ๊ด€
(์นธ๋‚˜๋‹ค์–ด) ์บฃ (๊ทธ๋ฃจ์ง€์•ผ ์‚ฌ๋žŒ) kat_old (๊ทธ๋ฃจ์ง€์•ผ์–ด - ๊ตฌ) ์นด์ฆˆ (์นด์žํ์–ด) ํฌํ  (์ค‘๋ถ€ ํฌ๋ฉ”๋ฅด์–ด) ํ‚ค๋ฅด
(Kirghiz; ํ‚ค๋ฅด๊ธฐ์ฆˆ) KOR (ํ•œ๊ตญ์–ด) ์ฟ ๋ฅด (์ฟ ๋ฅด๋“œ์–ด) ๋ผ์˜ค์–ด (๋ผ์˜ค์Šค) ์œ„๋„ (๋ผํ‹ด์–ด) ๋‚ฎ์€ (๋ผํŠธ๋น„์•„ ์‚ฌ๋žŒ) ์นจ๋Œ€
(๋ฆฌํˆฌ์•„๋‹ˆ์•„ ์‚ฌ๋žŒ) ๋ง (๋ง๋ผ์–„๋žŒ์–ด) ์›” (๋งˆ๋ผํ‹ฐ์–ด) mkd (๋งˆ์ผ€๋„๋‹ˆ์•„ ์–ด) ๋ฌผ (๋ชฐํ‹ฐ์ฆˆ) MSA (๋ง๋ ˆ์ด ์‚ฌ๋žŒ) ๋งˆ์ด์•„
(๋ฒ„๋งˆ ์‚ฌ๋žŒ) ๋„คํ”„ (๋„คํŒ”๋ฆฌ) NLD (๋„ค๋œ๋ž€๋“œ์–ด, ํ”Œ๋ž‘๋“œ๋ฅด์–ด) ...๋„ ์•„๋‹ˆ๋‹ค (๋…ธ๋ฅด์›จ์ด ์ธ) ๋˜๋Š” (์˜ค๋ฆฌ์•ผ) OSD (์ •์œ„
๋ฐ ์Šคํฌ๋ฆฝํŠธ ๊ฐ์ง€ ๋ชจ๋“ˆ) ์ ‘์‹œ (ํŒ์žก์–ด; ํŽ€์žก์–ด) ํด (๊ด‘ํƒ) ๋กœ (ํฌ๋ฅดํˆฌ๊ฐˆ ์ธ) ๊ณ ๋ฆ„
(ํ‘ธ์‰ฌํ† ์–ด; ํŒŒ์Šˆํ† ์–ด) ๋ก  (๋ฃจ๋งˆ๋‹ˆ์•„์–ด, ๋ชฐ๋„๋ฐ”์–ด, ๋ชฐ๋„๋ฐ”์–ด) RUS (๋Ÿฌ์‹œ์•„์ธ) ์„ฑ (์‚ฐ์Šคํฌ๋ฆฌํŠธ) ์ฃ„
(์‹ฑํ• ๋ผ์–ด; ์‹ ํ• ๋ผ์–ด) slk (์Šฌ๋กœ๋ฐ”ํ‚ค์•„ ์‚ฌ๋žŒ) slk_frak (์Šฌ๋กœ๋ฐ”ํ‚ค์•„์–ด - Fraktur) SLV (์Šฌ๋กœ๋ฒ ๋‹ˆ์•„) ์˜จ์ฒœ
(์ŠคํŽ˜์ธ์–ด, ์นด์Šคํ‹ฐ์•ผ์–ด) spa_old (์ŠคํŽ˜์ธ์–ด, Castilian - Old) ํ‰ (์•Œ๋ฐ”๋‹ˆ์•„) SRP (์„ธ๋ฅด๋น„์•„ ์‚ฌ๋žŒ)
srp_latn (์„ธ๋ฅด๋น„์•„์–ด - ๋ผํ‹ด์–ด) SWA (์Šค์™€ํž๋ฆฌ์–ด) SWE (์Šค์›จ๋ด์–ด) ์„ ์ƒ๋‹˜ (์‹œ๋ฆฌ์•„) ํƒ (ํƒ€๋ฐ€ ์‚ฌ๋žŒ) ์ „ํ™” ๋ฒˆํ˜ธ
(ํ…”๋ฃจ๊ตฌ์–ด) tgk (ํƒ€์ง) ํ‹ฐ๊ธ€ (ํƒ€๊ฐˆ๋กœ๊ทธ์–ด) ๊ทธ์ชฝ์œผ๋กœ (ํƒœ๊ตญ์–ด) ์‚ฌ๊ฒฉ (ํ‹ฐ๊ทธ๋ฆฌ๋ƒ) ํ„ฐ (ํ„ฐํ‚ค์–ด) ์œ„๊ทธ (์œ„๊ตฌ๋ฅด;
์œ„๊ตฌ๋ฅด) UKR (์šฐํฌ๋ผ์ด๋‚˜ ์ธ) ์šฐ๋ฅด๋ฅด (์šฐ๋ฅด๋‘์–ด) ์šฐ์ฆˆ๋น„ (์šฐ์ฆˆ๋ฒก) uzb_cyrl (์šฐ์ฆˆ๋ฒก์–ด - ํ‚ค๋ฆด ๋ฌธ์ž) ์šฐ์—ด์ด ์—†๋‹ค (๋ฒ ํŠธ๋‚จ ์‚ฌ๋žŒ)
์ด๋“œ (์ด๋””์‹œ์–ด)

์ด๋ฆ„์ด ๋น„ํ‘œ์ค€ ์–ธ์–ด ํŒฉ์„ ์‚ฌ์šฉํ•˜๋ ค๋ฉด foo.traineddata, ์„ค์ • TESSDATA_PREFIX
ํŒŒ์ผ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ํ™˜๊ฒฝ ๋ณ€์ˆ˜ TESSDATA_PREFIX/ํ…Œ์Šค๋ฐ์ดํ„ฐ/ํ‘ธ.traineddata
Tesseract์— ์ธ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. -l ํ‘ธ.

๊ตฌ์„ฑ ํŒŒ์ผ ๋ฐ ์ฆ๊ฐ• ์„ธ์ดํ”„๊ฐ€๋“œ๊ฐ€ USER ๋ฐ์ดํ„ฐ


Tesseract ๊ตฌ์„ฑ ํŒŒ์ผ์€ ๋ณ€์ˆ˜-๊ฐ’ ์Œ(๊ณต๋ฐฑ์œผ๋กœ ๊ตฌ๋ถ„๋จ)์ด ์žˆ๋Š” ์ค„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋งŒํผ
๋ณ€์ˆ˜๋Š” ์†Œ์Šค ์ฝ”๋“œ์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ”Œ๋ž˜๊ทธ๋กœ ๋ฌธ์„œํ™”๋ฉ๋‹ˆ๋‹ค.
tesseractclass.h:

STRING_VAR_H(tessedit_char_blacklist, "", "์ธ์‹ํ•  ์ˆ˜ ์—†๋Š” ๋ฌธ์ž ๋ธ”๋ž™๋ฆฌ์ŠคํŠธ");

์ด๋Ÿฌํ•œ ๋ณ€์ˆ˜๋Š” ์—”์ง„์˜ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ํ™œ์„ฑํ™” ๋˜๋Š” ๋น„ํ™œ์„ฑํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ
๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋“œ(๋˜๋Š” ๋กœ๋“œํ•˜์ง€ ์•Š์Œ)ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์˜์–ด๋กœ OCR์„ ํ•˜๊ณ  ์‹ถ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์ผ๋ฐ˜ ์‚ฌ์ „์„ ์–ต์ œํ•˜๊ณ  ๋Œ€์ฒด ๋‹จ์–ด ๋ชฉ๋ก๊ณผ ๋Œ€์ฒด ๋‹จ์–ด ๋ชฉ๋ก์„ ๋กœ๋“œํ•ฉ๋‹ˆ๋‹ค.
ํŒจํ„ด ๋ชฉ๋ก โ€” ์ด ๋‘ ํŒŒ์ผ์€ ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ํŒŒ์ผ์ž…๋‹ˆ๋‹ค.

์–ธ์–ด ํŒฉ์ด /path/to/eng.traineddata์— ์žˆ๊ณ  hocr ๊ตฌ์„ฑ์ด ์žˆ๋Š” ๊ฒฝ์šฐ
/path/to/configs/hocr ๊ทธ๋Ÿฐ ๋‹ค์Œ ์„ธ ๊ฐœ์˜ ์ƒˆ ํŒŒ์ผ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

/path/to/eng.user-words:

์ „์—,
๋นจ๋ฆฌ
๊ฐˆ์ƒ‰
์—ฌ์šฐ
๋›ฐ์–ด

/path/to/eng.user-patterns:

1-\d\d\d-GOOG-411
www.\n\\\\*.com

/๊ฒฝ๋กœ/to/configs/bazaar:

load_system_dawg F
load_freq_dawg F
user_words_suffix ์‚ฌ์šฉ์ž ๋‹จ์–ด
user_patterns_suffix ์‚ฌ์šฉ์ž ํŒจํ„ด

์ด์ œ ๋‹จ์–ด๋ฅผ ์ „๋‹ฌํ•˜๋ฉด ๋ฐ”์ž Tesseract์— ๋Œ€ํ•œ ํ›„ํ–‰ ๋ช…๋ น์ค„ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ,
Tesseract๋Š” ์‹œ์Šคํ…œ ์‚ฌ์ „์ด๋‚˜ ์ž์ฃผ ์‚ฌ์šฉํ•˜๋Š” ์‚ฌ์ „์„ ๋กœ๋“œํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
words ๋ฐ ์ œ๊ณตํ•œ eng.user-words ๋ฐ eng.user-patterns ํŒŒ์ผ์„ ๋กœ๋“œํ•˜๊ณ  ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
์ „์ž๋Š” ํ•œ ์ค„์— ํ•˜๋‚˜์”ฉ ๊ฐ„๋‹จํ•œ ๋‹จ์–ด ๋ชฉ๋ก์ž…๋‹ˆ๋‹ค. ํ›„์ž์˜ ํ˜•์‹์€ ๋‹ค์Œ์— ๋ฌธ์„œํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
read_pattern_list()์˜ dict/trie.h.

์—ฐํ˜


์—”์ง„์€ Hewlett Packard Laboratories Bristol๊ณผ Hewlett Packard์—์„œ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
Co, Greeley Colorado๋Š” 1985๋…„์—์„œ 1994๋…„ ์‚ฌ์ด์—, 1996๋…„์—๋Š”
Windows, 1998๋…„ ์ผ๋ถ€ C++ํ™”. ๋งŽ์€ ์ฝ”๋“œ๊ฐ€ C๋กœ ์ž‘์„ฑ๋˜์—ˆ๊ณ  ๊ทธ ๋‹ค์Œ์—๋Š” ๋” ๋งŽ์€ ์ฝ”๋“œ๊ฐ€ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
C++๋กœ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. C\++ ์ฝ”๋“œ๋Š” ๋งคํฌ๋กœ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ชฉ๋ก ์‹œ์Šคํ…œ์„ ๋งŽ์ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ
stl๋ณด๋‹ค ์ด์ „์ด๊ณ  stl ์ด์ „์— ์ด์‹ ๊ฐ€๋Šฅํ–ˆ์œผ๋ฉฐ stl ๋ชฉ๋ก๋ณด๋‹ค ํšจ์œจ์ ์ด์ง€๋งŒ
์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์œ„๋ฐ˜์ด ๋ฐœ์ƒํ•˜๋ฉด ๋””๋ฒ„๊ทธํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํฐ ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฒ„์ „ 2.00์€ ์œ ๋‹ˆ์ฝ”๋“œ(UTF-8) ์ง€์›, XNUMX๊ฐœ ์–ธ์–ด ๋ฐ ๊ต์œก ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
ํ…Œ์„œ๋ž™ํŠธ

Tesseract๋Š” UNLV์˜ XNUMX์ฐจ ์—ฐ๊ฐ„ OCR ์ •ํ™•๋„ ํ…Œ์ŠคํŠธ์— ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณด๋‹ค
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. ํ…Œ์„œ๋ž™ํŠธ 2.00์œผ๋กœ,
์ด์ œ ๋ˆ„๊ตฌ๋‚˜ ์ด๋Ÿฌํ•œ ํ…Œ์ŠคํŠธ ์ค‘ ์ผ๋ถ€๋ฅผ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ์Šคํฌ๋ฆฝํŠธ๊ฐ€ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณด๋‹ค
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract ์ž์„ธํ•œ ๋‚ด์šฉ์€.

Tesseract 3.00์€ ์ค‘๊ตญ์–ด, ์ผ๋ณธ์–ด, ํ•œ๊ตญ์–ด๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์ƒˆ๋กœ์šด ์–ธ์–ด๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ
๋˜ํ•œ ์–ธ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€๋ฆฌํ•˜๋Š” ์ƒˆ๋กœ์šด ๋‹จ์ผ ํŒŒ์ผ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

Tesseract 3.02๋Š” BiDirectional ํ…์ŠคํŠธ ์ง€์›, ๋‹ค์ค‘ ์ธ์‹ ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
๋‹จ์ผ ์ด๋ฏธ์ง€์˜ ์–ธ์–ด ๋ฐ ํ–ฅ์ƒ๋œ ๋ ˆ์ด์•„์›ƒ ๋ถ„์„.

์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋ฐฐํฌํŒ์— ํฌํ•จ๋œ ReleaseNotes ํŒŒ์ผ์„ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

๋ฆฌ์†Œ์Šค


์ฃผ์š” ์›น์‚ฌ์ดํŠธ: https://github.com/tesseract-ocr ๊ต์œก ์ •๋ณด:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

onworks.net ์„œ๋น„์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜จ๋ผ์ธ์œผ๋กœ tesseract ์‚ฌ์šฉ


๋ฌด๋ฃŒ ์„œ๋ฒ„ ๋ฐ ์›Œํฌ์Šคํ…Œ์ด์…˜

Windows ๋ฐ Linux ์•ฑ ๋‹ค์šด๋กœ๋“œ

  • 1
    JasperReports ์šฉ iReport-Designer
    JasperReports ์šฉ iReport-Designer
    ์ฐธ๊ณ : iReport/Jaspersoft Studio ์ง€์›
    ๊ณต์ง€: ๋ฒ„์ „ 5.5.0๋ถ€ํ„ฐ,
    Jaspersoft Studio๊ฐ€ ๊ณต์‹์ ์œผ๋กœ
    JasperReports์šฉ ๋””์ž์ธ ํด๋ผ์ด์–ธํŠธ. iReport
    ์˜์ง€...
    JasperReports์šฉ iReport-Designer ๋‹ค์šด๋กœ๋“œ
  • 2
    ์„ค์น˜ ํ›„ F
    ์„ค์น˜ ํ›„ F
    PostInstallerF๋Š” ๋ชจ๋“ 
    Fedora Linux ๋ฐ ๊ธฐํƒ€ ์†Œํ”„ํŠธ์›จ์–ด
    ๊ธฐ๋ณธ์ ์œผ๋กœ ๋‹ค์Œ์„ ํฌํ•จํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    ์ฒ˜์Œ์œผ๋กœ Fedora๋ฅผ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์˜
    ์‰ฝ๊ฒŒ...
    PostInstallerF ๋‹ค์šด๋กœ๋“œ
  • 3
    ์ถ”์ ํ•˜๋‹ค
    ์ถ”์ ํ•˜๋‹ค
    strace ํ”„๋กœ์ ํŠธ๊ฐ€ ๋‹ค์Œ ์œ„์น˜๋กœ ์ด๋™๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    https://strace.io. strace is a
    ์ง„๋‹จ, ๋””๋ฒ„๊น… ๋ฐ ๊ต์œก
    Linux์šฉ ์‚ฌ์šฉ์ž ๊ณต๊ฐ„ ์ถ”์ ๊ธฐ. ๊ทธ๊ฒƒ์€ ์‚ฌ์šฉ
    ๋ชจ๋‹ˆํ„ฐํ•˜๊ธฐ ์œ„ํ•ด...
    ๋‹ค์šด๋กœ๋“œ
  • 4
    gMKV์ถ”์ถœGUI
    gMKV์ถ”์ถœGUI
    mkvextract ์œ ํ‹ธ๋ฆฌํ‹ฐ์šฉ GUI(์˜ ์ผ๋ถ€
    (๋งŒ์•ฝ
    ์ „๋ถ€๋Š” ์•„๋‹˜) mkvextract์˜ ๊ธฐ๋Šฅ ๋ฐ
    mkvinfo ์œ ํ‹ธ๋ฆฌํ‹ฐ. C#NET 4.0์œผ๋กœ ์ž‘์„ฑ๋œ...
    gMKVExtractGUI ๋‹ค์šด๋กœ๋“œ
  • 5
    JasperReports ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
    JasperReports ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
    JasperReports ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š”
    ์„ธ๊ณ„์—์„œ ๊ฐ€์žฅ ์ธ๊ธฐ ์žˆ๋Š” ์˜คํ”ˆ ์†Œ์Šค
    ๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค ๋ฐ ๋ณด๊ณ 
    ์—”์ง„. ๊ทธ๊ฒƒ์€ ์™„์ „ํžˆ Java๋กœ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    ๊ทธ๋ฆฌ๊ณ  ๊ทธ๊ฒƒ์€ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค ...
    JasperReports ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋‹ค์šด๋กœ๋“œ
  • 6
    ํ”„๋ผํŽ˜ ๋ถ์Šค
    ํ”„๋ผํŽ˜ ๋ถ์Šค
    Frappe Books๋Š” ๋ฌด๋ฃŒ ์˜คํ”ˆ ์†Œ์Šค์ž…๋‹ˆ๋‹ค.
    ๋ฐ์Šคํฌํ†ฑ ๋ถ€๊ธฐ ์†Œํ”„ํŠธ์›จ์–ด๋Š”
    ๊ฐ„๋‹จํ•˜๊ณ  ์ž˜ ์„ค๊ณ„๋œ
    ์†Œ๊ธฐ์—… ๋ฐ ํ”„๋ฆฌ๋žœ์„œ. ๊ทธ๊ฒƒ'...
    Frappe ์ฑ… ๋‹ค์šด๋กœ๋“œ
  • ๋”ยป

Linux ๋ช…๋ น

Ad