Ubuntu Online, Fedora Online, Windows online emulator അല്ലെങ്കിൽ MAC OS ഓൺലൈൻ എമുലേറ്റർ എന്നിങ്ങനെയുള്ള ഞങ്ങളുടെ ഒന്നിലധികം സൗജന്യ ഓൺലൈൻ വർക്ക്സ്റ്റേഷനുകളിലൊന്ന് ഉപയോഗിച്ച് OnWorks സൗജന്യ ഹോസ്റ്റിംഗ് ദാതാവിൽ പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന pdfsandwich കമാൻഡാണിത്.
പട്ടിക:
NAME
pdfsandwich - സ്കാൻ ചെയ്ത പിഡിഎഫ് ഫയലുകളിൽ നിന്നുള്ള സാൻഡ്വിച്ച് OCR pdf-കൾക്കുള്ള ഒരു ജനറേറ്റർ
സിനോപ്സിസ്
pdfsandwich [ഓപ്ഷനുകൾ] inputfile.pdf
വിവരണം
pdfsandwich "സാൻഡ്വിച്ച്" OCR pdf ഫയലുകൾ സൃഷ്ടിക്കുന്നു, അതായത് ചിത്രങ്ങൾ മാത്രം ഉൾക്കൊള്ളുന്ന pdf ഫയലുകൾ
(ടെക്സ്റ്റ് ഇല്ല) ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR) വഴി പ്രോസസ്സ് ചെയ്യും, ടെക്സ്റ്റ് ആയിരിക്കും
ഓരോ പേജിലും അദൃശ്യമായി ചിത്രങ്ങളുടെ "പിന്നിൽ" ചേർത്തു. അതല്ല pdfsandwich ആവശ്യമാണ്
ഇനിപ്പറയുന്ന പ്രോഗ്രാമുകൾ: unpaper, convert, gs, hocr2pdf (tesseract <3.03-ന്), കൂടാതെ tesseract.
tesseract >= 3.03 pdf ഫയലുകൾ എഴുതാൻ കഴിയുന്നതിനാൽ, hocr2pdf ഇതിന്റെ പഴയ പതിപ്പുകൾക്ക് മാത്രമേ ആവശ്യമുള്ളൂ.
ടെസറാക്ട്. ദയവായി സന്ദർശിക്കുക http://www.tobias-elze.de/pdfsandwich.
ഓപ്ഷനുകൾ
-മാറ്റുക
-മാറ്റുക ഫയൽനാമം : പരിവർത്തനം ചെയ്യുന്ന ബൈനറിയുടെ പേര് (സ്ഥിരസ്ഥിതി: പരിവർത്തനം ചെയ്യുക)
-സിഒഒ -സിഒഒ ഓപ്ഷനുകൾ : അധിക പരിവർത്തനം ഓപ്ഷനുകൾ; ഉദ്ധരിക്കുന്നത് ഉറപ്പാക്കുക; ഉദാ -സിഒഒ
"- സാധാരണമാക്കുക -ബ്ലാക്ക്-ത്രെഷോൾഡ് 75%" കോൾ പരിവർത്തനം --സഹായിക്കൂ അല്ലെങ്കിൽ മനുഷ്യൻ എല്ലാവർക്കും വേണ്ടി പരിവർത്തനം ചെയ്യുക
മാറ്റുക ഓപ്ഷനുകൾ
- ഡീബഗ് എല്ലാ താൽക്കാലിക ഫയലുകളും സൂക്ഷിക്കുക / tmp (ഡീബഗ്ഗിംഗിന്)
-enforcehocr2pdf
tesseract >= 2 ആണെങ്കിലും hocr3.03pdf ഉപയോഗിക്കുക
-ആദ്യ_പേജ്
-ആദ്യ_പേജ് നമ്പർ: OCR ആരംഭിക്കേണ്ട പേജിന്റെ എണ്ണം (സ്ഥിരസ്ഥിതി: 1)
-ഗ്രേഫിൽറ്റർ
അൺപേപ്പറിന്റെ ഗ്രേ ഫിൽട്ടർ പ്രവർത്തനക്ഷമമാക്കുക; കൂടുതൽ ഓപ്ഷനുകൾ വഴി സജ്ജമാക്കാൻ കഴിയും -അൺപോ
-gs -gs ഫയലിന്റെ പേര്: gs ബൈനറിയുടെ പേര് (ഡിഫോൾട്ട്: gs)
-hocr2pdf
-hocr2pdf ഫയലിന്റെ പേര്: hocr2pdf ബൈനറിയുടെ പേര് (സ്ഥിരസ്ഥിതി: hocr2pdf); വേണ്ടി അവഗണിച്ചു
tesseract >= 3.03 ഓപ്ഷൻ ഒഴികെ -enforcehocr2pdf സജ്ജമാക്കി
-ഹൂ -ഹൂ ഓപ്ഷനുകൾ : അധിക hocr2pdf ഓപ്ഷനുകൾ; ഉദ്ധരിക്കുന്നത് ഉറപ്പാക്കുക
- തിരിച്ചറിയുക
- തിരിച്ചറിയുക ഫയലിന്റെ പേര് : തിരിച്ചറിയൽ ബൈനറിയുടെ പേര് (സ്ഥിരസ്ഥിതി: തിരിച്ചറിയുക)
-അവസാനത്തെ പേജ്
-അവസാനത്തെ പേജ് നമ്പർ: OCR പ്രോസസ്സ് ചെയ്യേണ്ട പേജിന്റെ എണ്ണം (സ്ഥിരസ്ഥിതി: എണ്ണം
ഇൻപുട്ട് ഫയലിലെ പേജുകൾ)
-ലംഗ് -ലംഗ് language : വാചകത്തിന്റെ ഭാഷ; ടെസെരാക്ട് ചെയ്യാനുള്ള ഓപ്ഷൻ (ഡിഫോട്ട്: eng) ഉദാ: eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... ഓപ്ഷൻ കാണുക -list_langs; ഒന്നിലധികം
ഭാഷകൾ വ്യക്തമാക്കാം, പ്ലസ് പ്രതീകങ്ങൾ കൊണ്ട് വേർതിരിച്ചിരിക്കുന്നു.
-ലേഔട്ട്
-ലേഔട്ട് {ഒറ്റ | ഇരട്ട | ഒന്നുമില്ല } : സ്കാൻ ചെയ്ത പേജുകളുടെ ലേഔട്ട്; അൺപേപ്പർ ആവശ്യമാണ്
ഒറ്റത്തവണ: ഒരു ഷീറ്റിന് ഒരു പേജ് ഇരട്ടി: ഒരു ഷീറ്റിന് രണ്ട് പേജുകൾ ഒന്നുമില്ല: യാന്ത്രിക ലേഔട്ട് ഇല്ല
(സ്ഥിരസ്ഥിതി)
-list_langs
നിലവിൽ ലഭ്യമായ ഭാഷകൾ ലിസ്റ്റ് ചെയ്ത് പുറത്തുകടക്കുക; ഇഷ്ടാനുസൃത ബൈനറികളുടെ കാര്യത്തിൽ
tesseract, ശേഷം ഇത് സ്ഥാപിക്കുക -ടെസെറാക്ട് ഓപ്ഷൻ
-മാക്സ്പിക്സലുകൾ
-മാക്സ്പിക്സലുകൾ NUM : ഇൻപുട്ട് ഫയലിനായി അനുവദനീയമായ പരമാവധി പിക്സലുകളുടെ എണ്ണം
(റെസല്യൂഷൻ/72)^2 *വീതി*ഉയരം > മാക്സ്പിക്സലുകൾ തുടർന്ന് ഇൻപുട്ട് ഫയലിന്റെ പേജ് താഴേക്ക് സ്കെയിൽ ചെയ്യുക
OCR-ന് മുമ്പ്, അതിനാൽ പിക്സലുകളിലെ പേജ് വലുപ്പം മാക്സ്പിക്സലുകളുമായി പൊരുത്തപ്പെടുന്നു; സ്ഥിരസ്ഥിതി:
17415167 (A3 @ 300 dpi)
- നോയിമേജ്
വാചകത്തിന് മുകളിൽ ചിത്രം സ്ഥാപിക്കരുത് (hocr2pdf ആവശ്യമാണ്; കൂടാതെ അവഗണിച്ചു
-enforcehocr2pdf ഓപ്ഷൻ)
-നോപ്രോപ്രോക്
അൺപേപ്പർ ഉപയോഗിച്ച് മുൻകൂട്ടി പ്രോസസ്സ് ചെയ്യരുത്
- ത്രെഡുകൾ
- ത്രെഡുകൾ number : സമാന്തര ത്രെഡുകളുടെ എണ്ണം (ഡിഫോൾട്ട്: ഊഹിച്ച CPU-കളുടെ എണ്ണം; എങ്കിൽ
ഊഹിക്കൽ പരാജയപ്പെടുന്നു: 1)
-o -o filename : ഔട്ട്പുട്ട് ഫയൽ; സ്ഥിരസ്ഥിതി: inputfile_ocr.pdf (വിപുലീകരണം വ്യത്യസ്തമാണെങ്കിൽ
.pdf-ൽ നിന്ന്, യഥാർത്ഥ വിപുലീകരണം സൂക്ഷിച്ചിരിക്കുന്നു)
- പേജ് വലുപ്പം
- പേജ് വലുപ്പം { യഥാർത്ഥ | NUMxNUM } : ഔട്ട്പുട്ട് pdf ഒറിജിനലിന്റെ പേജ് വലുപ്പം സജ്ജമാക്കുക: സമാനമാണ്
ഇൻപുട്ട് ഫയൽ (സ്ഥിരസ്ഥിതി) NUMxNUM: പിക്സലിൽ വീതി x ഉയരം (ഉദാ: A4 ന്: - പേജ് വലുപ്പം
595x842)
- റെസല്യൂഷൻ
- റെസല്യൂഷൻ NUM : റെസല്യൂഷൻ (dpi) OCR-ന് ഉപയോഗിക്കുന്നു (സ്ഥിരസ്ഥിതി: 300)
-rgb ചിത്രങ്ങൾക്ക് RGB കളർ സ്പേസ് ഉപയോഗിക്കുക (സ്ഥിരസ്ഥിതി: കറുപ്പും വെളുപ്പും); ശ്രദ്ധയോടെ ഉപയോഗിക്കുക: കാരണങ്ങൾ
ചില വർണ്ണ ഇടങ്ങളിലെ പ്രശ്നങ്ങൾ
-sloppy_text
വാചകം, ഗ്രൂപ്പ് വാക്കുകൾ, ഒറ്റ ഗ്ലിഫുകൾ വരയ്ക്കരുത്; ടെസറാക്ടിനായി അവഗണിച്ചു
>= 3.03 ഓപ്ഷൻ ഒഴികെ -enforcehocr2pdf സജ്ജമാക്കി
-ടെസെറാക്ട്
-ടെസെറാക്ട് ഫയൽനാമം : ടെസറാക്റ്റ് ബൈനറിയുടെ പേര് (സ്ഥിരസ്ഥിതി: ടെസെറാക്റ്റ്)
-ടെസ്സോ -ടെസ്സോ ഓപ്ഷനുകൾ : അധിക ടെസറാക്ട് ഓപ്ഷനുകൾ; ഉദ്ധരിക്കുന്നത് ഉറപ്പാക്കുക
-പേപ്പർ അൺപേപ്പർ
-പേപ്പർ അൺപേപ്പർ ഫയൽനാമം : അൺപേപ്പർ ബൈനറിയുടെ പേര് (സ്ഥിരസ്ഥിതി: അൺപേപ്പർ)
-അൺപോ -അൺപോ ഓപ്ഷനുകൾ : അധിക അൺപേപ്പർ ഓപ്ഷനുകൾ; ഉദ്ധരിക്കുന്നത് ഉറപ്പാക്കുക
- നിശബ്ദം ഔട്ട്പുട്ട് അടിച്ചമർത്തുക
-വെർബോസ്
കൂടുതൽ ഔട്ട്പുട്ട് ഉണ്ടാക്കുക
-പതിപ്പ്
പതിപ്പ് അച്ചടിച്ച് പുറത്തുകടക്കുക
-ഹെൽപ്പ് ഈ ലിസ്റ്റ് പ്രദർശിപ്പിക്കുക ഓപ്ഷനുകൾ
--സഹായിക്കൂ ഈ ലിസ്റ്റ് പ്രദർശിപ്പിക്കുക ഓപ്ഷനുകൾ
ഭാഷകൾ
Tesseract വഴി, നിരവധി ഭാഷാ പാക്കേജുകൾ ലഭ്യമാണ് - ഈ ലിങ്ക് പിന്തുടരുക
http://code.google.com/p/tesseract-ocr/downloads/list ഒരു പൂർണ്ണമായ ലിസ്റ്റിനായി. ഇവിടെ ഒരു
പിന്തുണയ്ക്കുന്ന ഭാഷകളുടെ അപൂർണ്ണമായ തിരഞ്ഞെടുപ്പും അവയുടെ ചുരുക്കെഴുത്തുകളും:
അറ (അറബിക്), അസെ (അസർബൗയിജാനി), ബുൾ (ബൾഗേറിയൻ), പൂച്ച (കറ്റാലൻ), സെസ് (ചെക്ക്), ചി_സിം
(ലളിതമാക്കിയ ചൈനീസ്), ചി_ത്ര (പരമ്പരാഗത ചൈനീസ്), chr (ചെറോക്കി), ഡാൻ (ഡാനിഷ്), ഡാൻ-
ഫ്രാക്ക് (ഡാനിഷ് (ഫ്രാക്ടൂർ)), ഡേയു (ജർമ്മൻ), എൽ (ഗ്രീക്ക്), ഇംഗ്ലീഷ് (ഇംഗ്ലീഷ്), എൻഎം (പഴയ ഇംഗ്ലീഷ്), ഇപോ
(എസ്പെറാന്റോ), എസ്റ്റോണിയൻ (എസ്റ്റോണിയൻ), ഫിൻ (ഫിന്നിഷ്), fra (ഫ്രഞ്ച്), frm (പഴയ ഫ്രഞ്ച്), glg
(ഗലീഷ്യൻ), ഹെബ് (ഹീബ്രു), ഹിൻ (ഹിന്ദി), എച്ച്ആർവി (ക്രോയേഷൻ), ഹൺ (ഹംഗേറിയൻ), ഇന്ത്യ (ഇന്തോനേഷ്യ),
ഇറ്റാ (ഇറ്റാലിയൻ), ജെപിഎൻ (ജാപ്പനീസ്), കോർ (കൊറിയൻ), ലാവ് (ലാത്വിയൻ), ലിറ്റ് (ലിത്വാനിയൻ), എൻഎൽഡി (ഡച്ച്),
നോർ (നോർവീജിയൻ), പോൾ (പോളീഷ്), പോർ (പോർച്ചുഗീസ്), റോൺ (റൊമാനിയൻ), റസ് (റഷ്യൻ), എസ്എൽകെ
(സ്ലൊവാക്യൻ), എസ്എൽവി (സ്ലൊവേനിയൻ), സ്ക്വി (അൽബേനിയൻ), സ്പാ (സ്പാനിഷ്), എസ്ആർപി (സെർബിയൻ), സ്വെ (സ്വീഡിഷ്),
tam (തമിഴ്), ടെൽ (തെലുങ്ക്), tgl (ടഗാലോഗ്), താ (തായ്), തുർ (തുർക്കിഷ്), ukr (ഉക്രേനിയൻ), vie
(വിയറ്റ്നാമീസ്)
ഒന്നിലധികം ഭാഷകൾ വ്യക്തമാക്കിയേക്കാം, പ്ലസ് പ്രതീകങ്ങൾ കൊണ്ട് വേർതിരിച്ചിരിക്കുന്നു. എന്നത് ശ്രദ്ധിക്കുക
നിങ്ങളുടെ സിസ്റ്റത്തിൽ ഉപയോഗിക്കുന്നതിന് ബന്ധപ്പെട്ട ടെസെറാക്ട് ഭാഷാ പാക്കേജ് ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതുണ്ട്
pdfsandwich. ഓപ്ഷൻ -list_langs നിങ്ങളുടെ സിസ്റ്റത്തിൽ ലഭ്യമായ ഭാഷകൾ ലിസ്റ്റ് ചെയ്യുന്നു.
AVAILABILITY
ഉറവിടങ്ങളും പാക്കേജുകളും സമഗ്രമായ സഹായവും ഇവിടെ കണ്ടെത്താനാകും http://www.tobias-
elze.de/pdfsandwich.
onworks.net സേവനങ്ങൾ ഉപയോഗിച്ച് pdfsandwich ഓൺലൈനായി ഉപയോഗിക്കുക