Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen pdfsandwich komutudur.
Program:
ADI
pdfsandviç - Taranan pdf dosyalarından sandviç OCR pdf'leri için bir jeneratör
SİNOPSİS
pdfsandviç [seçenekleri] girdi dosyası.pdf
TANIM
pdfsandviç "sandviç" OCR pdf dosyaları oluşturur, yani yalnızca görüntüleri içeren pdf dosyaları
(metin yok) optik karakter tanıma (OCR) ile işlenecek ve metin
her sayfaya görünmez bir şekilde görüntülerin "arkasına" eklendi. Bunu not et pdfsandviç ihtiyacı var
aşağıdaki programlar: unpaper, convert, gs, hocr2pdf (tesseract < 3.03 için), ve tesseract.
tesseract >= 3.03 pdf dosyaları yazabildiğinden, hocr2pdf yalnızca eski sürümleri için gereklidir.
tesseract. Lütfen ziyaret edin http://www.tobias-elze.de/pdfsandviç.
SEÇENEKLER
-dönüştürmek
-dönüştürmek dosya adı : dönüştürme ikilisinin adı (varsayılan: dönüştürme)
-aa -aa seçenekleri : ek dönüştürme seçenekleri; alıntı yaptığınızdan emin olun; Örneğin -aa
"-normalleştirmek -siyah-eşik %75" çağrı dönüştürme --yardım et ya da adam herkes için dönüştür
dönüştürmek seçenekleri
-hata ayıklama tüm geçici dosyaları içinde tut / Tmp (hata ayıklama için)
-enforcehocr2pdf
tesseract >= 2 olsa bile hocr3.03pdf kullanın
-ilk sayfa
-ilk sayfa sayı : OCR'nin başlatılacağı sayfa sayısı (varsayılan: 1)
-gri filtre
unpaper'ın gri filtresini etkinleştir; daha öte seçenekleri tarafından ayarlanabilir -unpo
-gs -gs dosya adı : gs ikili dosyasının adı (varsayılan: gs)
-hocr2pdf
-hocr2pdf dosya adı : hocr2pdf ikili dosyasının adı (varsayılan: hocr2pdf); için görmezden gelindi
seçenek yoksa tesseract >= 3.03 -enforcehocr2pdf ayarlanır
-hoo -hoo seçenekleri : ek hocr2pdf seçenekleri; alıntı yaptığınızdan emin olun
-tanımlamak
-tanımlamak dosya adı : ikili tanımlamanın adı (varsayılan: tanımla)
-son Sayfa
-son Sayfa sayı : OCR'nin işleneceği sayfa sayısı (varsayılan:
inputfile içindeki sayfalar)
-dil -dil dil : metnin dili; tesseract seçeneği (varsayılan: eng) örneğin: eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... seçeneğe bakın -list_langs; çoklu
diller, artı karakterlerle ayrılarak belirtilebilir.
-Yerleşim
-Yerleşim { tek | çift kişilik | yok } : taranan sayfaların düzeni; kağıtsız gerektirir
tek: yaprak başına bir sayfa çift: yaprak başına iki sayfa yok: otomatik düzen yok
(Varsayılan)
-list_langs
mevcut dilleri listeleyin ve çıkın; özel ikili dosyaları durumunda
tesseract, bunu -tesseract seçenek
-maksimum pikseller
-maksimum pikseller NUM : giriş dosyası için izin verilen maksimum piksel sayısı
(çözünürlük/72)^2 *width*height > maxpixels sonra giriş dosyasının sayfasını aşağı ölçeklendir
piksel cinsinden sayfa boyutunun maksimum piksele karşılık gelmesi için OCR'den önce; varsayılan:
17415167 (A3 @ 300 dpi)
-noimage
resmi metnin üzerine yerleştirmeyin (hocr2pdf gerektirir;
-enforcehocr2pdf opsiyon)
-ön hazırlık
unpaper ile önişleme yapmayın
-n-konular
-n-konular sayı : paralel iş parçacığı sayısı (varsayılan: tahmin edilen CPU sayısı; eğer
tahmin başarısız: 1)
-o -o dosya adı : çıktı dosyası; varsayılan: inputfile_ocr.pdf (uzantı farklıysa
.pdf'den, orijinal uzantı korunur)
-sayfa boyutu
-sayfa boyutu { orijinal | NUMxNUM } : çıktı pdf orijinalinin sayfa boyutunu ayarla: ile aynı
girdi dosyası (varsayılan) NUMxNUM: piksel cinsinden genişlik x yükseklik (örn. A4 için: -sayfa boyutu
595x842)
-çözüm
-çözüm NUM : OCR için kullanılan çözünürlük (dpi) (varsayılan: 300)
-rgb görüntüler için RGB renk alanını kullanın (varsayılan: siyah beyaz); dikkatli kullanın: nedenleri
bazı renk uzaylarıyla ilgili sorunlar
-özensiz_metin
metni özensizce yerleştirin, kelimeleri gruplayın, tek glifler çizmeyin; tesseract için yoksayıldı
>= 3.03 seçenek yoksa -enforcehocr2pdf ayarlanır
-tesseract
-tesseract dosya adı : tesseract ikili dosyasının adı (varsayılan: tesseract)
-tesso -tesso seçenekleri : ek tesseract seçenekleri; alıntı yaptığınızdan emin olun
-kağıtsız
-kağıtsız dosya adı : kağıtsız ikili dosyanın adı (varsayılan: kağıtsız)
-unpo -unpo seçenekleri : ek kağıtsız seçenekleri; alıntı yaptığınızdan emin olun
-sessiz çıktıyı bastır
-ayrıntılı
daha fazla çıktı üretmek
-version
sürümü yazdır ve çık
-Yardım Bu listeyi göster seçenekleri
--yardım et Bu listeyi göster seçenekleri
YABANCI DİLLER
Tesseract aracılığıyla çok sayıda dil paketi mevcuttur - bu bağlantıyı takip edin
http://code.google.com/p/tesseract-ocr/downloads/list tam bir liste için. İşte bir
desteklenen dillerin eksik seçimi ve kısaltmaları:
ara (Arapça), aze (Azerice), bul (Bulgarca), cat (Katalanca), ces (Çek), chi_sim
(Basitleştirilmiş Çince), chi_tra (Geleneksel Çince), chr (Cherokee), dan (Danimarkalı), dan-
frak (Danimarka (Fraktur)), deu (Almanca), ell (Yunanca), eng (İngilizce), enm (Eski İngilizce), epo
(Esperanto), est (Estonca), fin (Fince), fra (Fransızca), frm (Eski Fransızca), glg
(Galician), heb (İbranice), hin (Hintçe), hrv (Hırvatça), hun (Macarca), ind (Endonezyaca),
ita (İtalyanca), jpn (Japonca), kor (Korece), lav (Letonca), lit (Litvanca), nld (Hollandaca),
nor (Norveç), pol (Lehçe), por (Portekizce), ron (Rumence), rus (Rusça), slk
(Slovakça), slv (Slovence), sqi (Arnavutça), spa (İspanyolca), srp (Sırpça), swe (İsveççe),
tam (Tamil), tel (Telugu), tgl (Tagalog), tha (Tay), tur (Türk), ukr (Ukrayna), vie
(Vietnam)
Artı karakterlerle ayrılmış birden çok dil belirtilebilir. Şuna dikkat edin:
tarafından kullanılabilmesi için ilgili tesseract dil paketinin sisteminizde kurulu olması gerekir.
pdfsandviç. Seçenek -list_langs sisteminizde bulunan dilleri listeler.
BULUNABİLİRLİK
Kaynaklar ve paketlerin yanı sıra kapsamlı yardım şu adreste bulunabilir: http://www.tobias-
elze.de/pdfsandviç.
onworks.net hizmetlerini kullanarak pdfsandwich'i çevrimiçi kullanın