Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen ocrodjvu komutudur.
Program:
ADI
ocrodjvu - DjVu dosyaları için OCR
SİNOPSİS
okrodjvu {-o | --save-paketlenmiş} çıktı-djvu dosyası [seçenek...] djvu dosyası
okrodjvu {-i | --save-dolaylı} indeks-djvu-dosyası [seçenek...] djvu dosyası
okrodjvu --save-script Komut dosyaları [seçenek...] djvu dosyası
okrodjvu --yerinde [seçenek...] djvu dosyası
okrodjvu --kuru çalışma [seçenek...] djvu dosyası
okrodjvu {--versiyon | --yardım et | -h | --list-motorları | --list-diller}
TANIM
ocrodjvu, DjVu dosyalarında OCR gerçekleştirmenize olanak tanıyan, OCR sistemlerine yönelik bir sarmalayıcıdır.
Aşağıdaki OCR motorları desteklenir:
· OCRopus[1] (dahili olarak ocrodjvu çağrıları okroscript's tanımak (Ya da rec-tess) emretmek,
böylece sonuçta Tesseract OCR arka ucu görevi görür);
· çiviyazısı için Linux[2].
· Okrad[3].
· GOCR[4].
· Tek başına teserakt[5].
SEÇENEKLER
OCR motor seçenekleri
-e, --motor=motor kimliği
Bu OCR motorunu kullanın.
Varsayılan “tesseract”tır. (Ocrodjvu 0.8'den önce varsayılan değer "ocropus" idi.)
--list-motorları
Kullanılabilir OCR motorlarının listesini yazdırın.
Opsiyonlar kontrol çıktı
-o, --save-bundled=çıktı-djvu dosyası
OCR sonuçlarını çok sayfalı bir belge olarak çıktı-djvu dosyası.
-i, --save-indirect=indeks-djvu-dosyası
OCR sonuçlarını dolaylı, çok sayfalı bir belge olarak kaydedin. Kullanmak indeks-djvu-dosyası indeks olarak
dosya adı; bileşen dosyalarını aynı dizine koyun. Dizin mevcut olmalı
ve yazılabilir olmalıdır.
--save-script=Komut dosyaları
Kaydet djvused OCR sonuçlarını içeren komut dosyasını Komut dosyaları.
--yerinde
OCR sonuçlarını yerine kaydedin.
(Ocrodjvu < 0.2 ile uyumluluğu korumak için bu seçeneği kullanın.)
--kuru çalışma
Hiçbir dosyayı değiştirmeyin, OCR sonuçlarını atın.
Yukarıdaki seçeneklerden tam olarak birinin kullanılması zorunludur.
--ocr-yalnızca
OCR sonuçları ayrı bir belgeye kaydedilecekse (-o/--save-paketlenmiş or
-i/--save-dolaylı), yalnızca OCR için seçilen sayfaları kaydedin.
Varsayılan, tüm sayfaları kaydetmektir; -p/--sayfalar seçeneği geçerlidir.
--açık metin
OCR için seçilmeyen sayfalarda mevcutsa mevcut gizli metni kaldırın.
(Ocrodjvu < 0.2 ile uyumluluğu korumak için bu seçeneği kullanın.)
--save-raw-ocr=çıkış dizini
Ham OCR sonuçlarını (genellikle hOCR formatında) şuraya kaydedin: çıkış dizini.
dizin mevcut ve yazılabilir olmalıdır.
--raw-ocr-dosya adı-şablon=şablon
Ham OCR sonuçları için dosya adlandırma şemasını belirtir.
Şablon dili kullanır Python dizi biçimlendirme sözdizimi[6]. Aşağıdaki
alanlar mevcuttur:
Kanal, sayfa+N, sayfa-N
sayfa numarası, isteğe bağlı olarak bir sayı ile kaydırılır N
id
sayfa tanımlayıcı
kimlik-ext
dosya uzantısı olmayan sayfa tanımlayıcı
Varsayılan şablon “{id-ext}” şeklindedir.
Metin bölünme seçenekleri
-t hatları, --detaylar hatları
Her satırın konumunu kaydedin. Belirli kelimelerin konumlarını kaydetmeyin veya
karakterler.
Bu OCRopus 0.2 için varsayılandır. Bu seçenek tek başına etkisizdir
Tesseract 2.0.
-t sözler, --detaylar=kelimeler
Her satırın ve her kelimenin konumunu kaydedin. Belirli konumları kaydetmeyin
karakterler.
Bu, çoğu OCR motoru için varsayılandır.
Bu seçenek OCRopus 0.2 ve bağımsız Tesseract 2.0 ile etkisizdir.
-t karakter, --ayrıntılar=karakterler
Her satırın, her kelimenin ve her karakterin konumunu kaydedin.
Bu seçenek OCRopus 0.2 ve bağımsız Tesseract 2.0 ile etkisizdir.
--word-segmentasyon=basit
Boş olmayan, boşluk olmayan karakterlerin her dizisini tek bir sözcük olarak düşünün.
Bu, dilsel olarak yanlış olmasına rağmen varsayılandır.
--word-segmentasyon=uax29
Kullan Unicode Metin Bölünme[7] Satırları kelimelere bölen algoritma.
Bu seçenek, bazı DjVu araçlarının kelimelerin boşluklarla ayrıldığı yönündeki varsayımlarını ortadan kaldırır.
bu nedenle tavsiye edilmez.
Diğer seçenekleri
-l, --dil=dil kimliği
Tanıma dilini ayarlayın. dil kimliği tipik olarak ISO 639-2/T üç harfli bir koddur.
Tesseract ≥ 3.02, “+” karakterlerle ayrılmış birden fazla dilin belirtilmesine olanak tanır.
OCRopus için varsayılan değer "eng"dir (İngilizce), aksi takdirde tess dili çevre
değişken ayarlanır. Diğer OCR motorları için varsayılan değer her zaman "eng"dir.
--list-diller
Şu anda seçili olan OCR motoru için mevcut dillerin listesini yazdırın.
--render=maske
Yalnızca sayfa görüntülerinin maskelerini oluşturun.
Bu varsayılan.
--render=ön plan
Sayfa görüntülerinin yalnızca ön plan katmanlarını oluşturun.
--render=hepsi
Sayfa görüntülerinin tüm katmanlarını işleyin.
Bu seçenek, geçersiz ön plana/arka plana sahip OCR DjVu dosyaları için gereklidir.
Ayırma.
-p, --sayfalar=sayfa aralığı
İşlenecek sayfaları belirtir. sayfa aralığı alt aralıkların virgülle ayrılmış bir listesidir. Her biri
alt aralık ya tek bir sayfadır (örn. 17) ya da bitişik bir sayfa aralığıdır
(örn. 37-42). Sayfalar 1'den numaralandırılmıştır.
Varsayılan tüm sayfaların işlenmesidir.
-j, --işler=n
Şu ana kadar başla: n OCR işlemleri.
--versiyon
Sürüm bilgisi çıktısı alın ve çıkın.
-h, --yardım et
Yardımı göster ve çık.
gelişmiş seçenekleri
-D, - hata ayıklama
Hata ayıklamayı kolaylaştırmak için ara dosyaları silmeyin.
-X anahtar=değer
Bu seçenek, ocrodjvu'nun nasıl çalıştığına ilişkin bazı ayrıntıların kontrol edilmesine olanak tanır.
--on-error=iptal
İstisnai bir durumda (örneğin, hatalı biçimlendirilmiş çıktı) program yürütmeyi durdurun.
OCR motoru, dahili ocrodjvu hatası vb.) oluşur.
Bu varsayılan.
--on-error=devam et
İstisnai durumlardan kurtulmaya çalışın.
Bu seçenek kesinlikle önerilmez.
--html5
Kullanmak HTML5 ayrıştırıcı[8], daha sağlamdır ancak varsayılan ayrıştırıcıdan daha yavaştır.
EXIT DURUMU
Ocrodjvu tarafından aşağıdaki çıkış değerlerinden biri döndürülebilir:
0
Program başarıyla tamamlandı.
1
Önemli bir hata oluştu.
2
Program bir hatadan kurtarıldı (--on-error=devam et).
ÇEVRE
Aşağıdaki ortam değişkenleri ocrodjvu'yu etkiler:
tess dili
Tesseract için tanıma dili.
(Bu değişkenin kullanımı, lehine kullanımdan kaldırılmıştır. --dilim seçeneği.)
TMPDIR
ocrodjvu, geçici dosyalardan yoğun şekilde yararlanıyor. Bunları bir dizinde saklayacak
bu değişken tarafından belirtilir. Varsayılan /tmp'dir.
Onworks.net hizmetlerini kullanarak ocrodjvu'yu çevrimiçi kullanın