انگلیسیفرانسویاسپانیایی

فاویکون OnWorks

ocrodjvu - آنلاین در ابر

ocrodjvu را در ارائه دهنده هاست رایگان OnWorks از طریق Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا کنید.

این دستور ocrodjvu است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

برنامه:

نام


ocrodjvu - OCR برای فایل های DjVu

خلاصه


ocrodjvu {-o | --ذخیره-باندل} خروجی-djvu-فایل [انتخاب...] فایل djvu

ocrodjvu {-i | -- ذخیره - غیر مستقیم} index-djvu-file [انتخاب...] فایل djvu

ocrodjvu --save-script فایل اسکریپت [انتخاب...] فایل djvu

ocrodjvu --درجا [انتخاب...] فایل djvu

ocrodjvu -- خشک اجرا شود [انتخاب...] فایل djvu

ocrodjvu {- نسخه | --کمک | -h | --لیست-موتورها | -- لیست-زبان ها}

شرح


ocrodjvu یک پوشش برای سیستم های OCR است که به شما امکان می دهد OCR را روی فایل های DjVu انجام دهید.

موتورهای OCR زیر پشتیبانی می شوند:

· Ocropus[1] (در داخل، ocrodjvu تماس می گیرد اسکریپت's شناختن (و یا rec-tess) فرمان،
به طوری که در نهایت Tesseract به عنوان باطن OCR عمل می کند).

· خط میخی برای لینـوکــس[2].

· اوکراد[3].

· GOCR[4].

· مستقل Tesseract[5].

OPTIONS


OCR موتور گزینه های
-e, -- موتور =شناسه موتور
از این موتور OCR استفاده کنید.

پیش فرض "tesseract" است. (پیش‌فرض "ocropus" قبل از ocrodjvu 0.8 بود.)

--لیست-موتورها
لیست موتورهای OCR موجود را چاپ کنید.

گزینه کنترل تولید
-o, --save-bundled=خروجی-djvu-فایل
نتایج OCR را به عنوان یک سند چند صفحه ای همراه در آن ذخیره کنید خروجی-djvu-فایل.

-i, --save-indirect=index-djvu-file
نتایج OCR را به عنوان یک سند چند صفحه ای غیر مستقیم ذخیره کنید. استفاده کنید index-djvu-file به عنوان شاخص
نام فایل؛ فایل های کامپوننت را در همان دایرکتوری قرار دهید. دایرکتوری باید وجود داشته باشد
و قابل نوشتن باشد

--save-script=فایل اسکریپت
ذخیره یک djvused اسکریپت با نتایج OCR به فایل اسکریپت.

--درجا
نتایج OCR را در جای خود ذخیره کنید.

(از این گزینه برای حفظ سازگاری با ocrodjvu < 0.2 استفاده کنید.)

-- خشک اجرا شود
هیچ فایلی را تغییر ندهید، نتایج OCR را دور بریزید.

استفاده از یکی از گزینه های بالا الزامی است.

--ocr-فقط
اگر قرار است نتایج OCR در یک سند جداگانه ذخیره شود (-o/--ذخیره-باندل or
-i/-- ذخیره - غیر مستقیم، فقط صفحات انتخاب شده برای OCR را ذخیره کنید.

پیش فرض ذخیره همه صفحات است، حتی زمانی که -p/-- صفحات گزینه در حال اجرا است

- متن واضح
اگر در صفحاتی که برای OCR انتخاب نشده اند، متن پنهان موجود را حذف کنید.

(از این گزینه برای حفظ سازگاری با ocrodjvu < 0.2 استفاده کنید.)

--save-raw-ocr=دایرکتوری خروجی
نتایج OCR خام (معمولاً در قالب hOCR) را در آن ذخیره کنید دایرکتوری خروجی.
دایرکتوری باید وجود داشته باشد و قابل نوشتن باشد.

--raw-ocr-filename-template=قالب
طرح نامگذاری فایل را برای نتایج خام OCR مشخص می کند.

زبان قالب از پــایتــون رشته قالب بندی نحو[6]. به شرح زیر
زمینه های موجود است:

با ما, صفحه + N, صفحه-N
شماره صفحه، به صورت اختیاری با یک عدد جابه جا می شود N

id
شناسه صفحه

id-ext
شناسه صفحه بدون پسوند فایل

الگوی پیش فرض "{id-ext}" است.

متن تقسیم بندی گزینه های
-t خطوط, --جزئیات خطوط
مکان هر خط را ضبط کنید. مکان کلمات خاص یا را ضبط نکنید
کاراکتر باشد.

این پیش فرض برای ORopus 0.2 است. این گزینه در حالت مستقل بی اثر است
Tesseract 2.0.

-t کلمات, --جزئیات=کلمات
محل هر خط و هر کلمه را ضبط کنید. مکان های خاص را ثبت نکنید
کاراکتر باشد.

این پیش فرض برای اکثر موتورهای OCR است.

این گزینه با ORopus 0.2 و مستقل Tesseract 2.0 بی اثر است.

-t تانک ها, --details=کاراکترها
مکان هر خط، هر کلمه و هر شخصیت را ضبط کنید.

این گزینه با ORopus 0.2 و مستقل Tesseract 2.0 بی اثر است.

--word-segmentation=ساده
هر دنباله غیر خالی از کاراکترهای بدون فاصله را یک کلمه در نظر بگیرید.

این پیش فرض است، علیرغم اینکه از نظر زبانی نادرست است.

--word-segmentation=uax29
استفاده از یونیکد متن تقسیم بندی[7] الگوریتم برای شکستن خطوط به کلمات.

این گزینه مفروضات برخی از ابزارهای DjVu را که کلمات با فاصله از هم جدا شده اند، می شکند.
و بنابراین توصیه نمی شود.

دیگر گزینه های
-l, --زبان=شناسه زبان
تنظیم زبان تشخیص شناسه زبان معمولا یک کد سه حرفی ISO 639-2/T است.

Tesseract ≥ 3.02 اجازه می دهد تا چندین زبان را که با کاراکترهای "+" از هم جدا شده اند، مشخص کنید.

برای ORopus، پیش فرض "eng" (انگلیسی) است، مگر اینکه tesslange محیط
متغیر تنظیم شده است. برای سایر موتورهای OCR، پیش فرض همیشه "eng" است.

-- لیست-زبان ها
لیست زبان های موجود را برای موتور OCR انتخابی فعلی چاپ کنید.

--render=ماسک
فقط ماسک های تصاویر صفحه را رندر کنید.

این پیش فرض است.

--render=پیش زمینه
تنها لایه های پیش زمینه تصاویر صفحه را رندر کنید.

--render=همه
رندر تمام لایه های تصاویر صفحه.

این گزینه برای فایل‌های OCR DjVu با پیش‌زمینه/پس‌زمینه نامعتبر ضروری است
جدایی

-p, --صفحات=محدوده ی صفحه
صفحاتی را برای پردازش مشخص می کند. محدوده ی صفحه فهرستی از زیرمجموعه های جدا شده با کاما است. هر یک
محدوده فرعی یا یک صفحه منفرد (مثلاً 17) یا یک محدوده به هم پیوسته از صفحات است
(مثلا 37-42). صفحات از 1 شماره گذاری می شوند.

پیش فرض پردازش تمام صفحات است.

-j, -- شغل =n
شروع کنید تا n فرآیندهای OCR

- نسخه
اطلاعات نسخه خروجی و خروج.

-h, --کمک
نمایش راهنما و خروج.

فناوری گزینه های
-D, - رفع اشکال
برای سهولت رفع اشکال، فایل های میانی را حذف نکنید.

-X کلید=ارزش
این گزینه اجازه می دهد تا برخی از جزئیات نحوه عملکرد ocrodjvu را کنترل کنید.

--on-error=abort
توقف اجرای برنامه در شرایط استثنایی (مثلاً خروجی نادرست از
موتور OCR، خطای داخلی ocrodjvu و غیره) رخ می دهد.

این پیش فرض است.

--on-error=رزومه
تلاش برای بهبودی از موقعیت های استثنایی.

این گزینه به شدت منع شده است.

--html5
استفاده HTML5 تجزیه کننده[8]، که قوی تر اما کندتر از تجزیه کننده پیش فرض است.

خروج وضعیت


یکی از مقادیر خروجی زیر را می توان توسط ocrodjvu برگرداند:

0
برنامه با موفقیت به پایان رسید.

1
یک خطای مرگبار رخ داد.

2
برنامه از یک خطا بازیابی شد (--on-error=رزومه).

محیط زیست


متغیرهای محیطی زیر بر ocrodjvu تأثیر می گذارد:

tesslange
زبان تشخیص Tesseract.

(استفاده از این متغیر به نفع the منسوخ شده است --زبان گزینه.)

TMPDIR
ocrodjvu از فایل های موقت به شدت استفاده می کند. آنها را در یک فهرست ذخیره می کند
توسط این متغیر مشخص می شود. پیش فرض /tmp است.

از ocrodjvu به صورت آنلاین با استفاده از خدمات onworks.net استفاده کنید


سرورها و ایستگاه های کاری رایگان

دانلود برنامه های ویندوز و لینوکس

دستورات لینوکس

Ad