هذا هو الأمر pdf2txt الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
pdf2txt - لاستخراج محتويات نصية لملفات PDF
موجز
pdf2txt [خيار...] ملف
الوصف
pdf2txt يستخرج محتويات النص من ملف PDF. يستخرج كل النص الذي يجب أن يكون
يتم تقديمها برمجيًا ، أي نص يتم تمثيله على هيئة سلاسل ASCII أو Unicode. لا تستطيع
التعرف على النص المرسوم كصور تتطلب التعرف الضوئي على الحروف. كذلك
يستخرج المواقع المقابلة ، أسماء الخطوط ، أحجام الخطوط ، اتجاه الكتابة
(أفقيًا أو رأسيًا) لكل جزء نصي. تحتاج إلى توفير كلمة مرور لـ
مستندات PDF المحمية عندما يكون الوصول إليها مقيدًا. لا يمكنك استخراج أي نص من ملف
مستند PDF الذي لا يحتوي على إذن استخراج.
OPTIONS
-o ملف
يحدد اسم ملف الإخراج. الافتراضي هو طباعة المحتويات المستخرجة إلى
Standand الإخراج في تنسيق النص.
-p pageno [، pageno ، ...]
يحدد القائمة المفصولة بفواصل لأرقام الصفحات المراد استخراجها. أرقام الصفحات
تبدأ من واحد. بشكل افتراضي ، يقوم باستخراج النص من جميع الصفحات.
-c الترميز
يحدد برنامج ترميز الإخراج.
-t نوع
يحدد تنسيق الإخراج. التنسيقات التالية مدعومة حاليًا:
نص
تنسيق النص. هذا هو الافتراضي.
أتش تي أم أل
تنسيق HTML. لا ينصح به.
XML
تنسيق XML. يوفر معظم المعلومات.
بطاقة
تنسيق "PDF الموسوم". يحتوي ملف PDF الذي تم وضع علامات عليه على محتوياته الخاصة التي تم التعليق عليها بنوع HTML
العلامات. pdf2txt يحاول استخراج تدفقات المحتوى الخاصة به بدلاً من استنتاج نصه
المواقع. يتم تعريف العلامات المستخدمة هنا في ملف PDF المرجعي، سادس طبعة[1]
(§10.7 "PDF الموسوم").
-D وضع الكتابة
يحدد وضع الكتابة لمخرجات النص:
lr- السل
من اليسار إلى اليمين ، من أعلى إلى أسفل.
السل-رل
من أعلى إلى أسفل ، ومن اليمين إلى اليسار.
السيارات
تحديد وضع الكتابة تلقائيًا
-M هامش شار, -L هامش الخط, -W هامش كلمة
هذه هي المعلمات المستخدمة لتحليل التخطيط. في ملف PDF فعلي ، نص
يمكن تقسيم الأجزاء إلى عدة قطع في منتصف تشغيلها ، اعتمادًا على
برنامج التأليف. لذلك ، يحتاج استخراج النص إلى لصق أجزاء النص. في ال
الشكل أدناه ، مقطعا نص تكون المسافة بينهما أقرب من هامش شار is
تعتبر مستمرة ويتم تجميعها في واحدة. أيضا ، خطان المسافة بينهما
أقرب من هامش الخط يتم تجميعها كمربع نص ، وهي منطقة مستطيلة
يحتوي على "مجموعة" من أجزاء النص. علاوة على ذلك ، قد يلزم إدخال فراغ
الأحرف (المسافات) حسب الضرورة إذا كانت المسافة بين كلمتين أكبر من
هامش كلمة، كفراغ بين الكلمات قد لا يتم تمثيله كمسافة ، ولكن
يشار إليها من خلال وضع كل كلمة.
يتم تحديد كل قيمة ليس كطول فعلي ، ولكن كنسبة من الطول إلى
حجم كل شخصية في السؤال. القيم الافتراضية هي هامش شار = 1.0،
هامش الخط = 0.3 و W = 0.2، على التوالي.
-n
قم بإلغاء تحليل التخطيط.
-A
فرض تحليل تخطيط لجميع سلاسل النص ، بما في ذلك النص الموجود في الأشكال.
-V
تمكين الكشف عن الكتابة الرأسية.
-s مقياس
يحدد مقياس الإخراج. يمكن استخدام هذا الخيار بتنسيق HTML فقط.
-m n
يحدد الحد الأقصى لعدد الصفحات لاستخراجها. بشكل افتراضي ، كل الصفحات في ملف
يتم استخراج الوثيقة.
-P كلمه السر
يوفر كلمة مرور المستخدم للوصول إلى محتويات PDF.
-d
قم بزيادة مستوى التصحيح.
أمثلة
استخراج نص كملف HTML اسم الملف الخاص به هو output.html:
$ pdf2txt -o output.html sample / naacl06-shinyama.pdf
استخراج ملف HTML ياباني في الكتابة العمودية:
$ pdf2txt -c euc-jp -D tb-rl -o output.html sample / jo.pdf
استخراج نص من ملف PDF مشفر:
$ pdf2txt -P mypassword -o الإخراج.txt Secret.pdf
استخدم pdf2txt عبر الإنترنت باستخدام خدمات onworks.net