انجليزيالفرنسيةالإسبانية

OnWorks فافيكون

pdf2txt - عبر الإنترنت في السحابة

قم بتشغيل pdf2txt في مزود الاستضافة المجانية OnWorks عبر Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

هذا هو الأمر pdf2txt الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

برنامج:

اسم


pdf2txt - لاستخراج محتويات نصية لملفات PDF

موجز


pdf2txt [خيار...] ملف

الوصف


pdf2txt يستخرج محتويات النص من ملف PDF. يستخرج كل النص الذي يجب أن يكون
يتم تقديمها برمجيًا ، أي نص يتم تمثيله على هيئة سلاسل ASCII أو Unicode. لا تستطيع
التعرف على النص المرسوم كصور تتطلب التعرف الضوئي على الحروف. كذلك
يستخرج المواقع المقابلة ، أسماء الخطوط ، أحجام الخطوط ، اتجاه الكتابة
(أفقيًا أو رأسيًا) لكل جزء نصي. تحتاج إلى توفير كلمة مرور لـ
مستندات PDF المحمية عندما يكون الوصول إليها مقيدًا. لا يمكنك استخراج أي نص من ملف
مستند PDF الذي لا يحتوي على إذن استخراج.

OPTIONS


-o ملف
يحدد اسم ملف الإخراج. الافتراضي هو طباعة المحتويات المستخرجة إلى
Standand الإخراج في تنسيق النص.

-p pageno [، pageno ، ...]
يحدد القائمة المفصولة بفواصل لأرقام الصفحات المراد استخراجها. أرقام الصفحات
تبدأ من واحد. بشكل افتراضي ، يقوم باستخراج النص من جميع الصفحات.

-c الترميز
يحدد برنامج ترميز الإخراج.

-t نوع
يحدد تنسيق الإخراج. التنسيقات التالية مدعومة حاليًا:

نص
تنسيق النص. هذا هو الافتراضي.

أتش تي أم أل
تنسيق HTML. لا ينصح به.

XML
تنسيق XML. يوفر معظم المعلومات.

بطاقة
تنسيق "PDF الموسوم". يحتوي ملف PDF الذي تم وضع علامات عليه على محتوياته الخاصة التي تم التعليق عليها بنوع HTML
العلامات. pdf2txt يحاول استخراج تدفقات المحتوى الخاصة به بدلاً من استنتاج نصه
المواقع. يتم تعريف العلامات المستخدمة هنا في ملف PDF المرجعي، سادس طبعة[1]
(§10.7 "PDF الموسوم").

-D وضع الكتابة
يحدد وضع الكتابة لمخرجات النص:

lr- السل
من اليسار إلى اليمين ، من أعلى إلى أسفل.

السل-رل
من أعلى إلى أسفل ، ومن اليمين إلى اليسار.

السيارات
تحديد وضع الكتابة تلقائيًا

-M هامش شار, -L هامش الخط, -W هامش كلمة
هذه هي المعلمات المستخدمة لتحليل التخطيط. في ملف PDF فعلي ، نص
يمكن تقسيم الأجزاء إلى عدة قطع في منتصف تشغيلها ، اعتمادًا على
برنامج التأليف. لذلك ، يحتاج استخراج النص إلى لصق أجزاء النص. في ال
الشكل أدناه ، مقطعا نص تكون المسافة بينهما أقرب من هامش شار is
تعتبر مستمرة ويتم تجميعها في واحدة. أيضا ، خطان المسافة بينهما
أقرب من هامش الخط يتم تجميعها كمربع نص ، وهي منطقة مستطيلة
يحتوي على "مجموعة" من أجزاء النص. علاوة على ذلك ، قد يلزم إدخال فراغ
الأحرف (المسافات) حسب الضرورة إذا كانت المسافة بين كلمتين أكبر من
هامش كلمة، كفراغ بين الكلمات قد لا يتم تمثيله كمسافة ، ولكن
يشار إليها من خلال وضع كل كلمة.

يتم تحديد كل قيمة ليس كطول فعلي ، ولكن كنسبة من الطول إلى
حجم كل شخصية في السؤال. القيم الافتراضية هي هامش شار = 1.0،
هامش الخط = 0.3 و W = 0.2، على التوالي.

-n
قم بإلغاء تحليل التخطيط.

-A
فرض تحليل تخطيط لجميع سلاسل النص ، بما في ذلك النص الموجود في الأشكال.

-V
تمكين الكشف عن الكتابة الرأسية.

-s مقياس
يحدد مقياس الإخراج. يمكن استخدام هذا الخيار بتنسيق HTML فقط.

-m n
يحدد الحد الأقصى لعدد الصفحات لاستخراجها. بشكل افتراضي ، كل الصفحات في ملف
يتم استخراج الوثيقة.

-P كلمه السر
يوفر كلمة مرور المستخدم للوصول إلى محتويات PDF.

-d
قم بزيادة مستوى التصحيح.

أمثلة


استخراج نص كملف HTML اسم الملف الخاص به هو output.html:

$ pdf2txt -o output.html sample / naacl06-shinyama.pdf

استخراج ملف HTML ياباني في الكتابة العمودية:

$ pdf2txt -c euc-jp -D tb-rl -o output.html sample / jo.pdf

استخراج نص من ملف PDF مشفر:

$ pdf2txt -P mypassword -o الإخراج.txt Secret.pdf

استخدم pdf2txt عبر الإنترنت باستخدام خدمات onworks.net


خوادم ومحطات عمل مجانية

قم بتنزيل تطبيقات Windows و Linux

  • 1
    Archlabs_repo
    Archlabs_repo
    حزمة إعادة الشراء لـ ArchLabs هذا ملف
    التطبيق الذي يمكن جلبه أيضًا
    تبدأ من
    https://sourceforge.net/projects/archlabs-repo/.
    تم استضافته في OnWorks في ...
    تحميل برنامج Archlabs_repo
  • 2
    مشروع زفير
    مشروع زفير
    مشروع Zephyr هو جيل جديد
    نظام التشغيل في الوقت الحقيقي (RTOS)
    يدعم أجهزة متعددة
    معماريات. لأنه يقوم على أ
    نواة بصمة صغيرة ...
    تحميل مشروع زفير
  • 3
    سلبيات
    سلبيات
    SCons هي أداة لبناء البرمجيات
    هذا بديل ممتاز لـ
    الكلاسيكية "Make" أداة البناء التي
    كلنا نعرف ونحب. SCons هو
    نفذت ...
    تنزيل SCons
  • 4
    PSeInt
    PSeInt
    PSeInt هو مترجم شفوي زائف لـ
    طلاب البرمجة الناطقين بالإسبانية.
    الغرض الرئيسي منه هو أن تكون أداة لـ
    التعلم وفهم الأساسيات
    تصور ...
    تنزيل PSeInt
  • 5
    oStorybook
    oStorybook
    oStorybook l'outil privil�gi� des
    يقرع. تنبيه: voir sur
    http://ostorybook.tuxfamily.org/v5/
    --ar_ar oStorybook الأداة المناسبة لـ
    الكتاب. تحذير ...
    قم بتنزيل oStorybook
  • 6
    أسوسورت ميرلين
    أسوسورت ميرلين
    Asuswrt-Merlin طرف ثالث
    البرامج الثابتة لاختيار Asus wireless
    أجهزة التوجيه. استنادًا إلى البرامج الثابتة Asuswrt
    تم تطويره بواسطة Asus ، فهو يجلب تعديلات جديدة
    الميزات و ...
    تنزيل Asuswrt-Merlin
  • أكثر "

أوامر لينكس

Ad