هذا هو تطبيق Linux المسمى Crawler4j والذي يمكن تنزيل أحدث إصدار له باسم 4.4.0.zip. يمكن تشغيله عبر الإنترنت في موفر الاستضافة المجاني OnWorks لمحطات العمل.
قم بتنزيل وتشغيل هذا التطبيق عبر الإنترنت المسمى Crawler4j مع OnWorks مجانًا.
اتبع هذه التعليمات لتشغيل هذا التطبيق:
- 1. قم بتنزيل هذا التطبيق على جهاز الكمبيوتر الخاص بك.
- 2. أدخل في مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX باسم المستخدم الذي تريده.
- 3. تحميل هذا التطبيق في هذا الملف.
- 4. ابدأ تشغيل OnWorks Linux عبر الإنترنت أو محاكي Windows عبر الإنترنت أو محاكي MACOS عبر الإنترنت من هذا الموقع.
- 5. من نظام تشغيل OnWorks Linux الذي بدأته للتو ، انتقل إلى مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX مع اسم المستخدم الذي تريده.
- 6. قم بتنزيل التطبيق وتثبيته وتشغيله.
SCREENSHOTS
Ad
crawler4j
الوصف
Crawler4j هو زاحف ويب مفتوح المصدر لـ Java والذي يوفر واجهة بسيطة للزحف إلى الويب. باستخدامه، يمكنك إعداد زاحف ويب متعدد الخيوط في دقائق قليلة. تحتاج إلى إنشاء فئة زاحف تعمل على توسيع WebCrawler. تحدد هذه الفئة عناوين URL التي يجب الزحف إليها وتتعامل مع الصفحة التي تم تنزيلها. تحدد وظيفة mustVisit ما إذا كان يجب الزحف إلى عنوان URL المحدد أم لا. في المثال أعلاه، لا يسمح هذا المثال بملفات .css و.js وملفات الوسائط ويسمح فقط بالصفحات الموجودة ضمن نطاق ics. يتم استدعاء وظيفة الزيارة بعد تنزيل محتوى عنوان URL بنجاح. يمكنك بسهولة الحصول على عنوان URL والنص والروابط وhtml والمعرف الفريد للصفحة التي تم تنزيلها. يجب عليك أيضًا تنفيذ فئة وحدة تحكم تحدد بذور الزحف والمجلد الذي يجب تخزين بيانات الزحف المتوسطة فيه وعدد سلاسل الرسائل المتزامنة.
المميزات
- يجب عليك أيضًا تنفيذ فئة وحدة تحكم تحدد بذور الزحف والمجلد الذي يجب تخزين بيانات الزحف المتوسطة فيه وعدد سلاسل الرسائل المتزامنة:
- بشكل افتراضي، لا يوجد حد لعمق الزحف
- يمكنك تمكين SSL
- تمكين الزحف إلى المحتوى الثنائي
- تم تصميم موقع Crawler4j بكفاءة عالية ولديه القدرة على الزحف إلى النطاقات بسرعة كبيرة
- يتم استخدام سلسلة وكيل المستخدم لتمثيل الزاحف الخاص بك إلى خوادم الويب
لغة البرمجة
جافا
الأقسام
هذا تطبيق يمكن جلبه أيضًا من https://sourceforge.net/projects/crawler4j.mirror/. وقد تمت استضافته في OnWorks ليتم تشغيله عبر الإنترنت بأسهل طريقة من أحد أنظمة التشغيل المجانية لدينا.