ນີ້ແມ່ນແອັບ Linux ທີ່ມີຊື່ວ່າ crawler4j ເຊິ່ງລຸ້ນຫຼ້າສຸດສາມາດດາວໂຫຼດໄດ້ເປັນ 4.4.0.zip. ມັນສາມາດດໍາເນີນການອອນໄລນ໌ຢູ່ໃນຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີ OnWorks ສໍາລັບສະຖານີເຮັດວຽກ.
ດາວນ໌ໂຫລດແລະດໍາເນີນການອອນໄລນ໌ app ນີ້ມີຊື່ crawler4j ກັບ OnWorks ໄດ້ຟຣີ.
ປະຕິບັດຕາມຄໍາແນະນໍາເຫຼົ່ານີ້ເພື່ອດໍາເນີນການ app ນີ້:
- 1. ດາວໂຫຼດຄໍາຮ້ອງສະຫມັກນີ້ໃນ PC ຂອງທ່ານ.
- 2. ໃສ່ໃນຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 3. ອັບໂຫລດແອັບພລິເຄຊັນນີ້ຢູ່ໃນຕົວຈັດການໄຟລ໌ດັ່ງກ່າວ.
- 4. ເລີ່ມ OnWorks Linux ອອນລາຍ ຫຼື Windows online emulator ຫຼື MACOS online emulator ຈາກເວັບໄຊທ໌ນີ້.
- 5. ຈາກ OnWorks Linux OS ທີ່ເຈົ້າຫາກໍ່ເລີ່ມຕົ້ນ, ໄປທີ່ຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 6. ດາວນ໌ໂຫລດຄໍາຮ້ອງສະຫມັກ, ຕິດຕັ້ງມັນແລະດໍາເນີນການ.
ພາບຫນ້າຈໍ:
ຕົວກວາດເວັບ4j
DESCRIPTION:
crawler4j ແມ່ນຕົວກວາດເວັບແຫຼ່ງເປີດສໍາລັບ Java ເຊິ່ງສະຫນອງການໂຕ້ຕອບງ່າຍດາຍສໍາລັບການລວບລວມຂໍ້ມູນເວັບ. ການນໍາໃຊ້ມັນ, ທ່ານສາມາດຕັ້ງຄ່າຕົວກວາດເວັບຫຼາຍກະທູ້ໃນສອງສາມນາທີ. ທ່ານຈໍາເປັນຕ້ອງສ້າງຫ້ອງຮຽນຕົວກວາດເວັບທີ່ຂະຫຍາຍ WebCrawler. ຫ້ອງຮຽນນີ້ຕັດສິນໃຈວ່າ URL ໃດຄວນຖືກລວບລວມແລະຈັດການກັບຫນ້າທີ່ດາວໂຫລດ. ຟັງຊັນ shouldVisit ຕັດສິນໃຈວ່າ URL ທີ່ໃຫ້ນັ້ນຄວນຈະຖືກກວາດເຂົ້າຫຼືບໍ່. ໃນຕົວຢ່າງຂ້າງເທິງນີ້, ຕົວຢ່າງນີ້ບໍ່ອະນຸຍາດໃຫ້ມີໄຟລ໌ .css, .js ແລະມີເດຍ ແລະອະນຸຍາດໃຫ້ພຽງແຕ່ຫນ້າພາຍໃນໂດເມນ ics ເທົ່ານັ້ນ. ຟັງຊັນການຢ້ຽມຢາມແມ່ນເອີ້ນວ່າຫຼັງຈາກເນື້ອໃນຂອງ URL ຖືກດາວໂຫຼດສໍາເລັດ. ທ່ານສາມາດໄດ້ຮັບ url, ຂໍ້ຄວາມ, ລິ້ງຄ໌, html ແລະ id ເປັນເອກະລັກຂອງຫນ້າທີ່ດາວໂຫລດ. ທ່ານກໍ່ຄວນປະຕິບັດຊັ້ນຄວບຄຸມທີ່ກໍານົດແກ່ນຂອງການລວບລວມຂໍ້ມູນ, ໂຟນເດີທີ່ຂໍ້ມູນການລວບລວມຂໍ້ມູນລະດັບປານກາງຄວນຖືກເກັບໄວ້ແລະຈໍານວນຂອງກະທູ້ທີ່ກົງກັນ.
ຄຸນລັກສະນະ
- ທ່ານກໍ່ຄວນປະຕິບັດຫ້ອງຮຽນຄວບຄຸມທີ່ລະບຸແກ່ນຂອງການລວບລວມຂໍ້ມູນ, ໂຟນເດີທີ່ຂໍ້ມູນການລວບລວມຂໍ້ມູນລະດັບປານກາງຄວນຖືກເກັບໄວ້ແລະຈໍານວນຂອງກະທູ້ພ້ອມກັນ:
- ໂດຍຄ່າເລີ່ມຕົ້ນບໍ່ມີຂອບເຂດຈໍາກັດກ່ຽວກັບຄວາມເລິກຂອງການລວບລວມຂໍ້ມູນ
- ທ່ານສາມາດເປີດໃຊ້ SSL
- ເປີດໃຊ້ການລວບລວມຂໍ້ມູນຖານສອງ
- crawler4j ຖືກອອກແບບຢ່າງມີປະສິດທິພາບແລະມີຄວາມສາມາດໃນການລວບລວມໂດເມນໄວຫຼາຍ
- User-agent string ແມ່ນໃຊ້ເພື່ອສະແດງຕົວກວາດເວັບຂອງທ່ານໃຫ້ກັບເຊີບເວີ
ພາສາການຂຽນໂປຣແກຣມ
Java
ປະເພດ
ນີ້ແມ່ນແອັບພລິເຄຊັນທີ່ຍັງສາມາດເອົາມາຈາກ https://sourceforge.net/projects/crawler4j.mirror/. ມັນໄດ້ຖືກຈັດຢູ່ໃນ OnWorks ເພື່ອໃຫ້ດໍາເນີນການອອນໄລນ໌ໃນວິທີທີ່ງ່າຍທີ່ສຸດຈາກຫນຶ່ງໃນລະບົບປະຕິບັດງານຟຣີຂອງພວກເຮົາ.