ນີ້ແມ່ນແອັບ Linux ທີ່ມີຊື່ວ່າ Heritrix: Internet Archive Web Crawler ເຊິ່ງລຸ້ນຫຼ້າສຸດສາມາດດາວໂຫຼດໄດ້ໃນນາມ heritrix-1.8.0.jar. ມັນສາມາດດໍາເນີນການອອນໄລນ໌ຢູ່ໃນຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີ OnWorks ສໍາລັບສະຖານີເຮັດວຽກ.
ດາວນ໌ໂຫລດແລະດໍາເນີນການອອນໄລນ໌ app ນີ້ຊື່ Heritrix: Internet Archive Web Crawler ກັບ OnWorks ໄດ້ຟຣີ.
ປະຕິບັດຕາມຄໍາແນະນໍາເຫຼົ່ານີ້ເພື່ອດໍາເນີນການ app ນີ້:
- 1. ດາວໂຫຼດຄໍາຮ້ອງສະຫມັກນີ້ໃນ PC ຂອງທ່ານ.
- 2. ໃສ່ໃນຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 3. ອັບໂຫລດແອັບພລິເຄຊັນນີ້ຢູ່ໃນຕົວຈັດການໄຟລ໌ດັ່ງກ່າວ.
- 4. ເລີ່ມ OnWorks Linux ອອນລາຍ ຫຼື Windows online emulator ຫຼື MACOS online emulator ຈາກເວັບໄຊທ໌ນີ້.
- 5. ຈາກ OnWorks Linux OS ທີ່ເຈົ້າຫາກໍ່ເລີ່ມຕົ້ນ, ໄປທີ່ຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 6. ດາວນ໌ໂຫລດຄໍາຮ້ອງສະຫມັກ, ຕິດຕັ້ງມັນແລະດໍາເນີນການ.
Heritrix: Internet Archive Web Crawler
Ad
ລາຍລະອຽດ
ໂຄງການ archive-crawler ກໍາລັງສ້າງ Heritrix: ຕົວກວາດເວັບທີ່ມີຄວາມຍືດຫຍຸ່ນ, ຂະຫຍາຍໄດ້, ແຂງແຮງ, ແລະສາມາດຂະຫຍາຍໄດ້ທີ່ສາມາດດຶງຂໍ້ມູນ, ການເກັບຂໍ້ມູນ, ແລະການວິເຄາະຄວາມຫຼາກຫຼາຍແລະຄວາມກວ້າງຂອງເນື້ອຫາທີ່ສາມາດເຂົ້າເຖິງອິນເຕີເນັດໄດ້.ຄຸນລັກສະນະ
- ຂຸດຄົ້ນເນື້ອຫາເວັບໄຊທ໌ຢ່າງເລິກເຊິ່ງແລະລະອຽດ
- ເຮັດວຽກຢູ່ໃນທຸກເວທີ Java (Linux ແນະນໍາ)
- ເກັບຮັກສາເນື້ອຫາເປັນ ARC ຫຼື ISO WARC ລວບລວມຮູບແບບການຖອດຂໍ້ຄວາມ
- web interface ສໍາລັບການຄວບຄຸມຜູ້ປະຕິບັດການແລະການຕິດຕາມການລວບລວມຂໍ້ມູນ
Audience
ຜູ້ໃຊ້ຂັ້ນສູງ, ນັກພັດທະນາ, ການສຶກສາ, ລັດຖະບານ, ເຕັກໂນໂລຊີຂໍ້ມູນຂ່າວສານ, ອົງການຈັດຕັ້ງທີ່ບໍ່ຫວັງຜົນກໍາໄລ
ໃນການໂຕ້ຕອບຜູ້ໃຊ້
ອີງຕາມເວບໄຊທ໌
ພາສາການຂຽນໂປຣແກຣມ
Java
ສະພາບແວດລ້ອມຖານຂໍ້ມູນ
Berkeley/Sleepycat/Gdbm (DBM)
ນີ້ແມ່ນແອັບພລິເຄຊັນທີ່ຍັງສາມາດເອົາມາຈາກ https://sourceforge.net/projects/archive-crawler/. ມັນໄດ້ຖືກຈັດຢູ່ໃນ OnWorks ເພື່ອໃຫ້ດໍາເນີນການອອນໄລນ໌ໃນວິທີທີ່ງ່າຍທີ່ສຸດຈາກຫນຶ່ງໃນລະບົບປະຕິບັດງານຟຣີຂອງພວກເຮົາ.