ນີ້ແມ່ນຄໍາສັ່ງ grind ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
grind - process WordNet lexicographer files
ສະຫຼຸບສັງລວມ
gravel [ -v ] [ -s ] [ -Llogfile ] [ -a ] [ -d ] [ -i ] [ -o ] [ -n ] ຊື່ເອກະສານ [
ຊື່ເອກະສານ... ]
ລາຍລະອຽດ
grind() ປະມວນຜົນໄຟລ໌ WordNet lexicographer, ການຜະລິດໄຟລ໌ຖານຂໍ້ມູນທີ່ເຫມາະສົມສໍາລັບການນໍາໃຊ້
ກັບການຄົ້ນຫາ WordNet ແລະລະຫັດການໂຕ້ຕອບແລະຄໍາຮ້ອງສະຫມັກອື່ນໆ. syntactic ແລະ
ຄວາມສົມບູນຂອງໂຄງສ້າງຂອງໄຟລ໌ປ້ອນຂໍ້ມູນຖືກຢືນຢັນ. ຄໍາເຕືອນແລະຄວາມຜິດພາດໄດ້ຖືກລາຍງານຜ່ານ
stderr ແລະບັນທຶກເວລາແລ່ນແມ່ນຜະລິດຢູ່ໃນ stdout. ຖານຂໍ້ມູນຖືກສ້າງຂື້ນພຽງແຕ່ຖ້າມີ
ບໍ່ມີຂໍ້ຜິດພາດ.
ການປ້ອນຂໍ້ມູນ ໄຟ
ໄຟລ໌ປ້ອນເຂົ້າກົງກັບປະເພດ syntactic ທີ່ປະຕິບັດໃນ WordNet - ພາສາ, verb,
adjective ແລະ adverb. ແຕ່ລະໄຟລ໌ lexicographer ປ້ອນຂໍ້ມູນປະກອບດ້ວຍບັນຊີລາຍຊື່ຂອງຊຸດຄໍາສັບຄ້າຍຄື
(ສັງລວມ) ສໍາລັບສ່ວນຫນຶ່ງຂອງການປາກເວົ້າ. ເຖິງແມ່ນວ່າ syntax synset ພື້ນຖານແມ່ນຄືກັນສໍາລັບທັງຫມົດຂອງ
ບາງສ່ວນຂອງການປາກເວົ້າ, ບາງສ່ວນຂອງ syntax ພຽງແຕ່ນໍາໃຊ້ກັບພາກສ່ວນສະເພາະໃດຫນຶ່ງຂອງການປາກເວົ້າ.
ເບິ່ງ wninput(5WN) ສໍາລັບການອະທິບາຍຂອງຮູບແບບໄຟລ໌ປ້ອນຂໍ້ມູນ.
ແຕ່ລະຄົນ ຊື່ເອກະສານ ທີ່ລະບຸໄວ້ແມ່ນຂອງຮູບແບບ:
ຊື່ເສັ້ນທາງ/pos.បច្ច័យ
ບ່ອນທີ່ ຊື່ເສັ້ນທາງ ເປັນທາງເລືອກແລະ pos ແມ່ນທັງ ພາສາ, verb, adj or ຄຳ ແນະ ນຳ. បច្ច័យ ອາດຈະຖືກນໍາໃຊ້
ເພື່ອແຍກກຸ່ມຂອງ synsets ເຂົ້າໄປໃນໄຟລ໌ທີ່ແຕກຕ່າງກັນ, ສໍາລັບການຍົກຕົວຢ່າງ noun.ສັດ ແລະ
noun.ພືດ. ຫນຶ່ງຫຼືຫຼາຍໄຟລ໌ປ້ອນ, ໃນການປະສົມປະສານຂອງປະເພດ syntactic, ອາດຈະເປັນ
ລະບຸ. ເບິ່ງ lexnames(5WN) ສໍາລັບບັນຊີລາຍຊື່ຂອງໄຟລ໌ lexicographer ທີ່ໃຊ້ໃນການສ້າງ
ສົມບູນຖານຂໍ້ມູນ WordNet.
ຜົນຜະລິດ ໄຟ
grind() ຜະລິດໄຟລ໌ຜົນຜະລິດຕໍ່ໄປນີ້:
┌───────────────────── ┬──────────────────────── ────┐
│ filename │ ລາຍລະອຽດ │
├───────────────────────────────────────────── ────┤
│ດັດຊະນີ.pos │ ໄຟລ໌ດັດສະນີສໍາລັບແຕ່ລະປະເພດ syntactic │
│ຂໍ້ມູນ.pos │ ໄຟລ໌ຂໍ້ມູນສໍາລັບແຕ່ລະປະເພດ syntactic │
│index.sense │ ດັດຊະນີຄວາມຮູ້ສຶກ │
└───────────────────────────────────────────────── ────┘
ເບິ່ງ wndb(5WN) ສໍາລັບລາຍລະອຽດຂອງຮູບແບບໄຟລ໌ຖານຂໍ້ມູນ.
ແຕ່ລະຄັ້ງ grind() ຖືກດໍາເນີນການ, ໄຟລ໌ຖານຂໍ້ມູນທີ່ມີຢູ່ແມ່ນຂຽນທັບກັບຖານຂໍ້ມູນ
ໄຟລ໌ທີ່ສ້າງຂຶ້ນຈາກໄຟລ໌ທີ່ລະບຸໄວ້. ຖ້າບໍ່ມີໄຟລ໌ປ້ອນຂໍ້ມູນຈາກ syntactic
ປະເພດຖືກລະບຸ, ໄຟລ໌ຖານຂໍ້ມູນທີ່ສອດຄ້ອງກັນບໍ່ໄດ້ຖືກຂຽນທັບ.
ຄວາມຮູ້ສຶກ ຈໍານວນ
ໂດຍທົ່ວໄປແລ້ວຄວາມຮູ້ສຶກຖືກສັ່ງຈາກສ່ວນໃຫຍ່ໄປຫາຫນ້ອຍທີ່ຖືກນໍາໃຊ້ເລື້ອຍໆ, ໂດຍມີທົ່ວໄປທີ່ສຸດ
ຕົວເລກຄວາມຮູ້ສຶກ 1. ຄວາມຖີ່ຂອງການນໍາໃຊ້ແມ່ນຖືກກໍານົດໂດຍຈໍານວນຂອງເວລາທີ່ຄວາມຮູ້ສຶກຖືກ tagged
ໃນບົດເລື່ອງຄວາມສອດຄ່ອງ semantic ຕ່າງໆ. ຄວາມຮູ້ສຶກທີ່ບໍ່ໄດ້ຖືກ tagged ຕາມຄວາມຫມາຍ
ຄວາມຮູ້ສຶກທີ່ສັ່ງໃນຄໍາສັ່ງ arbitrary. ໃຫ້ສັງເກດວ່າການສັ່ງຊື້ນີ້ແມ່ນພຽງແຕ່ການຄາດຄະເນເທົ່ານັ້ນ
ອີງໃສ່ການນໍາໃຊ້ໃນ corpus ຂະຫນາດນ້ອຍ.
ໄດ້ tagsense_cnt ພາກສະຫນາມສໍາລັບແຕ່ລະລາຍການໃນ ດັດຊະນີ.pos ໄຟລ໌ຊີ້ບອກຈໍານວນໄຟລ໌
ຄວາມຮູ້ສຶກໃນບັນຊີລາຍຊື່ໄດ້ຖືກ tagged.
ໄດ້ cntlist ໄຟລ໌ທີ່ສະຫນອງໃຫ້ກັບຖານຂໍ້ມູນຈະລາຍຊື່ຈໍານວນເວລາທີ່ແຕ່ລະຄວາມຮູ້ສຶກຖືກ tagged
ໃນຄວາມສອດຄ່ອງ semantic. grind() ໃຊ້ຂໍ້ມູນຈາກ cntlist ເພື່ອສັ່ງຄວາມຮູ້ສຶກຂອງ
ແຕ່ລະຄໍາ. ໃນເວລາທີ່ ດັດຊະນີ.pos ໄຟລ໌ທີ່ຖືກສ້າງຂຶ້ນ, ໄດ້ synset_offsets ແມ່ນຜົນຜະລິດໃນຄວາມຮູ້ສຶກ
ລໍາດັບຕົວເລກ, ດ້ວຍຄວາມຮູ້ສຶກ 1 ທໍາອິດໃນບັນຊີລາຍຊື່. ຄວາມຮູ້ສຶກທີ່ມີຈໍານວນດຽວກັນຂອງ semantic
tags ຖືກມອບຫມາຍເປັນຕົວເລກຄວາມຮູ້ສຶກທີ່ເປັນເອກະລັກແຕ່ຕິດຕໍ່ກັນ. WordNet ພາບລວມ ຄົ້ນຫາ
ສະແດງຄວາມຮູ້ສຶກທັງຫມົດຂອງຄໍາທີ່ລະບຸ, ໃນທຸກປະເພດ syntactic, ແລະຊີ້ໃຫ້ເຫັນ
ຄວາມຮູ້ສຶກອັນໃດຖືກສະແດງຢູ່ໃນບົດເລື່ອງທີ່ຕິດປ້າຍຊື່.
OPTIONS
-v ຢືນຢັນຄວາມສົມບູນຂອງການປ້ອນຂໍ້ມູນໂດຍບໍ່ມີການສ້າງຖານຂໍ້ມູນ.
-s ສະກັດກັ້ນການສ້າງຂໍ້ຄວາມເຕືອນ. ປົກກະຕິແລ້ວ gravel ແມ່ນດໍາເນີນການກັບນີ້
ທາງເລືອກຈົນກ່ວາຄວາມຜິດພາດ syntactic ແລະໂຄງສ້າງທັງຫມົດໄດ້ຮັບການແກ້ໄຂນັບຕັ້ງແຕ່
ຂໍ້ຄວາມເຕືອນອາດຈະເຮັດໃຫ້ມັນຍາກທີ່ຈະສັງເກດເຫັນຂໍ້ຄວາມສະແດງຂໍ້ຜິດພາດ.
-Llogfile ຂຽນຂໍ້ຄວາມທັງໝົດໃສ່ logfile ແທນທີ່ stderr.
-a ສ້າງບົດລາຍງານສະຖິຕິກ່ຽວກັບໄຟລ໌ປ້ອນຂໍ້ມູນທີ່ຖືກປະມວນຜົນ.
-d ສ້າງການແຜ່ກະຈາຍຂອງຄວາມຮູ້ສຶກໂດຍບົດລາຍງານຄວາມຍາວສະຕຣິງໃນໄຟລ໌ປ້ອນຂໍ້ມູນ
ການປຸງແຕ່ງ.
-i ສ້າງໄຟລ໌ດັດສະນີຄວາມຮູ້ສຶກ.
-o ຄໍາສັ່ງຄວາມຮູ້ສຶກໂດຍໃຊ້ cntlist.
-n ສ້າງການເຊື່ອມຕໍ່ນາມສະກຸນ (ສະກຸນເດີມ) ໃນຖານຂໍ້ມູນ.
ຊື່ເອກະສານ ໄຟລ໌ປ້ອນຂໍ້ມູນຂອງແບບຟອມທີ່ອະທິບາຍໄວ້ໃນ ການປ້ອນຂໍ້ມູນ ໄຟລ໌.
ໃຊ້ grind online ໂດຍໃຊ້ບໍລິການ onworks.net