ນີ້ແມ່ນຄໍາສັ່ງທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
ent - pseudorandom number sequence test
ສະຫຼຸບສັງລວມ
ent [ທາງເລືອກ] [ໄຟລ໌]
ລາຍລະອຽດ
ໂລໂກ້ ENT
ent ປະຕິບັດຄວາມຫລາກຫລາຍຂອງການທົດສອບໃນກະແສຂອງ bytes ໃນ ເອກະສານ (ຫຼືການປ້ອນຂໍ້ມູນມາດຕະຖານຖ້າບໍ່ມີ
ເອກະສານ ຖືກກໍານົດ) ແລະຜະລິດຜົນຜະລິດຕາມມາດຕະຖານ; ຍົກຕົວຢ່າງ:
Entropy = 7.980627 bits ຕໍ່ຕົວອັກສອນ.
ການບີບອັດທີ່ດີທີ່ສຸດຈະຫຼຸດລົງຂະຫນາດ
ຂອງໄຟລ໌ຕົວອັກສອນ 51768 ນີ້ 0 ເປີເຊັນ.
ການແຈກຢາຍ Chi square ສໍາລັບ 51768 ຕົວຢ່າງແມ່ນ 1542.26, ແລະແບບສຸ່ມ
ຈະເກີນຄ່ານີ້ 0.01 ເປີເຊັນຂອງເວລາ.
ຄ່າສະເລ່ຍເລກເລກຂອງໄບຕ໌ຂໍ້ມູນແມ່ນ 125.93 (127.5 = ສຸ່ມ).
ຄ່າຂອງ Monte Carlo ສໍາລັບ Pi ແມ່ນ 3.169834647 (ຄວາມຜິດພາດ 0.90 ເປີເຊັນ).
ຄ່າສໍາປະສິດຄວາມສຳພັນແບບ Serial ແມ່ນ 0.004249 (ບໍ່ກ່ຽວຂ້ອງກັນທັງໝົດ = 0.0).
ຄ່າທີ່ຄິດໄລ່ແມ່ນດັ່ງຕໍ່ໄປນີ້:
ENTROPY
ຄວາມຫນາແຫນ້ນຂອງຂໍ້ມູນຂອງເນື້ອໃນຂອງໄຟລ໌, ສະແດງອອກເປັນຈໍານວນບິດຕໍ່
ລັກສະນະ. ຜົນໄດ້ຮັບຂ້າງເທິງ, ເຊິ່ງເປັນຜົນມາຈາກການປະມວນຜົນໄຟລ໌ຮູບພາບທີ່ຖືກບີບອັດດ້ວຍ
JPEG, ຊີ້ໃຫ້ເຫັນວ່າໄຟລ໌ມີຄວາມຫນາແຫນ້ນໃນຂໍ້ມູນ - ໂດຍພື້ນຖານແລ້ວແບບສຸ່ມ. ດັ່ງນັ້ນ,
ການບີບອັດໄຟລ໌ບໍ່ໜ້າຈະຫຼຸດຂະໜາດຂອງມັນ. ໃນທາງກົງກັນຂ້າມ, ລະຫັດແຫຼ່ງ C ຂອງ
ໂປລແກລມມີ entropy ປະມານ 4.9 bits ຕໍ່ຕົວອັກສອນ, ສະແດງໃຫ້ເຫັນວ່າດີທີ່ສຸດ
ການບີບອັດໄຟລ໌ຈະຫຼຸດຂະໜາດຂອງມັນລົງ 38%. [Hamming, ຫນ້າ 104-108]
CHI-SQUARE TEST
ການທົດສອບ chi-square ແມ່ນການທົດສອບທີ່ໃຊ້ທົ່ວໄປທີ່ສຸດສໍາລັບການສຸ່ມຂອງຂໍ້ມູນ, ແລະແມ່ນ
ມີຄວາມອ່ອນໄຫວທີ່ສຸດຕໍ່ກັບຄວາມຜິດພາດໃນເຄື່ອງກໍາເນີດລໍາດັບ pseudorandom. chi-square
ການແຈກຢາຍແມ່ນຄິດໄລ່ສໍາລັບກະແສຂອງ bytes ໃນໄຟລ໌ແລະສະແດງອອກເປັນ
ຈຳນວນຢ່າງແທ້ຈິງ ແລະເປີເຊັນທີ່ຊີ້ບອກເຖິງຄວາມຖີ່ຂອງລຳດັບແບບສຸ່ມແທ້ໆ
ຈະເກີນມູນຄ່າທີ່ຄິດໄລ່. ພວກເຮົາຕີຄວາມຫມາຍອັດຕາສ່ວນເປັນລະດັບທີ່
ລໍາດັບການທົດສອບແມ່ນສົງໃສວ່າບໍ່ແມ່ນແບບສຸ່ມ. ຖ້າອັດຕາສ່ວນແມ່ນຫຼາຍກ່ວາ 99% ຫຼື
ຫນ້ອຍກວ່າ 1%, ລໍາດັບແມ່ນເກືອບແນ່ນອນວ່າບໍ່ແມ່ນແບບສຸ່ມ. ຖ້າອັດຕາສ່ວນແມ່ນລະຫວ່າງ
99% ແລະ 95% ຫຼືລະຫວ່າງ 1% ແລະ 5%, ລໍາດັບແມ່ນສົງໃສ. ເປີເຊັນລະຫວ່າງ 90% ແລະ
95% ແລະ 5% ແລະ 10% ຊີ້ໃຫ້ເຫັນເຖິງລໍາດັບແມ່ນ "ເກືອບສົງໃສ". ໃຫ້ສັງເກດວ່າໄຟລ໌ JPEG ຂອງພວກເຮົາ,
ໃນຂະນະທີ່ຂໍ້ມູນມີຄວາມຫນາແຫນ້ນຫຼາຍ, ແມ່ນຢູ່ໄກຈາກການສຸ່ມທີ່ເປີດເຜີຍໂດຍການທົດສອບ chi-square.
ການນໍາໃຊ້ການທົດສອບນີ້ກັບຜົນຜະລິດຂອງການຜະລິດລໍາດັບ pseudorandom ຕ່າງໆແມ່ນ
ຫນ້າສົນໃຈ. ຄໍາສັ່ງຕ່ໍາ 8 bits ກັບຄືນມາໂດຍມາດຕະຖານ Unix ໄຕ້(1) ຫນ້າທີ່, ສໍາລັບ
ຕົວຢ່າງ, ຜົນຜະລິດ:
ການແຈກຢາຍ Chi square ສໍາລັບ 500000 ຕົວຢ່າງແມ່ນ 0.01, ແລະແບບສຸ່ມ
ຈະເກີນຄ່ານີ້ 99.99 ເປີເຊັນຂອງເວລາ.
ໃນຂະນະທີ່ເຄື່ອງກໍາເນີດທີ່ປັບປຸງ [Park & Miller] ລາຍງານວ່າ:
ການແຈກຢາຍ Chi square ສໍາລັບ 500000 ຕົວຢ່າງແມ່ນ 212.53, ແລະແບບສຸ່ມ
ຈະເກີນຄ່ານີ້ 95.00 ເປີເຊັນຂອງເວລາ.
ດັ່ງນັ້ນ, ເຄື່ອງກໍາເນີດ Unix ມາດຕະຖານ (ຫຼືຢ່າງຫນ້ອຍ bytes ຕ່ໍາທີ່ມັນກັບຄືນມາ) ແມ່ນ
unacceptably ທີ່ບໍ່ແມ່ນ Random, ໃນຂະນະທີ່ເຄື່ອງກໍາເນີດທີ່ປັບປຸງແມ່ນດີຂຶ້ນກວ່າຫຼາຍແຕ່ຍັງ
ພຽງພໍທີ່ບໍ່ແມ່ນແບບສຸ່ມເພື່ອເຮັດໃຫ້ເກີດຄວາມກັງວົນຕໍ່ຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການ. ກົງກັນຂ້າມທັງສອງຂອງ
ຜູ້ຜະລິດຊອບແວເຫຼົ່ານີ້ທີ່ມີຜົນ chi-square ຂອງລໍາດັບແບບສຸ່ມທີ່ແທ້ຈິງທີ່ຖືກສ້າງຂື້ນ
ໂດຍກໍານົດເວລາເຫດການການເສື່ອມໂຊມຂອງ radioactive[1]:
ການແຈກຢາຍ Chi square ສໍາລັບ 32768 ຕົວຢ່າງແມ່ນ 237.05, ແລະແບບສຸ່ມ
ຈະເກີນຄ່ານີ້ 75.00 ເປີເຊັນຂອງເວລາ.
ເບິ່ງ [Knuth, ຫນ້າ 35-40] ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການທົດສອບ chi-square. ການໂຕ້ຕອບ chi-
ຈັກຄິດໄລ່ສີ່ຫຼ່ຽມ [2] ແມ່ນມີຢູ່ໃນເວັບໄຊນີ້.
AITHMETIC ໝາຍ ຄວາມວ່າ
ນີ້ແມ່ນພຽງແຕ່ຜົນຂອງການລວບລວມ bytes ທັງຫມົດ (bits ຖ້າ -b ທາງເລືອກແມ່ນລະບຸໄວ້) ໃນ
ໄຟລ໌ແລະແບ່ງຕາມຄວາມຍາວຂອງໄຟລ໌. ຖ້າຂໍ້ມູນຢູ່ໃກ້ກັບແບບສຸ່ມ, ນີ້ຄວນຈະເປັນ
ປະມານ 127.5 (0.5 ສໍາລັບ -b ຜົນຜະລິດທາງເລືອກ). ຖ້າຄ່າສະເລ່ຍອອກຈາກຄ່ານີ້, ຄ່າ
ແມ່ນສູງຫຼືຕໍ່າຢ່າງຕໍ່ເນື່ອງ.
ພູເຂົາ CARLO ມູນຄ່າ FOR PI
ແຕ່ລະລໍາດັບຕໍ່ເນື່ອງຂອງຫົກໄບຕ໌ໄດ້ຖືກນໍາໃຊ້ເປັນ 24 bit ພິກັດ X ແລະ Y ພາຍໃນ a
ສີ່ຫຼ່ຽມ. ຖ້າໄລຍະຫ່າງຂອງຈຸດທີ່ສ້າງຂຶ້ນແບບສຸ່ມແມ່ນຫນ້ອຍກວ່າລັດສະໝີຂອງ a
ແຜ່ນປ້າຍວົງກົມ inscribed ພາຍໃນສີ່ຫຼ່ຽມມົນ, ລໍາດັບຫົກ byte ຖືວ່າເປັນ "ຕີ". ໄດ້
ເປີເຊັນຂອງ hits ສາມາດຖືກນໍາໃຊ້ເພື່ອຄິດໄລ່ມູນຄ່າຂອງ Pi. ສໍາລັບສາຍນ້ໍາຂະຫນາດໃຫຍ່ຫຼາຍ (ນີ້
approximation converges ຫຼາຍຊ້າ), ຄ່າຈະເຂົ້າໃກ້ຄ່າທີ່ຖືກຕ້ອງຂອງ Pi if
ລໍາດັບແມ່ນຢູ່ໃກ້ກັບແບບສຸ່ມ. ໄຟລ໌ 32768 byte ທີ່ສ້າງຂຶ້ນໂດຍການເສື່ອມໂຊມຂອງ radioactive ໄດ້ໃຫ້ຜົນ:
ຄ່າຂອງ Monte Carlo ສໍາລັບ Pi ແມ່ນ 3.139648438 (ຄວາມຜິດພາດ 0.06 ເປີເຊັນ).
ລຳ ດັບ ການພົວພັນກັນ ປະສິດທິພາບ
ປະລິມານນີ້ວັດແທກຂອບເຂດທີ່ແຕ່ລະ byte ໃນໄຟລ໌ແມ່ນຂຶ້ນກັບທີ່ຜ່ານມາ
ໄບຕ໌. ສໍາລັບລໍາດັບແບບສຸ່ມ, ຄ່ານີ້ (ທີ່ສາມາດເປັນບວກຫຼືລົບ) ຈະ, ຂອງ
ແນ່ນອນ, ຢູ່ໃກ້ກັບສູນ. ກະແສໄບຕ໌ທີ່ບໍ່ສຸ່ມເຊັ່ນໂປຣແກມ C ຈະໃຫ້ຜົນເປັນ serial
ຄ່າສຳປະສິດຂອງຄວາມສຳພັນຕາມລຳດັບຂອງ 0.5. ຂໍ້ມູນທີ່ຄາດຄະເນຢ່າງປ່າສະຫງວນເຊັ່ນ: ບໍ່ໄດ້ບີບອັດ
bitmaps ຈະສະແດງຄ່າສໍາປະສິດ serial correlation approaching 1. ເບິ່ງ [Knuth, pp. 64-65]
ສໍາລັບລາຍລະອຽດເພີ່ມເຕີມ.
OPTIONS
-b ການປ້ອນຂໍ້ມູນໄດ້ຮັບການປະຕິບັດເປັນສະຕຣີມຂອງ bits ແທນທີ່ຈະເປັນ 8-bit bytes. ສະຖິຕິ
ລາຍງານສະທ້ອນໃຫ້ເຫັນຄຸນສົມບັດຂອງ bitstream ໄດ້.
-c ພິມຕາຕະລາງຈໍານວນຂອງການປະກົດຕົວຂອງແຕ່ລະ byte ທີ່ເປັນໄປໄດ້ (ຫຼື bit, ຖ້າຫາກວ່າໄດ້ -b
ທາງເລືອກຍັງໄດ້ລະບຸໄວ້) ມູນຄ່າ, ແລະສ່ວນຫນຶ່ງຂອງໄຟລ໌ໂດຍລວມໄດ້ເຮັດໃຫ້ໂດຍ
ມູນຄ່ານັ້ນ. ຕົວອັກສອນທີ່ສາມາດພິມໄດ້ໃນຊຸດຕົວອັກສອນ ISO-8859-1 (Latin-1) ແມ່ນ
ສະແດງໃຫ້ເຫັນພ້ອມກັບຄ່າ decimal byte ຂອງເຂົາເຈົ້າ. ໃນຮູບແບບຜົນຜະລິດທີ່ບໍ່ແມ່ນ terse, ຄ່າທີ່ມີ
ການປະກົດຕົວສູນບໍ່ໄດ້ຖືກພິມອອກ.
-f ພັບຕົວພິມໃຫຍ່ໄປຫາຕົວພິມນ້ອຍກ່ອນການຄິດໄລ່ສະຖິຕິ. ພັບແມ່ນແລ້ວ
ອີງໃສ່ຊຸດຕົວອັກສອນ ISO-8859-1 (Latin-1), ດ້ວຍຕົວອັກສອນທີ່ເນັ້ນສຽງຢ່າງຖືກຕ້ອງ
ການປຸງແຕ່ງ.
-t ຮູບແບບ Terse: ຜົນຜະລິດແມ່ນລາຍລັກອັກສອນໃນຮູບແບບ Comma Separated Value (CSV), ເຫມາະສົມສໍາລັບການ
ໂຫລດໃສ່ໃນສະເປຣດຊີດ ແລະອ່ານໄດ້ງ່າຍດ້ວຍພາສາການຂຽນໂປຼແກຼມໃດນຶ່ງ. ເບິ່ງ Terse
Mode Output Format ຂ້າງລຸ່ມນີ້ສໍາລັບລາຍລະອຽດເພີ່ມເຕີມ.
-u ພິມຂໍ້ມູນວິທີການໂທ.
ໃຊ້ ent ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net