Ito ang command na dbacl na maaaring patakbuhin sa OnWorks free hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
dbacl - isang digramic na Bayesian classifier para sa pagkilala sa teksto.
SINOPSIS
dbacl [-01dvnirmwMNDXW] [-T uri ] -l kategorya [-h laki] [-H gsize] [-x decim] [-q
kalidad] [-w max_order] [-e deftok] [-O online] [-L sukatin] [-g regex] ...
[FILE]...
dbacl [-vnimNRX] [-h laki] [-T uri] -c kategorya [-c kategorya]... [-f panatilihin]... [FILE]...
dbacl -V
PANGKALAHATANG-IDEYA
dbacl ay isang Bayesian text at email classifier. Kapag ginagamit ang -l lumipat, natututo ito ng katawan
ng teksto at gumawa ng isang file na pinangalanan kategorya na nagbubuod sa teksto. Kapag ginagamit ang -c
switch, inihahambing nito ang isang input na stream ng teksto sa anumang bilang ng kategorya mga file, at mga output
ang pangalan ng pinakamalapit na tugma, o opsyonal na iba't ibang mga numerical na marka na ipinaliwanag sa ibaba.
Samantalang ang manwal na pahinang ito ay inilaan bilang isang sanggunian, mayroong ilang mga tutorial at
mga dokumentong mababasa mo para makakuha ng espesyal na impormasyon. Tukoy na dokumentasyon tungkol sa
disenyo ng dbacl at ang mga istatistikal na modelo na ginagamit nito ay makikita sa dbacl.ps. Para sa
pangunahing pangkalahatang-ideya ng pag-uuri ng teksto gamit ang dbacl, tingnan ang tutorial.html. Isang kasamang tutorial
na nakatuon sa pag-filter ng email ay email.html. Kung nahihirapan kang kunin ang dbacl sa
pag-uri-uriin nang mapagkakatiwalaan, basahin ang is_it_working.html. Ang seksyong USAGE ng manwal na pahinang ito din
ay may ilang mga halimbawa.
/usr/share/doc/dbacl/dbacl.ps
/usr/share/doc/dbacl/tutorial.html
/usr/share/doc/dbacl/email.html
/usr/share/doc/dbacl/is_it_working.html
dbacl gumagamit ng maximum na entropy (minimum divergence) na modelo ng wika na binuo nang may paggalang
sa isang digramic reference measure (hindi kilalang mga token ay hinuhulaan mula sa mga digram, ibig sabihin, mga pares ng
mga titik). Sa praktikal, nangangahulugan ito na a kategorya ay binuo mula sa mga token sa
set ng pagsasanay, habang ang mga dati nang hindi nakikitang mga token ay maaaring awtomatikong mahulaan mula sa kanilang
mga titik. Ang isang token dito ay alinman sa isang salita (fragment) o kumbinasyon ng mga salita (fragment),
pinili ayon sa iba't ibang mga switch. Ang pag-aaral ay halos gumagana sa pamamagitan ng pagsasaayos ng token
mga probabilidad hanggang sa ang data ng pagsasanay ay hindi nakakagulat.
EXIT STATUS
Ang mga normal na shell exit convention ay hindi sinusunod (sorry!). Kapag ginagamit ang -l utos
anyo, dbacl nagbabalik ng zero sa tagumpay, nonzero kung may naganap na error. Kapag ginagamit ang -c anyo,
dbacl nagbabalik ng positibong integer na tumutugma sa kategorya na may pinakamataas na posterior
probabilidad. Sa kaso ng isang tie, ang unang pinaka-malamang na kategorya ay pinili. Kung may error
nangyayari, dbacl nagbabalik ng zero.
DESCRIPTION
Kapag ginagamit ang -l form ng utos, dbacl natututo ng kategorya kapag binigyan ng isa o higit pang pangalan ng FILE,
na dapat maglaman ng nababasang ASCII text. Kung walang FILE na ibinigay, dbacl natututo mula sa STDIN. Kung
Ang FILE ay isang direktoryo, ito ay binuksan at lahat ng mga file nito ay binabasa, ngunit hindi ang mga subdirectory nito.
Ang resulta ay nai-save sa binary file na pinangalanan kategorya, at ganap na pinapalitan ang anuman
mga nakaraang nilalaman. Bilang kaginhawahan, kung ang variable ng kapaligiran na DBACL_PATH ay naglalaman ng a
direktoryo, pagkatapos ay ilalagay iyon sa landas ng file, maliban kung kategorya nagsisimula sa isang '/' o a
'.'.
Ang input text para sa pag-aaral ay ipinapalagay na unstructured plain text bilang default. Ito ay
hindi angkop para sa pag-aaral ng email, dahil naglalaman ang email ng iba't ibang transport encoding at
mga tagubilin sa pag-format na maaaring mabawasan ang pagiging epektibo ng pag-uuri. Dapat mong gamitin ang -T
lumipat sa kasong iyon upang iyon dbacl alam na dapat itong magsagawa ng pag-decode at pag-filter ng MIME
at HTML kung naaangkop. Ang mga naaangkop na halaga ng switch ay "-T email" para sa RFC2822 email input,
"-T html" para sa HTML input, "-T xml" para sa generic na XML style input at "-T text" ay ang
default na plain text na format. Mayroong iba pang mga halaga ng -T switch na nagbibigay-daan din fine
pag-tune ng mga kakayahan sa pag-decode.
Kapag ginagamit ang -c form ng utos, dbacl sumusubok na uriin ang tekstong makikita sa FILE, o
STDIN kung walang FILE na ibinigay. Bawat posible kategorya dapat ibigay nang hiwalay, at dapat
ang pangalan ng file ng isang dating natutunang text corpus. Bilang isang kaginhawaan, kung ang variable
Ang DBACL_PATH ay naglalaman ng isang direktoryo, ito ay prepended sa bawat file path na hindi magsisimula
na may '/' o '.'. Ang nakikitang output ng klasipikasyon ay depende sa kumbinasyon
ng mga dagdag na switch na ginamit. Kung walang switch na ginagamit, walang output na ipapakita sa STDOUT. gayunpaman,
dbacl palaging gumagawa ng exit code na maaaring masuri.
Upang makita ang isang output para sa isang pag-uuri, dapat mong gamitin ang hindi bababa sa isa sa -v,-U,-n,-N,-D,-d
switch. Minsan, maaari silang gamitin sa kumbinasyon upang makabuo ng natural na pagkakaiba-iba ng
kanilang mga indibidwal na output. minsan, dbacl gumagawa din ng mga babala sa STDERR kung naaangkop.
Ang -v switch output ang pangalan ng pinakamahusay na kategorya sa lahat ng mga pagpipilian na ibinigay.
Ang -U inilalabas ng switch ang pangalan ng pinakamahusay na kategorya na sinusundan ng porsyento ng kumpiyansa.
Karaniwan, ito ang switch na gusto mong gamitin. Ang isang porsyento ng 100% ay nangangahulugan na dbacl
ay sigurado sa pagpili nito, habang ang isang porsyento ng 0% ay nangangahulugan na ang ilang iba pang kategorya ay pantay
malamang. Hindi ito ang posibilidad ng modelo, ngunit sinusukat kung gaano kaliwanag ang pag-uuri
ay, at maaaring gamitin upang i-tag ang mga hindi siguradong pag-uuri (hal kung ang kumpiyansa ay 25% o mas mababa).
Ang -N ini-print ng switch ang bawat pangalan ng kategorya na sinusundan ng (posterior) na posibilidad nito, na ipinahayag
bilang isang porsyento. Ang mga porsyento ay palaging sumasa hanggang 100%. Ito ay intuitive, ngunit mahalaga lamang
kung ang dokumentong inuuri ay naglalaman ng ilang mga token (sampu o mas kaunti). Sa karaniwan
kaso na may marami pang mga token, ang mga probabilidad ay palaging napakalapit sa 100% at 0%.
Ang -n ini-print ng switch ang bawat pangalan ng kategorya na sinusundan ng negatibong logarithm nito
probabilidad. Ito ay katumbas ng paggamit ng -N lumipat, ngunit mas kapaki-pakinabang. Ang pinakamaliit
numero ay nagbibigay ng pinakamahusay na kategorya. Ang isang mas maginhawang form ay ang paggamit ng pareho -n at -v alin
ini-print ang bawat pangalan ng kategorya na sinusundan ng cross entropy at ang bilang ng mga token na nasuri.
Sinusukat ng cross entropy (sa mga bit) ang average na rate ng compression na makakamit,
sa ilalim ng ibinigay na modelo ng kategorya, bawat token ng input text. Kung gagamitin mo ang lahat ng tatlo sa -n,-v,-X
pagkatapos ay isang dagdag na halaga ang output para sa bawat kategorya, na kumakatawan sa isang uri ng p-value para sa bawat isa
marka ng kategorya. Ipinapahiwatig nito kung gaano tipikal ang marka ay inihambing sa pagsasanay
mga dokumento, ngunit gagana lamang kung ang -X ginamit ang switch sa panahon ng pag-aaral, at para lamang sa ilan
mga uri ng mga modelo (hal. email). Ang mga p-value na ito ay pantay na ipinamamahagi at independiyente
(kung independyente ang mga kategorya), maaari itong pagsamahin gamit ang chi squared test ni Fisher sa
kumuha ng pinagsama-samang p-values para sa mga pagpapangkat ng mga kategorya.
Ang -v at -X switch magkasama i-print ang bawat pangalan ng kategorya na sinusundan ng isang detalyadong
agnas ng marka ng kategorya, isinasali sa ( divergence rate + shannon entropy
rate )* bilang ng token @ p-value. Muli, ito ay gumagana lamang sa ilang uri ng mga modelo.
Ang -v at -U ini-print ng mga switch ang bawat pangalan ng kategorya na sinusundan ng agnas ng
kategorya ng marka sa ( divergence rate + shannon entropy rate # score variance )* token
mabilang.
Ang -D ini-print ng switch ang input text bilang binago sa loob ng dbacl bago
tokenization. Halimbawa, kung ang isang MIME na naka-encode na dokumento ng email ay inuri, kung gayon ito
nagpi-print ng na-decode na text na aktuwal na ma-tokenize at mauuri. Ang switch na ito ay
pangunahing kapaki-pakinabang para sa pag-debug.
Ang -d lumipat ng mga dumps token at score habang binabasa ang mga ito. Ito ay kapaki-pakinabang para sa
pag-debug, o kung gusto mong lumikha ng mga graphical na representasyon ng pag-uuri. A
ang detalyadong paliwanag ng output ay lampas sa saklaw ng manwal na pahinang ito, ngunit ito ay
prangka kung nabasa mo ang dbacl.ps. Kabilang sa mga posibleng pagkakaiba-iba -d Kasama -n
or -N.
Ang pag-uuri ay maaaring gawin sa isa o ilang mga kategorya sa prinsipyo. Kapag dalawa o higit pa
ang mga kategorya ay ginagamit, ang Bayesian posterior probability ay ginagamit, ibinigay ang input text,
na may pare-parehong paunang pamamahagi sa mga kategorya. Para sa iba pang mga pagpipilian ng nauna, tingnan ang
kasamang utility bayesol(1). Kapag ginamit ang isang kategorya, maaaring gawin ang pag-uuri
sa pamamagitan ng paghahambing ng puntos sa isang treshold. Gayunpaman, sa pagsasagawa, mas mahusay ang mga resulta
nakuha na may ilang mga kategorya.
Ang pag-aaral at pag-uuri ay hindi maaaring ihalo sa parehong command invocation, gayunpaman mayroon
walang mga isyu sa pag-lock at hiwalay dbacl ang mga proseso ay maaaring gumana nang sabay-sabay na may halata
resulta, dahil ang mga pagpapatakbo ng file ay idinisenyo upang maging atomic.
Sa wakas, tandaan na dbacl ay hindi namamahala sa iyong corpora ng dokumento o iyong nakalkula
mga kategorya, at sa partikular, hindi ka nito pinapayagang palawigin ang isang umiiral nang file ng kategorya
na may mga bagong dokumento. Ito ay hindi katulad ng iba't ibang kasalukuyang mga filter ng spam, na maaaring matuto ng bago
mga email nang paunti-unti. Ang limitasyong ito ng dbacl ay bahagyang dahil sa nonlinear na pamamaraan
ginamit sa algorithm ng pag-aaral, at bahagyang pagnanais para sa mas mataas na kakayahang umangkop.
Maaari mong gayahin ang epekto ng incremental na pag-aaral sa pamamagitan ng pag-save ng iyong mga dokumento sa pagsasanay
archive at pagdaragdag sa mga archive na ito sa paglipas ng panahon, pana-panahong nag-aaral mula sa simula.
Ang pag-aaral ay talagang mas mabilis kung ang mga archive na ito ay na-compress at na-decompress sa mabilisang paraan
Kapag kailangan. Sa pamamagitan ng pagpapanatiling kontrol sa iyong mga archive, hindi mo kailanman mawawala ang impormasyon sa
iyong mga kategorya, at madali kang mag-eksperimento sa iba't ibang switch o tokenization o
hanay ng mga dokumento sa pagsasanay kung gusto mo.
IKALAWANG MGA PALITAN
Sa pamamagitan ng default, dbacl inuri ang input text sa kabuuan. Gayunpaman, kapag ginagamit ang -f pagpipilian,
dbacl ay maaaring gamitin upang i-filter ang bawat linya ng input nang hiwalay, ang pagpi-print lamang ng mga linyang iyon
tumugma sa isa o higit pang mga modelong kinilala ng panatilihin (gamitin ang pangalan o numero ng kategorya para sumangguni sa a
kategorya). Ito ay kapaki-pakinabang kung gusto mong i-filter ang ilang mga linya, ngunit tandaan na kung ang mga linya
ay maikli, kung gayon ang rate ng error ay maaaring mataas.
Ang -e,-w,-g,-j ginagamit ang mga switch para sa pagpili ng naaangkop na pamamaraan ng tokenization. A
token ay isang salita o salita fragment o kumbinasyon ng mga salita o fragment. Ang hugis ng mga token
ay mahalaga dahil ito ang nagiging batayan ng mga modelo ng wika na ginagamit ng dbacl. ang -e
pumipili ang switch ng paunang natukoy na pamamaraan ng tokenization, na mabilis ngunit limitado. Ang -w
Tinutukoy ng switch ang mga composite token na nagmula sa -e lumipat. Halimbawa, "-e alnum -w 2"
nangangahulugan na ang mga token ay dapat na alphanumeric na mga fragment ng salita na pinagsama sa magkakapatong na mga pares
(bigrams). Kapag ang -j switch ay ginagamit, ang lahat ng mga token ay na-convert sa maliit na titik, na
binabawasan ang bilang ng mga posibleng token at samakatuwid ang pagkonsumo ng memorya.
Kung ang -g switch ay ginagamit, maaari mong ganap na tukuyin kung ano ang dapat na hitsura ng mga token
gamit ang isang regular na expression. ilan -g maaaring gamitin ang mga switch upang bumuo ng kumplikado
mga scheme ng tokenization, at mga panaklong sa loob ng bawat expression ay maaaring gamitin upang pumili
mga fragment at pagsamahin ang mga ito sa n-grams. Ang halaga ng naturang flexibility ay nabawasan
pag-uuri at bilis ng pagkatuto. Kapag nag-eeksperimento sa mga scheme ng tokenization, subukang gamitin
ang -d or -D switch habang nag-aaral o nag-uuri, dahil ipi-print nila ang mga token
tahasan upang makita mo kung anong mga fragment ng teksto ang kukunin o napalampas. Para sa regular
expression syntax, tingnan regexNa (7).
Ang -h at -H kinokontrol ng mga switch kung gaano karaming memorya dbacl maaaring gamitin sa pag-aaral. Text
Ang pag-uuri ay maaaring gumamit ng maraming memorya, at bilang default dbacl nililimitahan ang sarili kahit sa
gastos sa katumpakan ng pag-aaral. Sa maraming pagkakataon kung maabot ang isang limitasyon, magkakaroon ng mensahe ng babala
mai-print sa STDERR na may ilang payo.
Kapag natutunan muli ang parehong kategorya ng ilang beses, isang makabuluhang speedup ay maaaring makuha sa pamamagitan ng
gamit ang -1 lumipat, dahil pinapayagan nito ang mga naunang natutunang probabilidad na mabasa mula sa
ang kategorya at ginamit muli.
Tandaan na ang katumpakan ng pag-uuri ay higit na nakadepende sa dami at kalidad ng
mga sample ng pagsasanay, at pagkatapos lamang sa dami ng pagsasaayos.
EXIT STATUS
Kapag ginagamit ang -l form ng utos, dbacl nagbabalik ng zero sa tagumpay. Kapag ginagamit ang -c anyo,
dbacl nagbabalik ng positibong integer (1,2,3...) na tumutugma sa kategorya na may pinakamataas
posterior probability. Sa kaso ng isang tie, ang unang pinaka-malamang na kategorya ay pinili. Kung ang
nangyayari ang pagkakamali, dbacl nagbabalik ng zero.
Opsyon
-0 Kapag nag-aaral, pinipigilan ang pag-preload ng timbang. Karaniwan, dbacl sinusuri kung ang kategorya
umiiral na ang file, at kung gayon, susubukan na gamitin ang mga kasalukuyang timbang bilang panimula
punto. Ito ay maaaring kapansin-pansing mapabilis ang pag-aaral. Kung ang -0 (zero) switch ay nakatakda,
pagkatapos dbacl kumikilos na parang wala nang category file. Ito ay pangunahing kapaki-pakinabang para sa
pagsubok. Ang switch na ito ay pinagana na ngayon bilang default, upang maprotektahan laban sa weight drift
na maaaring mabawasan ang katumpakan sa maraming mga pag-ulit sa pag-aaral. Gamitin -1 upang puwersa
preloading.
-1 Pilitin ang paunang pagkarga ng timbang kung mayroon nang kategoryang file. Tingnan ang talakayan ng
-0 Lumipat.
-a Magdugtong ng mga marka. Ang bawat linya ng pag-input ay isinulat sa STDOUT at ang mga marka ng dbacl ay
nakadugtong. Ito ay kapaki-pakinabang para sa postprocessing na may bayesol(1). Para sa kadalian ng
pagpoproseso, bawat orihinal na linya ng pag-input ay naka-indent ng isang puwang (upang makilala
ang mga ito mula sa mga nakadugtong na mga marka), at ang linya na may mga marka (kung -n ay ginagamit) ay
na may prefix na string na "mga marka". Kung ang pangalawang kopya ng dbacl kailangang basahin ito
output mamaya, dapat itong i-invoke kasama ang -A Lumipat.
-d Itapon ang mga parameter ng modelo sa STDOUT. Kasabay ng -l pagpipilian, ito
gumagawa ng buod na nababasa ng tao ng maximum na modelo ng entropy. Kasabay ng
ang -c opsyon, ipinapakita ang kontribusyon ng bawat token sa huling marka.
Pinipigilan ang lahat ng iba pang normal na output.
-e Pumili ng klase ng character para sa default (hindi batay sa regex) na tokenization. Bilang default,
Ang mga token ay mga alphabetic string lamang. Ito ay tumutugma sa kaso kung kailan deftok is
"alpha". Mga posibleng halaga para sa deftok ay "alpha", "alnum", "graph", "char", "cef"
at "adp". Ang huling dalawa ay mga custom na tokenizer na inilaan para sa mga mensaheng email. Tingnan mo
Rin isalpha(3). Ang "char" tokenizer ay kumukuha ng mga solong napi-print na character sa halip
kaysa sa mas malalaking token, at inilaan para sa pagsubok lamang.
-f I-filter ang bawat linya ng input nang hiwalay, na ipinapasa sa STDOUT lamang na mga linya na tumutugma sa
kategorya nakilala bilang panatilihin. Ang pagpipiliang ito ay dapat gamitin nang paulit-ulit para sa bawat isa
kategorya na dapat ingatan. panatilihin maaaring alinman sa kategorya pangalan ng file, o a
positive integer na kumakatawan sa kinakailangan kategorya sa parehong pagkakasunud-sunod na lilitaw sa
ang command line.
Ang mga linya ng output ay namumula sa sandaling maisulat ang mga ito. Kung ang input file ay isang pipe
o character device, pagkatapos ay isang pagtatangka na gumamit ng line buffering mode, kung hindi man
ang mas mahusay na block buffering ay ginagamit.
-g Alamin lamang ang mga tampok na inilalarawan ng pinalawig na regular na expression regex. ito
override ang default na paraan ng pagpili ng tampok (tingnan -w opsyon) at natututo, para sa bawat isa
linya ng input, mga token lamang ang binuo mula sa pagsasama-sama ng mga string na
tumugma sa mga naka-tag na subexpression sa loob ng ibinigay regex. Lahat ng mga substrings na
tumugma regex sa loob ng isang suffix ng bawat linya ng input ay itinuturing bilang mga tampok, kahit na
nagsasapawan sila sa linya ng input.
Bilang isang opsyonal na kaginhawaan, regex maaaring isama ang panlapi ||xyz na nagpapahiwatig
kung aling mga parenthesized na subexpression ang dapat i-tag. Sa kasong ito, xyz dapat
eksklusibong binubuo ng mga digit 1 hanggang 9, na eksaktong binibilang ang mga subexpression na iyon
dapat naka-tag. Bilang kahalili, kung walang mga panaklong umiiral sa loob regex, kung gayon ito ay
ipinapalagay na ang buong ekspresyon ay dapat makuha.
-h Itakda ang laki ng hash table sa 2^laki mga elemento. Kapag ginagamit ang -l pagpipilian, ito
ay tumutukoy sa kabuuang bilang ng mga feature na pinapayagan sa maximum entropy model being
natutunan. Kapag ginagamit ang -c opsyon kasama ang -M switch at multinomial na uri
mga kategorya, ito ay tumutukoy sa maximum na bilang ng mga tampok na isinasaalang-alang sa panahon
pag-uuri. Kung wala ang -M switch, walang epekto ang opsyong ito.
-i Ganap na internationalized mode. Pinipilit ang paggamit ng malawak na mga character sa loob, na
ay kinakailangan sa ilang mga lugar. Nagkakaroon ito ng kapansin-pansing parusa sa pagganap.
-j Gawing case sensitive ang mga feature. Karaniwan, ang lahat ng mga tampok ay kino-convert sa maliit na titik
sa panahon ng pagproseso, na binabawasan ang mga kinakailangan sa imbakan at pinapabuti ang istatistika
mga pagtatantya para sa maliliit na dataset. Sa opsyong ito, ginagamit ang orihinal na capitalization
para sa bawat tampok. Mapapabuti nito ang katumpakan ng pag-uuri.
-m Agresibong nagmamapa ng mga kategorya sa memorya at i-lock ang mga ito sa RAM upang maiwasan
pagpapalit, kung maaari. Ito ay kapaki-pakinabang kapag ang bilis ay pinakamahalaga at ang memorya ay
marami, halimbawa kapag sinusubukan ang classifier sa malalaking dataset.
Ang pag-lock ay maaaring mangailangan ng nakakarelaks na mga limitasyon ng gumagamit sa limitasyon(1). Tanungin ang iyong sistema
tagapangasiwa. Mag-ingat kapag gumagamit ng -m lumipat kasama ang -o lumipat, bilang lamang
ang isang proseso ng dbacl ay dapat matuto o mag-classify sa isang pagkakataon upang maiwasan ang file corruption. Kung
walang pag-aaral na nagaganap, pagkatapos ay ang -m Ang switch para sa pag-uuri ay palaging ligtas na gamitin.
Tingnan din ang talakayan para sa -o Lumipat.
-n Mag-print ng mga marka para sa bawat isa kategorya. Ang bawat puntos ay produkto ng dalawang numero, ang
cross entropy at ang pagiging kumplikado ng input text sa ilalim ng bawat modelo. Pinarami
magkasama, kinakatawan nila ang posibilidad ng log na ang input ay kahawig ng modelo. Upang
tingnan ang mga numerong ito nang hiwalay, gamitin din ang -v opsyon. Kasabay ng -f
opsyon, huminto sa pag-filter ngunit nagpi-print sa bawat linya ng pag-input na may kasamang listahan ng mga marka
para sa linyang iyon.
-q Pumili kalidad ng pag-aaral, kung saan kalidad maaaring 1,2,3,4. Mas tumatagal ang mas mataas na halaga
upang matuto, at dapat ay bahagyang mas tumpak. Ang default kalidad ay 1 kung ang
kategorya file ay hindi umiiral o ang mga timbang ay hindi maaaring paunang i-load, at 2 kung hindi man.
-o Kapag natututo, nagbabasa/nagsusulat ng mga bahagyang bilang ng token upang magamit muli ang mga ito. Karaniwan,
Ang mga file ng kategorya ay natutunan mula sa eksaktong data ng input na ibinigay, at hindi naglalaman
mga extraneous na impormasyon. Kapag ang opsyon na ito ay may bisa, ang ilang karagdagang impormasyon ay
naka-save sa file online, pagkatapos basahin ang lahat ng input. Maaaring basahin muli ang impormasyong ito
sa susunod na pagkakataong maganap ang pag-aaral, upang magpatuloy kung saan umalis ang nakaraang dataset
off. Kung online ay hindi umiiral, ito ay nilikha. Kung online umiiral, ito ay nabasa bago
pag-aaral, at na-update pagkatapos. Ang file ay humigit-kumulang 3 beses na mas malaki (sa
hindi bababa sa) kaysa sa natutunan kategorya.
In dbacl, ang mga pag-update ng file ay atomic, ngunit kung ginagamit ang -o switch, dalawa o higit pa
Ang mga proseso ay hindi dapat matuto nang sabay-sabay, dahil isang proseso lamang ang magsusulat ng isang pangmatagalang
kategorya at memory dump. Ang -m ang switch ay maaari ding pabilisin ang online na pag-aaral, ngunit
mag-ingat sa posibleng katiwalian. Isang proseso lamang ang dapat magbasa o magsulat ng isang file. Ito
ang opsyon ay pangunahing inilaan para sa mga kinokontrol na pagsubok na tumatakbo.
-r Alamin ang digramic reference model lamang. Nilaktawan ang pag-aaral ng mga karagdagang feature sa
ang text corpus.
-v Verbose mode. Kapag nag-aaral, i-print ang mga detalye ng pag-compute, kung kailan
pag-uuri, i-print ang pangalan ng pinaka-malamang kategorya. Kasabay ng
ang -n opsyon, nagpi-print ng mga marka bilang tahasang produkto ng cross entropy at
ang pagiging kumplikado.
-w Pumili ng mga default na tampok upang maging n-grams hanggang sa max_order. Ito ay hindi tugma sa
ang -g opsyon, na palaging inuuna. Kung hindi -w or -g ang mga pagpipilian ay ibinigay,
dbacl ipinapalagay -w 1. Tandaan na ang n-grams para sa n mas malaki sa 1 ay hindi sumabay sa linya
break bilang default. Ang -S switch ay nagbibigay-daan sa line straddling.
-x Itakda ang posibilidad ng decimation sa 1 - 2^(-decim). Upang bawasan ang mga kinakailangan sa memorya kapag
pag-aaral, ang ilang mga input ay random na nilaktawan, at iilan lamang ang idinagdag sa modelo.
Ang eksaktong pag-uugali ay nakasalalay sa naaangkop -T opsyon (default ay -T "teksto"). Kailan
ang uri ay hindi "email" (hal. "teksto"), pagkatapos ay idinagdag ang mga indibidwal na tampok sa pag-input
posibilidad 2^(-decim). Kapag ang uri ay "email", kung gayon ang mga buong input na mensahe ay
idinagdag na may posibilidad na 2^(-decim). Sa loob ng bawat naturang mensahe, ang lahat ng mga tampok ay
ginagamit.
-A Asahan ang naka-indent na input at mga marka. Gamit ang switch na ito, dbacl inaasahan ang mga linya ng pag-input
naka-indent ng isang character na espasyo (na pagkatapos ay nilaktawan). Mga linyang nagsisimula sa
hindi pinapansin ang ibang karakter. Ito ang katapat sa -a lumipat sa itaas.
Kapag ginamit kasama ng -a lumipat, dbacl output ang mga nilaktawan na linya kung ano ang mga ito,
at muling ilalagay ang espasyo sa harap ng bawat naprosesong linya ng input.
-D I-print ang output ng debug. Huwag gamitin nang normal, ngunit maaaring maging lubhang kapaki-pakinabang para sa pagpapakita ng
listahan ng mga tampok na kinuha habang nag-aaral.
-H Payagan ang hash table na lumaki hanggang sa maximum na 2^gsize elemento sa panahon ng pag-aaral.
Ang paunang sukat ay ibinibigay ng -h pagpipilian.
-L Piliin ang digramic reference measure para sa mga transition ng character. Ang sukatin ay maaaring maging
isa sa "uniform", "dirichlet" o "maxent". Default ay "uniform".
-M Force multinomial kalkulasyon. Kapag nag-aaral, pinipilit ang mga tampok ng modelo na maging
ginagamot sa multinomial. Kapag nag-uuri, itinatama ang mga marka ng entropy upang maipakita
multinomial na probabilities (naaangkop lamang sa mga multinomial type na modelo, kung mayroon).
Ang mga marka ay palaging magiging mas mababa, dahil ang pag-order ng mga tampok ay nawala.
-N I-print ang posterior probabilities para sa bawat isa kategorya. Ipinapalagay nito ang ibinigay
ang mga kategorya ay bumubuo ng isang kumpletong listahan ng mga posibilidad. Kasabay ng -f
opsyon, hihinto sa pag-filter ngunit ini-print ang bawat linya ng input na prepended na may buod ng
posterior distribution para sa linyang iyon.
-R Magsama ng dagdag na kategorya para sa puro random na text. Ang kategorya ay tinatawag na "random".
Makatuwiran lamang kapag ginagamit ang -c pagpipilian.
-S I-enable ang line straddling. Ito ay kapaki-pakinabang kasama ng -w opsyon upang payagan ang n-grams
para sa n > 1 na huwag pansinin ang mga line break, upang ang isang kumplikadong token ay maaaring magpatuloy sa pagtatapos ng
Ang linya. Hindi ito inirerekomenda para sa email.
-T Tukuyin ang hindi karaniwang format ng teksto. Bilang default, dbacl ipinapalagay na ang input text ay a
puro ASCII text file. Ito ay tumutugma sa kaso kung kailan uri ay "teksto".
Mayroong ilang mga uri at subtype na maaaring gamitin upang linisin ang input text ng
mga extraneous na token bago maganap ang aktwal na pag-aaral o pag-uuri. Bawat (sub)uri
na nais mong gamitin ay dapat ipahiwatig na may hiwalay -T opsyon sa command line,
at awtomatikong nagpapahiwatig ng kaukulang uri.
Ang uri ng "text" ay para sa hindi nakabalangkas na plain text. Walang ginagawang paglilinis. Ito ay
ang default kung walang mga uri na ibinigay sa command line.
Ang uri ng "email" ay para sa mbox format na mga input file o solong RFC822 na email. Mga header
ay kinikilala at karamihan ay nilaktawan. Upang magsama ng mga karagdagang RFC822 na karaniwang mga header
(maliban sa mga trace header), gamitin ang subtype na "email:headers". Upang isama ang bakas
header, gamitin ang subtype na "email:theaders". Upang isama ang lahat ng mga header sa email, gamitin
ang subtype na "email:xheaders". Upang laktawan ang lahat ng mga header, maliban sa paksa, gamitin
"email:noheaders". Upang i-scan ang mga binary attachment para sa mga string, gamitin ang "email:atts"
subtype.
Kapag ang uri ng "email" ay may bisa, ang HTML markup ay awtomatikong aalisin sa text
attachment maliban sa text/plain attachment. Upang alisin din ang HTML markup mula sa plain
mga text attachment, gamitin ang "email:noplain". Para maiwasan ang pagtanggal ng HTML markup sa lahat ng text
attachment, gamitin ang "email:plain".
Ang uri ng "html" ay para sa pag-alis ng HTML markup (sa pagitan ng at mga tag) at
nakapalibot na teksto. Tandaan na kung ang uri ng "email" ay pinagana, kung gayon ang "html" ay
awtomatikong pinagana para sa mga katugmang attachment ng mensahe lamang.
Ang uri ng "xml" ay parang "html", ngunit hindi pinarangalan at , at hindi
bigyang-kahulugan ang mga tag (kaya dapat itong mas maayos na tawaging "angle markup" na pag-alis, at
ay walang kinalaman sa aktwal na XML semantics).
Kapag ang "html" ay pinagana, ang karamihan sa mga katangian ng markup ay nawala (para sa mga halaga ng 'pinaka' malapit
sa lahat'). Pinipilit ng subtype na "html:links" na ma-parse at matutunan ang mga url ng link,
na kung hindi man ay hindi papansinin. Pinipilit ng subtype na "html:alt" ang pag-parse ng
alternatibong teksto sa mga katangian ng ALT at iba pang mga tag. Ang "html:scripts"
Pinipilit ng subtype ang pag-parse ng mga script, pinipilit ng "html:styles" ang pag-parse ng mga style,
Pinipilit ng "html:forms" ang pag-parse ng mga value ng form, habang pinipilit ng "html:comments" ang pag-parse ng
Mga komento sa HTML.
-U Print (U)nambiguity. Kapag ginamit kasabay ng -v lumipat, nagpi-print ng mga marka
na sinusundan ng kanilang empirical standard deviations. Kapag ginamit nang mag-isa, ang pinakamahusay na pag-print
kategorya, na sinusundan ng isang tinantyang posibilidad na ang pagpili ng kategoryang ito ay
hindi malabo. Mas tiyak, sinusukat ng probabilidad ang kakulangan ng overlap ng CLT
mga agwat ng kumpiyansa para sa bawat marka ng kategorya (Kung mayroong magkakapatong, mayroon
kalabuan).
Ang tinantyang posibilidad na ito ay maaaring gamitin bilang isang "hindi sigurado" na bandila, hal kung ang tinantiya
ang posibilidad ay mas mababa sa 50%. Sa pormal, ang isang marka na 0% ay nangangahulugan na ang isa pang kategorya ay
pare-parehong malamang na mag-aplay sa input, at ang markang 100% ay nangangahulugang walang ibang kategorya
ay malamang na nalalapat sa input. Tandaan na ang ganitong uri ng pagtitiwala ay walang kaugnayan sa
ang -X lumipat. Gayundin, ang pagtatantya ng posibilidad ay kadalasang mababa kung ang dokumento ay
maikli, o kung ang mensahe ay naglalaman ng maraming mga token na hindi pa nakikita
(nalalapat lamang sa pare-parehong digramic na sukat).
-V I-print ang numero ng bersyon ng programa at lumabas.
-W Tulad ng -w, ngunit pinipigilan ang mga tampok sa pag-straddling sa mga bagong linya. Tingnan ang paglalarawan ng -w.
-X I-print ang kumpiyansa sa iskor na kinakalkula para sa bawat isa kategorya, kapag ginamit nang magkasama
sa -n or -N lumipat. Inihahanda ang modelo para sa mga marka ng kumpiyansa, kapag ginamit kasama ng
ang -l lumipat. Ang kumpiyansa ay isang pagtatantya ng tipikal ng marka,
ipagpalagay ang null hypothesis na ang ibinigay na kategorya ay tama. Kapag ginamit kasama ng
-v switch alone, factorizes ang score bilang ang empirical divergence kasama ang shannon
entropy, pinarami ng pagiging kumplikado, sa ayos na iyon. Ang -X switch ay hindi suportado sa
lahat ng posibleng modelo, at nagpapakita ng porsyento ng "0.0" kung hindi ito makalkula.
Tandaan na para sa hindi kilalang mga dokumento, karaniwan na magkaroon ng mga kumpiyansa na malapit sa
zero.
PAGGAMIT
Upang lumikha ng dalawang kategorya ng mga file sa kasalukuyang direktoryo mula sa dalawang ASCII text file na pinangalanan
Mark_Twain.txt at William_Shakespeare.txt ayon sa pagkakabanggit, i-type ang:
% dbacl -l dalawa Mark_Twain.txt
% dbacl -l iling ang William_Shakespeare.txt
Ngayon ay maaari mong uriin ang input text, halimbawa:
% echo "kamusta" | dbacl -v -c dalawa -c iling
dalawa
% echo "to be or not to be" | dbacl -v -c dalawa -c iling
kalugin
Tandaan na ang -v opsyon man lang ay kinakailangan, kung hindi man dbacl hindi nagpi-print ng kahit ano.
Ang return value ay 1 sa unang kaso, 2 sa pangalawa.
% echo "to be or not to be" | dbacl -v -N -c dalawa -c iling
dalawa 22.63% iling 77.37%
% echo "to be or not to be" | dbacl -v -n -c dalawa -c iling
dalawa 7.04 * 6.0 iling 6.74 * 6.0
Ang mga invocation na ito ay katumbas. Ang mga numero 6.74 at 7.04 ay kumakatawan sa kung gaano kalapit ang
Ang average na token ay para sa bawat kategorya, at 6.0 ang bilang ng mga token na naobserbahan. Kung gusto mo
upang mag-print ng isang simpleng halaga ng kumpiyansa kasama ang pinakamahusay na kategorya, palitan -v sa -U.
% echo "to be or not to be" | dbacl -U -c dalawa -c iling
iling # 34%
Tandaan na ang tunay na posibilidad ng kategorya kalugin laban sa kategorya dalawa ay 77.37%, ngunit ang
ang kalkulasyon ay medyo malabo, at 34% ang kumpiyansa sa 100% na ang
qualitatively tama ang pagkalkula.
Ipagpalagay na ang isang file na document.txt ay naglalaman ng mga English na linya ng teksto na may interspersed na mga linya ng ingay. Upang
i-filter ang mga linya ng ingay mula sa mga linyang Ingles, sa pag-aakalang mayroon kang kasalukuyang kategorya
iling sabihin, i-type:
% dbacl -c shake -f shake -R document.txt > document.txt_eng
% dbacl -c shake -f random -R document.txt > document.txt_rnd
Tandaan na ang kalidad ng mga resulta ay mag-iiba depende sa kung gaano kahusay ang pag-alog ng mga kategorya
at random na kumakatawan sa bawat input line. Minsan kapaki-pakinabang na makita ang posterior
mga probabilidad para sa bawat linya nang walang pag-filter:
% dbacl -c shake -f shake -RN document.txt > document.txt_probs
Maaari mo na ngayong i-postprocess ang posterior probabilities para sa bawat linya ng text sa isa pa
script, upang kopyahin ang isang di-makatwirang panuntunan ng desisyon ng Bayesian na iyong pinili.
Sa espesyal na kaso ng eksaktong dalawang kategorya, ang pinakamainam na pamamaraan ng desisyon ng Bayesian ay maaari
ipatupad para sa mga dokumento tulad ng sumusunod: hayaan p1 ang naunang posibilidad na ang input
ang teksto ay inuri bilang kategorya1. Dahil dito, ang naunang posibilidad ng pag-uuri bilang
kategorya2 ay 1 - p1. Hayaan u12 maging ang halaga ng maling pag-uuri a kategorya1 input ng text bilang
pag-aari sa kategorya2 at vice versa para sa u21. Ipinapalagay namin na walang gastos para sa pag-uuri
tama. Pagkatapos ang sumusunod na utos ay nagpapatupad ng pinakamainam na desisyon ng Bayesian:
% dbacl -n -c kategorya1 -c kategorya2 | awk '{ if($2 * p1 * u12 > $4 * (1 - p1) * u21) {
i-print ang $1; } else { print $3; } }'
dbacl maaari ding gamitin kasabay ng procmail(1) upang ipatupad ang isang simpleng Bayesian
sistema ng pag-uuri ng email. Ipagpalagay na ang papasok na mail ay dapat na awtomatikong maihatid
sa isa sa tatlong mail folder na matatagpuan sa $MAILDIR at pinangalanan trabaho, personal, at spam.
Sa una, dapat itong gawin at punan ng naaangkop na mga sample na email. A crontab(1)
file ay maaaring gamitin upang matutunan ang tatlong kategorya isang beses sa isang araw, hal
CATS=$HOME/.dbacl
5 0 * * * dbacl -T email -l $CATS/trabaho $MAILDIR/trabaho
10 0 * * * dbacl -T email -l $CATS/personal $MAILDIR/personal
15 0 * * * dbacl -T email -l $CATS/spam $MAILDIR/spam
Upang awtomatikong maihatid ang bawat papasok na email sa naaangkop na folder, ang mga sumusunod
procmailrc(5) maaaring gamitin ang fragment ng recipe:
CATS=$HOME/.dbacl
# patakbuhin ang spam classifier
:0 c
YAY=| dbacl -vT email -c $CATS/trabaho -c $CATS/personal -c $CATS/spam
# ipadala sa naaangkop na mailbox
: 0:
* ? pagsubok -n "$YAY"
$MAILDIR/$YAY
: 0:
$DEFAULT
Minsan, dbacl ipapadala ang email sa maling mailbox. Sa kasong iyon, ang misclassified
dapat alisin ang mensahe sa maling destinasyon nito at ilagay sa tamang mailbox.
Itatama ang error sa susunod na matutunan ang iyong mga mensahe. Kung ito ay naiwan sa
maling kategorya, dbacl matututunan ang maling istatistika ng corpus.
Ang mga default na feature ng text (mga token) na binasa ni dbacl ay puro alpabetikong mga string, na
pinapaliit ang mga kinakailangan sa memorya ngunit maaaring hindi makatotohanan sa ilang mga kaso. Upang bumuo ng mga modelo
batay sa mga alphanumeric na token, gamitin ang -e lumipat. Ginagamit din ng halimbawa sa ibaba ang opsyonal
-D switch, na nagpi-print ng listahan ng mga aktwal na token na makikita sa dokumento:
% dbacl -e alnum -D -l dalawa Mark_Twain.txt | mas kaunti
Posible ring i-override ang default na paraan ng pagpili ng tampok na ginamit upang matutunan ang
modelo ng kategorya sa pamamagitan ng mga regular na expression. Halimbawa, ang mga sumusunod ay duplicate ang
default na paraan ng pagpili ng tampok sa lokal na C, habang mas mabagal:
% dbacl -l twain -g '^([[:alpha:]]+)' -g '[^[:alpha:]]([[:alpha:]]+)' Mark_Twain.txt
Ang dalawang kategorya na nakuha ay nakadepende lamang sa iisang alpabetikong salita sa teksto
file na Mark_Twain.txt (at nakalkula ang mga istatistika ng digram para sa hula). Isang saglit
halimbawa, ang sumusunod na command ay bumubuo ng isang pinakinis na Markovian (word bigram) na modelo na
ay nakasalalay sa mga pares ng magkakasunod na salita sa loob ng bawat linya (ngunit ang mga pares ay hindi maaaring sumaklang sa isang linya
pahinga):
% dbacl -l twain2 -g '(^|[^[:alpha:]])([[:alpha:]]+)||2' -g
'(^|[^[:alpha:]])([[:alpha:]]+)[^[:alpha:]]+([[:alpha:]]+)||23' Mark_Twain.txt
Ang mas pangkalahatan, line based, n-gram na mga modelo ng lahat ng order (hanggang 7) ay maaaring itayo sa isang katulad
paraan. Upang makabuo ng mga modelong batay sa talata, dapat mong i-reformat ang input corpora gamit ang
ang awkward(1) o uhaw(1) upang makakuha ng isang talata bawat linya. Ang laki ng linya ay limitado sa pamamagitan ng available
memorya, ngunit tandaan na ang pagganap ng regex ay mabilis na bababa para sa mahabang linya.
PAGGANAP
Ang pinagbabatayan na palagay ng pag-aaral ng istatistika ay ang isang medyo maliit na bilang ng
ang mga dokumento ng pagsasanay ay maaaring kumatawan sa isang mas malaking hanay ng mga dokumento ng pag-input. Kaya sa mahabang
tumakbo, ang pag-aaral ay maaaring huminto nang walang malubhang epekto sa katumpakan ng pag-uuri. Habang
hindi totoo sa katotohanan, ang pagpapalagay na ito ay nakakagulat na tumpak para sa mga problema tulad ng email
pagsasala. Sa pagsasagawa, nangangahulugan ito na ang isang mahusay na napiling corpus sa pagkakasunud-sunod ng sampung libo
Ang mga dokumento ay sapat para sa lubos na tumpak na mga resulta sa loob ng maraming taon. Patuloy na pag-aaral pagkatapos
ang ganitong kritikal na masa ay nagreresulta sa lumiliit na kita. Siyempre, kapag totoong mundo input
kapansin-pansing nagbabago ang mga pattern ng dokumento, maaaring mawala ang predictive power ng mga modelo. Sa
sa kabilang dulo, ang ilang daang dokumento ay nagbibigay na ng mga katanggap-tanggap na resulta sa karamihan ng mga kaso.
dbacl ay lubos na na-optimize para sa kaso ng madalas na pag-uuri ngunit madalang na batch
pag-aaral. Ito ang pinakamainam na pangmatagalan na inilarawan sa itaas. Sa ilalim ng perpektong kondisyon, dbacl maaari
uriin ang isang daang email sa bawat segundo sa low end hardware (500Mhz Pentium III). Pag-aaral
ang bilis ay hindi masyadong mabagal, ngunit mas tumatagal nang epektibo para sa malaking dokumento
mga koleksyon para sa iba't ibang dahilan. Kapag ginagamit ang -m lumipat, ang mga istruktura ng data ay
agresibong nakamapa sa memory kung maaari, binabawasan ang mga overhead para sa parehong I/O at memory
mga alokasyon.
dbacl itinatapon ang input nito sa lalong madaling panahon, at walang limitasyon sa input na dokumento
laki. Ang parehong pag-uuri at bilis ng pagkatuto ay direktang proporsyonal sa bilang ng
mga token sa input, ngunit ang pag-aaral ay nangangailangan din ng isang nonlinear na hakbang sa pag-optimize
oras na proporsyonal sa bilang ng mga natatanging token na natuklasan. Sa oras ng pagsulat, dbacl is
isa sa pinakamabilis na open source na mga filter ng mail dahil sa pinakamainam nitong senaryo sa paggamit, ngunit ginagamit
mas maraming memorya para sa pag-aaral kaysa sa iba pang mga filter.
MADAMI MGA PROSESO AT DATA KORAPSYON
Kapag nagse-save ng mga file ng kategorya, dbacl unang nagsusulat ng pansamantalang file sa parehong lokasyon,
at palitan ang pangalan nito pagkatapos. Kung may problema o pag-crash sa panahon ng pag-aaral, ang lumang kategorya
file samakatuwid ay naiwang hindi nagalaw. Tinitiyak nito na ang mga kategorya ay hindi kailanman maaaring masira, hindi
mahalaga kung gaano karaming mga proseso ang sinusubukang sabay-sabay na matutunan o uriin, at nangangahulugan na wasto iyon
ang mga kategorya ay magagamit para sa pag-uuri anumang oras.
Kapag ginagamit ang -m switch, ang mga nilalaman ng file ay memory na nakamapa para sa mabilis na pagbabasa at pagsusulat.
Ito, kasama ang -o switch, ay pangunahing inilaan para sa mga layunin ng pagsubok, kapag sampu sa
libu-libong mga mensahe ang dapat matutunan at mamarkahan sa isang laboratoryo upang sukatin dbacl's
katumpakan. Dahil walang pagtatangkang pag-lock ng file para sa mga kadahilanan ng pagganap, ang mga katiwalian ay
posible, maliban kung tiyakin mo na isa lang dbacl Ang proseso ay nagbabasa o nagsusulat ng anumang file sa alinman
binigay na oras. Ito ang tanging kaso (-m at -o magkasama) kapag posible ang katiwalian.
ALAALA GAMITIN
Kapag nag-uuri ng isang dokumento, dbacl nilo-load ang lahat ng ipinahiwatig na kategorya sa RAM, kaya ang kabuuan
memory na kailangan ay humigit-kumulang ang kabuuan ng mga laki ng kategorya ng file kasama ang isang nakapirming maliit
sa itaas. Ang input na dokumento ay ginagamit habang binabasa, kaya ang laki nito ay hindi mahalaga,
ngunit ang napakahabang linya ay maaaring tumagal ng espasyo. Kapag ginagamit ang -m lumipat, binabasa ang mga kategorya
paggamit mmap(2) bilang magagamit.
Kapag nag-aaral, dbacl nagpapanatili ng isang malaking istraktura sa memorya na naglalaman ng maraming mga bagay na
ay hindi mase-save sa kategorya ng output. Ang laki ng istrukturang ito ay proporsyonal sa
bilang ng mga natatanging token na nabasa, ngunit hindi ang laki ng mga dokumento ng pag-input, dahil ang mga ito ay
itinatapon habang binabasa. Bilang isang magaspang na gabay, ang istrakturang ito ay 4x-5x ang laki ng
panghuling kategorya ng file na ginawa.
Upang maiwasan ang hindi napigilang paglaki ng memorya, dbacl naglalaan bilang default ng isang nakapirming maliit na halaga ng
memorya para sa mga token. Kapag naubos na ang espasyong ito, itatapon ang mga karagdagang token na mayroong
epekto ng pag-skewing sa natutunang kategorya na ginagawang hindi gaanong magagamit dahil mas maraming token ang nahuhulog. A
ang babala ay naka-print sa STDERR sa ganitong kaso.
Ang -h Hinahayaan ka ng switch na ayusin ang paunang laki ng espasyo ng token sa kapangyarihan na 2, ibig sabihin, "-h 17"
nangangahulugang 2^17 = 131072 posibleng mga token. Kung nag-type ka ng "dbacl -V", makikita mo ang bilang ng
kailangan ng mga byte para sa bawat token kapag nag-aaral o nag-uuri. I-multiply ang numerong ito sa
ang maximum na bilang ng mga posibleng token upang matantya ang memorya na kailangan para sa pag-aaral. Ang -H
magpalit tayo dbacl awtomatikong palaguin ang mga talahanayan nito kung at kapag kinakailangan, hanggang sa maximum
tinukoy. Kaya't kung ita-type mo ang "-H 21", ang paunang sukat ay doble nang paulit-ulit kung
kinakailangan, hanggang sa humigit-kumulang dalawang milyong natatanging token.
Kapag natututo kasama ang -X switch, ang isang maliit na bilang ng mga dokumento ng pag-input ay pinananatili rin sa RAM
sa buong.
Kapaligiran
DBACL_PATH
Kapag ang variable na ito ay nakatakda, ang halaga nito ay prepended sa bawat kategorya filename na
ay hindi nagsisimula sa isang '/' o isang '.'.
Mga TANDA
INT Kung nahuli ang signal na ito, dbacl lalabas lang nang hindi gumagawa ng anumang paglilinis o iba pa
mga operasyon. Madalas na maipadala ang signal na ito sa pamamagitan ng pagpindot sa Ctrl-C sa keyboard. Tingnan mo
sttyNa (1).
HUP, QUIT, TERM
Kung ang isa sa mga senyas na ito ay nahuli, dbacl huminto sa pagbabasa ng input at nagpapatuloy nito
operasyon na parang wala nang magagamit na input. Ito ay isang paraan ng pagtigil nang maganda,
ngunit tandaan na sa learning mode, isang category file ang isusulat batay sa
hindi kumpletong input. Ang QUIT signal ay madalas na maipadala sa pamamagitan ng pagpindot sa Ctrl- sa
keyboard. Tingnan mo sttyNa (1).
USR1 Kung nahuli ang signal na ito, dbacl nire-reload ang kasalukuyang mga kategorya sa pinakamaaga
magagawang pagkakataon. Ito ay hindi karaniwang kapaki-pakinabang, ngunit maaaring maging espesyal
mga kaso, tulad ng kung ang -f switch ay tinatawag na kasama ng input mula sa isang mahabang pagtakbo
tubo
NOTA
dbacl Ang nabuong mga file ng kategorya ay nasa binary na format, at maaaring madala o hindi
system na gumagamit ng ibang byte order architecture (depende ito sa kung paano dbacl ay
pinagsama-sama). Ang -V lumipat ng mga print out kung ang mga kategorya ay portable, o kung hindi, maaari mo lang
eksperimento.
dbacl ay hindi nakikilala ang mga katumbas sa pagganap na mga regular na expression, at sa kasong ito
mabibilang ng maraming beses ang mga duplicate na feature.
Sa bawat natutunang kategorya, nai-save ang mga opsyon sa command line na ginamit. Kailan
pag-uuri, siguraduhin na ang bawat nauugnay na kategorya ay natutunan gamit ang parehong hanay ng
mga opsyon (pinahihintulutang mag-iba ang mga regex), kung hindi, ang pag-uugali ay hindi natukoy. Walang
kailangang ulitin ang lahat ng switch kapag nag-uuri.
Kung nakakakuha ka ng maraming babala sa digitization, sinusubukan mong matuto ng masyadong maraming data nang sabay-sabay,
o masyadong kumplikado ang iyong modelo. dbacl ay pinagsama-sama upang makatipid ng memorya sa pamamagitan ng pag-digitize ng final
weights, ngunit maaari mong i-disable ang digitization sa pamamagitan ng pag-edit ng dbacl.h at muling pag-compile.
dbacl nag-aalok ng ilang mga built-in na tokenizer (tingnan -e switch) na may higit pang darating sa hinaharap
mga bersyon, habang iniimbento ng may-akda ang mga ito. Habang ang default na tokenizer ay maaaring mag-evolve, hindi
Dapat na alisin ang tokenizer, para palagi mong gayahin ang nakaraan dbacl pag-uugali
napapailalim sa mga pag-aayos ng bug at mga pagbabago sa arkitektura.
Ang mga pagtatantya ng kumpiyansa na nakuha sa pamamagitan ng -X ang switch ay underestimates, ibig sabihin ay higit pa
konserbatibo kaysa sa nararapat.
Gamitin ang dbacl online gamit ang mga serbisyo ng onworks.net