Ito ang command htdig na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
htdig - kunin ang mga HTML na dokumento para sa ht://Dig search engine
SINOPSIS
htdig [mga pagpipilian]
DESCRIPTION
Kinukuha ng Htdig ang mga HTML na dokumento gamit ang HTTP protocol at kumukuha ng impormasyon mula sa mga ito
mga dokumento na maaaring magamit sa ibang pagkakataon upang maghanap sa mga dokumentong ito. Maaaring i-refer ang program na ito
bilang robot sa paghahanap.
Opsyon
- Kunin ang listahan ng mga URL upang simulan ang pag-index mula sa karaniwang input. I-override nito ang
default na parameter start_url tinukoy sa config file at ang file na ibinigay sa
ang -m pagpipilian.
-a Gumamit ng mga kahaliling file ng trabaho. Sinasabi sa htdig na idugtong .tatrabaho sa mga file ng database, na nagiging sanhi ng a
pangalawang kopya ng database na gagawin. Pinapayagan nito ang mga orihinal na file na magamit
sa pamamagitan ng htsearch habang tumatakbo ang pag-index.
-c configfile
Gamitin ang tinukoy configfile sa halip na ang default.
-h maxhops
Limitahan ang paghuhukay sa mga dokumentong pinakamarami maxhops mga link mula sa simula
dokumento. Gumagana lamang ito kung opsyon -i binibigay din.
-i Inisyal. Huwag gumamit ng anumang lumang database. Ang mga lumang database ay mabubura bago tumakbo
ang programa.
-m filename
Minimal run. I-index lamang ang mga URL na ibinigay sa file filename, binabalewala ang lahat ng iba pa.
Ang mga URL sa file ay dapat na naka-format ng isang URL bawat linya.
-s Mag-print ng mga istatistika tungkol sa paghuhukay pagkatapos makumpleto.
-t Lumikha ng bersyon ng ASCII ng database ng dokumento. Ang database na ito ay madaling i-parse
sa iba pang mga programa upang ang impormasyon ay maaaring makuha mula dito para sa iba pang mga layunin
kaysa sa paghahanap. Ang isa ay maaaring mangalap ng ilang mga kawili-wiling istatistika mula sa database na ito.
Fieldname halaga
u URL
t Pamagat
isang estado
(0 normal, 1 hindi nahanap, 2 hindi na-index, 3 hindi na ginagamit)
m Oras ng huling pagbabago na iniulat ng server
s Sukat ng Dokumento sa mga byte
H Sipi ng dokumento
h Meta Paglalarawan
l Oras ng huling pagkuha
L Bilang ng mga link sa dokumento o ng papalabas mga link
b Bilang ng mga link sa dokumento, tinatawag din
papasok mga link o Backlink
c Hop count ng dokumentong ito
g Lagda ng dokumentong ito
(ginagamit para makakita ng mga duplicate)
e E-Mail address na gagamitin para sa isang abiso mula sa htnotify
n Petsa kung kailan ipinadala ang naturang abiso
S Paksa ng mensahe ng abiso
d Ang teksto ng mga Papasok na link na tumuturo sa dokumentong ito
(hal. paglalarawan )
Isang Anchor sa dokumento (hal
-u username:password
Sinasabi sa htdig na ipadala ang ibinigay na username at password sa bawat kahilingan sa HTTP. Ang
ang mga kredensyal ay ie-encode gamit ang 'Basic' Pamamaraan Authentication. doon MAY sa
maging isang colon (:) sa pagitan ng username at password.
-v Verbose mode. Pinapataas nito ang verbosity ng programa. Ang paggamit ng higit sa 2 ay
marahil ay kapaki-pakinabang lamang para sa mga layunin ng pag-debug. Ang default na verbose mode (gamit lang
one -v) ay nagbibigay ng magandang ulat sa pag-unlad habang naghuhukay. Mangyaring kumonsulta sa seksyon
sa ibaba sa eksaktong format ng ulat ng pag-unlad.
FORMAT OF ANG Pag-unlad REPORT GIVEN IN VERBOSE MODE
Isang linya ang ipinapakita para sa bawat URL, na may 3 numero bago ang URL at ilang simbolo pagkatapos
ang URL. Ang unang numero ay ang bilang ng mga dokumentong na-parse sa ngayon, ang pangalawa ay
ang DocID para sa dokumentong ito, at ang pangatlo ay ang hop count ng dokumento (number
ng mga hops mula sa isa sa mga start_url na dokumento). Kahulugan ng mga simbolong nakalimbag
pagkatapos ng url:
"*" ay naka-print para sa isang link na binisita na
"+" ay naka-print para sa isang bagong link na nakapila
"-" ay output para sa isang link na tinanggihan para sa alinman sa ilang mga kadahilanan. Para malaman kung ano
ang mga kadahilanang iyon ay, kailangan mong patakbuhin ang htdig na may hindi bababa sa 3 -v mga pagpipilian, ibig sabihin -vvv.
Kung walang "*", "+" o "-" na mga simbolo pagkatapos ng URL, hindi ito nangangahulugan na ang dokumento ay
hindi na-parse o walang laman, ngunit walang mga link sa ibang mga dokumento ang natagpuan sa loob nito.
Sa mas maraming verbose na output, ang mga simbolo na ito ay mapapawi sa ilang linya ng
pag-debug na output.
MGA FILE
/etc/htdig/htdig.conf
Ang default na configuration file.
Gamitin ang htdig online gamit ang mga serbisyo ng onworks.net