यह कमांड ऑटोसर्चपी है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
ऑटोसर्च--एक वेब-खोज ट्रैकिंग एप्लिकेशन
SYNOPSIS
स्वतः खोज [--आँकड़े] [--verbose] -n "क्वेरी नाम" -s "क्वेरी स्ट्रिंग" --इंजन इंजन [--मेल
you@where.com] [--विकल्प "ऑप्ट=वैल"]... [--फ़िल्टर "फ़िल्टर"] [--होस्ट होस्ट] [--पोर्ट पोर्ट]
[--उपयोगकर्ता आईडी bbunny -- पासवर्ड c4rr0t5] [--ignore_channels KABC,KCBS,KNBC] qid
स्वतः खोज --संस्करण स्वतः खोज --सहायता स्वतः खोज --आदमी
वर्णन
स्व: खोज वेब-आधारित खोज करता है और परिणाम निर्धारित करता है qid/index.html.
बाद की खोजें (अर्थात्, ऊपर दूसरा रूप) स्व: खोज निर्धारित करें कि क्या परिवर्तन होता है (यदि
कोई भी) पिछले रन के बाद से भेजे गए परिणामों में घटित हुआ। ये वृद्धिशील परिवर्तन हैं
में दर्ज qid/YYYYMMDD.html.
स्व: खोज के रूप में चलाने योग्य है क्रॉन कार्य क्योंकि सभी इनपुट पैरामीटर सहेजे गए हैं
वेब पेजों में. स्व: खोज किसी विशेष खोज के लिए स्वचालित क्वेरी एजेंट के रूप में कार्य कर सकता है।
परिणाम सेट को आसानी से प्रदर्शित करने के लिए आउटपुट फ़ाइलों को वेब पेजों के एक सेट के रूप में डिज़ाइन किया गया है
एक वेब ब्राउज़र के साथ।
उदाहरण:
स्वतः खोज -एन 'एलएसएएम प्रतिकृति'
-s ''एलएसएएम प्रतिकृति''
-ई अल्टाविस्टा
प्रतिकृति_क्वेरी
यह क्वेरी (जो सभी एक पंक्ति में होनी चाहिए) एक निर्देशिका replication_query और बनाती है
इसे "lsam प्रतिकृति" पर AltaVista क्वेरी के आकर्षक आउटपुट से भर देता है
``एलएसएएम प्रतिकृति'' शीर्षक वाले पृष्ठ। (उद्धरण पर ध्यान दें: ''lsam'' में एकल उद्धरण
प्रतिकृति"' शेल के लिए हैं, दोहरे उद्धरण अल्टाविस्टा की खोज के लिए हैं
अलग-अलग शब्दों के बजाय वाक्यांश।)
एक अधिक जटिल उदाहरण:
ऑटोसर्च -एन 'एलएसएएम के बाहरी लिंक'
-s '(लिंक:www.isi.edu/lsam या लिंक:www.isi.edu/~lsam) -url:isi.edu'
-ई अल्टाविस्टा::एडवांस्डवेब
-ओ शीतलता=गरम
यह क्वेरी एक उन्नत अल्टाविस्टा खोज करती है और (काल्पनिक) ``शीतलता'' निर्दिष्ट करती है
खोज इंजन के लिए विकल्प.
विकल्प
"क्यूडी"
RSI सवाल पहचानकर्ता उस निर्देशिका को निर्दिष्ट करता है जिसमें इससे संबंधित सभी फ़ाइलें शामिल हैं
क्वेरी और खोज परिणाम लाइव रहेंगे. यह एक निरपेक्ष पथ या सापेक्ष पथ हो सकता है
सीडब्ल्यूडी से. यदि निर्देशिका मौजूद नहीं है, तो इसे बनाया जाएगा और एक नई खोज की जाएगी
शुरू कर दिया है।
"--आँकड़े"
खोज आँकड़े दिखाएँ: क्वेरी स्ट्रिंग, हिट्स की संख्या, फ़िल्टर किए गए हिट्स की संख्या,
फ़िल्टर स्ट्रिंग, निलंबित (हटाए गए) हिट की संख्या, पिछले सेट का आकार, वर्तमान सेट
आकार, आदि
"-v" या "--verbose"
वर्बोज़: अतिरिक्त संदेश और चेतावनियाँ आउटपुट करें।
"-n" या "--qn" या "--queryname"
क्वेरी का नाम निर्दिष्ट करें. क्वेरी नाम का उपयोग वेब पेजों में शीर्षक के रूप में किया जाता है,
इसलिए यह क्वेरी स्ट्रिंग का 'अच्छा' दिखने वाला संस्करण होना चाहिए।
"-s" या "--qs" या "--क्वेरीस्ट्रिंग"
क्वेरी स्ट्रिंग निर्दिष्ट करें. क्वेरी स्ट्रिंग वह कैरेक्टर स्ट्रिंग है जो होगी
खोज इंजन को सबमिट किया गया. आप समूह या में विशेष वर्ण शामिल कर सकते हैं
खोज को अर्हता प्राप्त करें.
"-ई" या "--इंजन"
खोज इंजन निर्दिष्ट करें. क्वेरी स्ट्रिंग निर्दिष्ट उपयोगकर्ता को सबमिट की जाएगी
खोज इंजन।
कई मामलों में खोज इंजन के विशेष संस्करण मौजूद हैं। उदाहरण के लिए,
अल्टाविस्टा :: एडवांस्डवेब और अल्टाविस्टा::समाचार अधिक शक्तिशाली और यूज़नेट खोजों की अनुमति दें।
विशेषज्ञता के बारे में विवरण के लिए अल्टाविस्टा या अपने खोज इंजन का मैन पेज देखें
विविधताओं।
"--listnewurls"
सभी सामान्य फ़ाइल रखरखाव के अलावा, सभी नए यूआरएल को STDOUT पर प्रिंट करें, एक प्रति
लाइन.
"-ओ" या "--विकल्प"
क्वेरी विकल्प निर्दिष्ट करें. क्वेरी विकल्प उपयोगकर्ता खोज में सबमिट किए जाएंगे
क्वेरी स्ट्रिंग वाला इंजन. यह सुविधा क्वेरी स्ट्रिंग में संशोधन की अनुमति देती है
किसी विशिष्ट खोज इंजन या विकल्प के लिए. एक से अधिक क्वेरी विकल्प निर्दिष्ट किए जा सकते हैं.
उदाहरण: "-ओ व्हाट=न्यूज़" के कारण अल्टाविस्टा यूज़नेट पर खोज करता है। हालाँकि यह काम करता है,
इस मामले में पसंदीदा तंत्र "-e AltaVista::News" या "-e" होगा
AltaVista::AdvancedNews"। विकल्प आंतरिक या विशेषज्ञ उपयोग के लिए हैं।
"-f" या "--uf" या "--urlfilter"
यह विकल्प एक नियमित अभिव्यक्ति निर्दिष्ट करता है जिसकी तुलना यूआरएल से की जाएगी
कोई परिणाम; यदि वे केस-असंवेदनशील नियमित अभिव्यक्ति से मेल खाते हैं, तो वे होंगे
हिट सेट से हटा दिया गया.
उदाहरण: "-f '.*\.isi\.edu'" ISI के सभी वेब पेजों से बचता है।
"--सफाई मैं"
एक दिन से भी अधिक समय पहले के क्वेरी परिणामों के सभी अंश हटा दें। यदि --सफाई दी गई है,
क्यूआईडी के अलावा अन्य सभी विकल्पों पर ध्यान नहीं दिया जाएगा।
"--cmdline"
उपयोग की गई संपूर्ण कमांड लाइन (ऑटोसर्च और उसके सभी तर्क) का पुनर्निर्माण करें
क्वेरी परिणाम बनाने के लिए. कमांड लाइन STDERR पर दिखाई जाएगी. यदि --cmdline है
दिया गया है, क्यूआईडी के अलावा अन्य सभी विकल्पों को नजरअंदाज कर दिया जाएगा।
"--मेल उपयोगकर्ता@पता" या "-एम उपयोगकर्ता@पता"
खोज पूरी होने के बाद, नए परिणामों को सूचीबद्ध करते हुए उस उपयोगकर्ता को ईमेल भेजें। ईमेल है
HTML प्रारूप. ईमेल::भेजें और संबंधित मॉड्यूल की आवश्यकता है। यदि आप ईमेल भेजते हैं
एक SMTP सर्वर, आपको अपने सर्वर नाम या IP पर पर्यावरण चर SMTPSERVER सेट करना होगा
पता। यदि आपके एसएमटीपी सर्वर को पासवर्ड की आवश्यकता है, तो आपको पर्यावरण चर सेट करना होगा
एसएमटीपीउपयोगकर्ता नाम और एसएमटीपीपासवर्ड। यदि आप सेंडमेल के माध्यम से ईमेल भेजते हैं, तो आपको सेट करना चाहिए
पर्यावरण परिवर्तनीय SENDMAIL यदि सेंडमेल निष्पादन योग्य पथ में नहीं है।
"--उपयोगकर्ता@पता से ईमेल"
यदि आपका आउटगोइंग मेल सर्वर कुछ उपयोगकर्ताओं के ईमेल को अस्वीकार कर देता है, तो आप इसका उपयोग कर सकते हैं
प्रेषक: हेडर सेट करने के लिए तर्क।
"--यूजरआईडी बबनी"
यदि खोज इंजन को लॉगिन/पासवर्ड की आवश्यकता है (जैसे Ebay::Completed), तो इसका उपयोग करें।
"--पासवर्ड Carr0t5"
यदि खोज इंजन को लॉगिन/पासवर्ड की आवश्यकता है (जैसे Ebay::Mature), तो इसका उपयोग करें।
वर्णन
स्व: खोज एक खोज इंजन को एक क्वेरी सबमिट करता है, HTML पेज तैयार करता है जो सेट को प्रतिबिंबित करता है
खोज इंजन द्वारा लौटाए गए 'हिट' (फ़िल्टर किए गए खोज परिणाम) और इन परिणामों को ट्रैक करता है
अधिक समय तक। यूआरएल और शीर्षक प्रदर्शित होते हैं qid/index.html, यूआरएल, शीर्षक, और
विवरण 'साप्ताहिक' फाइलों में प्रदर्शित होते हैं।
इन परिणामों को व्यवस्थित करने के लिए, प्रत्येक खोज परिणाम को एक क्वेरी सूचना निर्देशिका में रखा जाता है
(qid). निर्देशिका खोज परिणाम 'हैंडल' बन जाती है, जो किसी सेट को ट्रैक करने का एक आसान तरीका है
परिणाम। इस प्रकार "/usr/local/htdocs/lsam/autosearch/load_balance" का एक क्यूआईडी पता लगाया जा सकता है
आपके वेब सर्वर पर परिणाम "http://www.isi.edu/lsam/autosearch/load_balancing".
Qid निर्देशिका के अंदर आपको इस क्वेरी से संबंधित फ़ाइलें मिलेंगी। प्राथमिक फ़ाइल है
सूचकांक, जो नवीनतम खोज परिणामों को दर्शाता है। हर एक के लिए फ़िल्टर न किया गया हर हिट
खोज को संग्रहीत किया जाता है सूचकांक. जब कोई हिट खोज इंजन द्वारा नहीं पाया जाता है तो यह a
से निकाला गया सूचकांक. जैसे किसी खोज के नए परिणाम खोज इंजन से लौटाए जाते हैं
उन्हें अंदर रखा गया है सूचकांक.
के तल पर सूचकांक, एक शीर्षक "साप्ताहिक खोज परिणाम" है, जिसे अद्यतन किया गया है
हर बार खोज सबमिट होने पर ("स्वचालित खोज" देखें)। खोज रन की सूची है
विपरीत कालानुक्रमिक क्रम में संग्रहीत। ऐसे रन जो कोई नई जानकारी प्रदान नहीं करते हैं
के साथ पहचान की गई
खोज पर कोई अद्वितीय परिणाम नहीं मिला
जिन रन में परिवर्तन होते हैं उनकी पहचान की जाती है
खोज के लिए वेब खोज परिणाम
जिसमें उस रन से हुए परिवर्तनों का विवरण देने वाला एक पेज लिंक किया जाएगा।
विस्तृत खोज परिणाम साप्ताहिक फ़ाइलों में नोट किए जाते हैं। इन फ़ाइलों को नाम दिया गया है YYYYMMDD.html
और qid निर्देशिका में संग्रहीत हैं। साप्ताहिक फ़ाइलों में URL, शीर्षक और a शामिल हैं
विवरण (यदि उपलब्ध हो)। शीर्षक मूल वेब पेज का लिंक है।
स्वचालित खोज कर
UNIX जैसी प्रणालियों पर, क्रॉन(1) का उपयोग आवधिक खोजों और वेब पेजों को स्थापित करने के लिए किया जा सकता है
द्वारा बनाए रखा जाएगा स्व: खोज. पहली खोज स्थापित करने के लिए, पहले उदाहरण का उपयोग करें
सिनोप्सिस के अंतर्गत. आपको qid, क्वेरी नाम और क्वेरी स्ट्रिंग निर्दिष्ट करनी होगी। यदि इनमें से कोई भी
आइटम गायब हैं, तो आपको गायब आइटम के लिए इंटरैक्टिव रूप से संकेत दिया जाएगा।
एक बार पहली खोज पूरी हो जाने पर आप नीचे दिए गए दूसरे फॉर्म के साथ खोज को फिर से चला सकते हैं
सारांश.
एक क्रॉन प्रविष्टि जैसे:
0 3 * * 1 /nfs/u1/wls/AutoSearch.pl /www/div7/lsam/autosearch/caching
प्रत्येक सोमवार को प्रातः 3:00 बजे खोज चलाने के लिए उपयोग किया जा सकता है। क्वेरी नाम और क्वेरी स्ट्रिंग
दोहराया जा सकता है; लेकिन उनका उपयोग नहीं किया जाएगा. इसका मतलब यह है कि क्रोन लाइन के साथ:
0 3 * * 1 /nfs/u1/wls/AutoSearch.pl /www/div7/lsam/autosearch/caching -n कैशिंग -s कैशिंग
एक पूरी नई खोज शृंखला की शुरुआत की जा सकती है
आरएम -आर /www/div7/lsam/autosearch/caching
हालाँकि, नई खोज शृंखला शुरू करने का एकमात्र कारण पुराने को फेंक देना होगा
साप्ताहिक फ़ाइलें.
हम प्रति दिन एक से अधिक बार खोज चलाने की अनुशंसा नहीं करते हैं, लेकिन यदि ऐसा है तो प्रति-रन फ़ाइलें
यथास्थान अद्यतन किया जाएगा. कोई भी परिवर्तन पृष्ठ पर एक टिप्पणी के साथ जोड़ा जाता है कि "हाल ही में
जोड़ा गया:"; और विलोपन को "हाल ही में निलंबित:" के साथ दर्शाया गया है।
बदल रहा THE देखो OF THE पन्ने
इन दोनों पृष्ठों का मूल प्रारूप सरल और अनुकूलन योग्य है। एक आवश्यकता यह है
मूल संरचना अपरिवर्तित रहती है. HTML टिप्पणियों का उपयोग अनुभागों की पहचान करने के लिए किया जाता है
दस्तावेज़। पहचान करने वाली स्ट्रिंग्स को छोड़कर लगभग सब कुछ बदला जा सकता है
अनुभाग प्रारंभ और समाप्त होता है.
उल्लेखनीय टैग और उनके अर्थ:
.*
इस टैग के भीतर मौजूद टेक्स्ट को आउटपुट के शीर्ष पर रखा गया है
पृष्ठ। यदि पाठ में शामिल है स्व: खोज वेब खोजना, फिर क्वेरी का नाम
इसे बदल देंगे. यदि पाठ में यह जादुई स्ट्रिंग नहीं है और यह है
पहली बार खोज में, उपयोगकर्ता से एक क्वेरी नाम पूछा जाएगा।
ब्रेसिज़ के बीच मौजूद टेक्स्ट क्वेरी स्ट्रिंग है। यह कैसे है
स्व: खोज क्वेरी स्ट्रिंग बनाए रखता है. आप बदलने के लिए इस स्ट्रिंग को संपादित कर सकते हैं
क्वेरी स्ट्रिंग; लेकिन केवल में qid/index.html. टेक्स्ट पूछना उपयोगकर्ता is
विशेष और बल देगा स्व: खोज से खोज स्ट्रिंग का अनुरोध करने के लिए
उपयोगकर्ता.
ब्रेसिज़ के बीच मौजूद टेक्स्ट सर्च इंजन है। अन्य इंजन
HotBot और Lycos समर्थित हैं। आप इसे बदलने के लिए इस स्ट्रिंग को संपादित कर सकते हैं
इंजन का प्रयोग किया गया; लेकिन केवल में qid/index.html. टेक्स्ट पूछना उपयोगकर्ता विशेष है और
मजबूर करेंगे स्व: खोज उपयोगकर्ता से खोज स्ट्रिंग का अनुरोध करने के लिए।
ब्रेसिज़ के बीच मौजूद पाठ एक क्वेरी विकल्प निर्दिष्ट करता है। विभिन्न
इस कमांड के घटित होने पर कई विकल्प निर्दिष्ट करने की अनुमति होती है।
ब्रेसिज़ के बीच मौजूद टेक्स्ट यूआरएल फ़िल्टर है। यह कैसे है
स्व: खोज फ़िल्टर बनाए रखता है. फिर से आप इस स्ट्रिंग को बदलने के लिए संपादित कर सकते हैं
क्वेरी स्ट्रिंग; लेकिन केवल में qid/index.html. टेक्स्ट पूछना उपयोगकर्ता is
विशेष और बल देगा स्व: खोज क्वेरी के लिए उपयोगकर्ता (STDIN) से पूछना
डोरी। पहली खोज सेट करते समय, आपको संपादित करना होगा फर्स्ट_इंडेक्स.html,
नहीं qid/index.html. यूआरएल फ़िल्टर एक मानक perl5 नियमित है
अभिव्यक्ति। जो यूआरएल मेल नहीं खाएंगे उन्हें रखा जाएगा.
.*
इस टैग के भीतर मौजूद टेक्स्ट को आउटपुट के नीचे रखा गया है
पृष्ठ। यह नेविगेशन, पृष्ठ स्वामी जानकारी, आदि डालने के लिए एक अच्छी जगह है
इत्यादि
टैग के शेष भाग त्रिक में आते हैं ~शीर्षक, ~टेम्पलेट, तथा ~, कहाँ ~ है
सारांश, साप्ताहिक, संलग्न और निलंबित। उप-अनुभाग दिए गए क्रम में दिखाई देते हैं। को
एक अनुभाग तैयार करें स्व: खोज शीर्षक, टेम्प्लेट, अनुभाग, n प्रतियों को आउटपुट करता है
स्वरूपित डेटा, और एक /अनुभाग। टैग और उनके कार्य हैं:
~शीर्षक शीर्षक टैग आउटपुट फ़ाइल के एक अनुभाग के शीर्षक की पहचान करता है।
सारांशशीर्षक सारांश भाग आदि के लिए है। अनुभाग हो सकता है
खाली (जैसे, निलंबित) और इस प्रकार कोई शीर्षक आउटपुट नहीं है।
~टेम्पलेट टेम्प्लेट टैग यह पहचानता है कि प्रत्येक आइटम को कैसे स्वरूपित किया जाना है। सरल पाठ
रिप्लेसमेंट का उपयोग टेम्पलेट को वास्तविक आउटपुट टेक्स्ट में बदलने के लिए किया जाता है।
प्रतिस्थापित किया जाने वाला पाठ ALLCAPS में नोट किया गया है।
~ इस टैग का उपयोग अनुभाग (सारांश, साप्ताहिक, आदि) का पता लगाने के लिए किया जाता है। यह
अनुभाग डेटा के वास्तविक एन-आइटम का प्रतिनिधित्व करता है।
आप इन मानों को इसमें संपादित कर सकते हैं qid/index.html किसी मौजूदा खोज का पृष्ठ. फ़ाइल
फर्स्ट_इंडेक्स.html (उपरोक्त निर्देशिका में QID) का उपयोग नए के लिए डिफ़ॉल्ट टेम्पलेट के रूप में किया जाएगा
प्रश्नों।
इन फ़ाइलों के उदाहरण नीचे दिए गए पृष्ठों में देखे जा सकते हैं
"http://www.isi.edu/lsam/tools/autosearch/", या किसी नए द्वारा उत्पन्न आउटपुट में
स्व: खोज।
onworks.net सेवाओं का उपयोग करके ऑनलाइन AutoSearchp का उपयोग करें