זהו הפקודה pavuk שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
pavuk - HTTP, HTTP על SSL, FTP, FTP על SSL ואחזור מסמכים רקורסיביים של Gopher
התוכנית
תַקצִיר
פאבוק [-מצב {נוֹרמָלִי | מתחדש | עמוד יחיד | singlereget | לסנכרן | לא לאחסן | ftpdir
| מַרְאָה}] [-איקס] [-runX] [-bg/-nobg] [prefs/-noprefs] [-ח] [-v] [-התקדמות/-לא התקדמות]
[-stime/-nostime] [-xmaxlog $nr] [-קובץ לוג $file] [-slogfile $file] [-auth_file $file]
[-msgcat $dir] [-שפה $str] [-gui_font $font] [-שקט/-רבות [-read_css/-noread_css]
[-cdir $dir] [-scndir $dir] [-תַרחִישׁ $str] [-dumpscn $filename] [-lmax $nr] [-dmax $nr]
[-leave_level $nr] [-גודל מקסימלי $nr] [-גודל קטן $nr] [-אתר $list] [-dsite $list] [-דומיין
$list] [-דומיין $list] [-asfx $list] [-dsfx $list] [-תחילית $list] [-dprefix $list]
[-אמית $list] [-דמימט $list] [-תבנית $pattern] [-url_pattern $pattern] [-rpattern
$regexp] [-url_rpattern $regexp] [-דלג_דפוס $pattern] [-skip_url_pattern $pattern]
[-skip_rpattern $regexp] [-skip_url_rpattern $regexp] [-חדש יותר מ $time] [-ישן מ
$time] [-לוח זמנים $time] [-לוח זמנים מחדש $nr] [-dont_leave_site/-leave_site]
[-dont_leave_dir/-leave_dir] [-http_proxy $site[:$port]] [-ftp_proxy $site[:$port]]
[-ssl_proxy $site[:$port]] [-gopher_proxy $site[:$port]] [-ftp_httpgw/-noftp_httpgw]
[-ftp_dirtyproxy/-noftp_dirtyproxy] [-gopher_httpgw/-nogopher_httpgw] [-noFTP/-FTP]
[-noHTTP/-HTTP] [-noSSL/-SSL] [-noGopher/-Gopher] [-FTPdir/-noFTPdir] [-noCGI/-CGI]
[-FTPlist/-noFTPlist] [-FTPhtml/-noFTPhtml] [-לאRelocate/-Relocate]
[-force_reget/-noforce_reget] [-nocache/-cache] [-check_size/-nocheck_size]
[-noRobots/-Robots] [-noEnc/-Enc] [-auth_name $user] [-auth_passwd $pass] [-auth_scheme
1/2/3/4/משתמש/Basic/Digest/NTLM] [-auth_reuse_nonce/-no_auth_reuse_nonce] [-http_proxy_user
$user] [-http_proxy_pass $pass] [-http_proxy_auth 1/2/3/4/משתמש/Basic/Digest/NTLM]
[-auth_reuse_proxy_nonce/-no_auth_reuse_proxy_nonce] [-ssl_key_file $file] [-ssl_cert_file
$file] [-ssl_cert_passwd $pass] [-מ $email] [-send_from/-nosend_from] [-זהות $str]
[-auto_referer/-noauto_referer] [-referer/-noreferer] [-אלנג $list] [-charset $list]
[-נסה שוב $nr] [-nregets $nr] [-nredirs $nr] [-גלגל לאחור $nr] [-לִישׁוֹן $nr] [-פסק זמן $nr]
[-שמר_זמן/-זמן_לא-שמירה] [-preserve_perm/-nopreserve_perm]
[-preserve_slinks/-nopreserve_slinks] [-Bufsize $nr] [-תעריף מקסימום $nr] [-מינרט $nr]
[-user_condition $str] [-cookie_file $file] [-cookie_send/-nocookie_send]
[-cookie_recv/-nocookie_recv] [-cookie_update/-nocookie_update] [-cookies_max $nr]
[-disabled_cookie_domains $list] [-disable_html_tag $TAG,[$ATTRIB][;...]]
[-enable_html_tag $TAG,[$ATTRIB][;...]] [-tr_del_chr $str] [-tr_str_str $str1 $str2]
[-tr_chr_chr $chrset1 $chrset2] [-index_name $str] [-store_index/-nostore_index]
[-שם חנות $str] [-debug/-nodebug] [-debug_level $level] [-דפדפן $str] [-urls_file
$file] [-file_quota $nr] [-trans_quota $nr] [-fs_quota $nr] [-enable_js/-disable_js]
[-fnrules $t $m $r] [-store_info/-nostore_info] [-all_to_local/-noall_to_local]
[-sel_to_local/-nosel_to_local] [-all_to_remote/-noall_to_remote] [-url_strategie
$strategie] [-remove_adv/-noremove_adv] [-adv_re $RE] [-check_bg/-nocheck_bg]
[-send_if_range/-nosend_if_range] [-sched_cmd $str] [-unique_log/-nounique_log] [-post_cmd
$str] [-ssl_version $v] [-unique_sslid/-nounique_sslid] [-aip_pattern $re] [-dip_pattern
$re] [-use_http11/-nouse_http11] [-local_ip $addr] [-בַּקָשָׁה $req] [-טופס מידע $req]
[-httpad $str] [-nthreads $nr] [-immesg/-noimmesg] [-dumpfd $nr] [-dump_urlfd $nr]
[-unique_name/-nounique_name] [-leave_site_enter_dir/-dont_leave_site_enter_dir]
[-max_time $nr] [-del_after/-nodel_after] [-singlepage/-nosinglepage]
[-dump_after/-nodump_after] [-dump_response/-nodump_response] [-auth_ntlm_domain $str]
[-auth_proxy_ntlm_domain $str] [-js_pattern $re] [-follow_cmd $str]
[-retrieve_symlink/-noretrieve_symlink] [-js_transform $p $t $h $a] [-js_transform2 $p $t
$h $a] [-ftp_proxy_user $str] [-ftp_proxy_pass $str] [-limit_inlines/-dont_limit_inlines]
[-ftp_list_options $str] [-fix_wuftpd_list/-nofix_wuftpd_list]
[-post_update/-nopost_update] [-info_dir $dir] [-mozcache_dir $dir] [-נמל $list] [-dport
$list] [-hack_add_index/-nohack_add_index] [-default_prefix $str] [-rsleep/-norsleep]
[-ftp_login_shake $מארח לחיצת יד $] [-js_script_file $file] [-dont_touch_url_pattern
$פט] [-dont_touch_url_rpattern $פט] [-dont_touch_tag_rpattern $פט] [-tag_pattern $tag
$attrib $url] [-tag_rpattern $tag $attrib $url] [-nss_cert_dir $dir]
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
[-nss_domestic_policy/-nss_export_policy] [-[לא]אמת] [-tlogfile $file] [-יחסי
{לְהִתְנַגֵד | תכנית}] [-שקוף_פרוקסי FQDN[:port]] [-שקוף_ssl_proxy FQDN[:port]]
[-sdemo] [-noencode] [כתובות אתרים]
פאבוק -מצב {נוֹרמָלִי | עמוד יחיד | singlereget} [-רמה בסיסית $nr]
פאבוק -מצב לסנכרן [-ימים $nr] [-subdir $dir] [-remove_old/-noremove_old]
פאבוק -מצב מתחדש [-subdir $dir]
פאבוק -מצב עדכון קישור [-איקס] [-ח] [-v] [-cdir $dir] [-subdir $dir] [-scndir $dir]
[-תַרחִישׁ $str]
פאבוק -מצב תזכורת [-remind_cmd $str]
פאבוק -מצב ראי [-subdir $dir] [-remove_old/-noremove_old]
[-remove_before_store/-noremove_before_store] [-always_mdtm/-noalways_mdtm]
תיאור
דף מדריך זה מתאר כיצד להשתמש ב-pavuk. ניתן להשתמש ב- Pavuk לשיקוף תוכן של
שרתי אינטרנט/אינטרנט ולשמור עותקים בעץ מקומי של מסמכים. פאבוק
מאחסן מסמכים שאוחזרו בשטח דיסק ממופה מקומית. מבנה העץ המקומי
זהה לזה שבשרת המרוחק. לכל שירות נתמך (פרוטוקול) יש משלו
ספריית משנה בעץ המקומי. לכל שרת עם הפניה יש ספריית משנה משלו באלה
ספריות משנה של פרוטוקולים; ואחריו מספר היציאה שעליו נמצא השירות,
ניתן לשנות את המופרד על ידי תו. עם האופציה -כללים אתה יכול לשנות את
פריסת ברירת המחדל של עץ המסמכים המקומי, מבלי לאבד את עקביות הקישור.
עם פאבוק אפשר להחזיק עותקים עדכניים של מסמכים מרוחקים בדיסק המקומי
חלל.
החל מגרסה 0.3pl2, pavuk יכול להפעיל מחדש באופן אוטומטי חיבורים שבורים, ולהתחדש
תוכן חלקי משרת FTP (שחייב לתמוך ב- REST פקודה), מאת כראוי
שרת HTTP/1.1 מוגדר, או משרת HTTP/1.0 התומך טווחים.
החל מגרסה 0.6 ניתן לטפל בתצורות באמצעות מה שנקרא תרחישים. ה
הדרך הטובה ביותר ליצור קובץ תצורה כזה היא להשתמש בממשק X Window ובפשטות
לשמור את התצורה שנוצרה. הדרך השנייה היא להשתמש במתג -dumpscn.
החל מגרסה 0.7pl1 ניתן לאחסן מידע אימות ב-authinfo
קובץ, אשר pavuk יכול לנתח ולהשתמש בו.
החל מגרסה 0.8pl4 pavuk יכול להביא מסמכים לשימוש בשרת פרוקסי/מטמון מקומי
מבלי לאחסן אותם בעץ המסמכים המקומי.
נכון לגרסה 0.9pl4 pavuk תומך גרביים (4 / 5) פרוקסי אם יש לך את הדרוש
ספריות.
החל מגרסה 0.9pl12 pavuk יכול לשמור הרשאות של קבצים מרוחקים וקישורים סמליים,
כך שניתן להשתמש בו לשיקוף FTP רב עוצמה.
Pavuk תומך בחיבורי SSL לשרתי FTP, אם אתה מציין ftps:// URL במקום
ftp://.
Pavuk יכול לטפל באופן אוטומטי בשמות קבצים עם תווים לא בטוחים עבור מערכת הקבצים. זה
עדיין מיושם רק עבור פלטפורמת Win32 והוא מקודד קשה.
Pavuk יכול כעת להשתמש HTTP / 1.1 פרוטוקול לתקשורת עם שרתי HTTP. זה יכול להשתמש
חיבורים מתמשכים, לכן יש להשתמש בחיבור TCP אחד להעברת מספר מסמכים
מבלי לסגור אותו. תכונה זו חוסכת רוחב פס של הרשת וגם מאיץ את הרשת
תקשורת.
Pavuk יכול לעשות הגדרה POST בקשות לשרתי HTTP ותמיכה גם בהעלאת קבצים
באמצעות בקשת HTTP POST.
Pavuk יכול למלא באופן אוטומטי טפסי HTML שנמצאו, אם המשתמש יספק נתונים עבור השדות שלו
לפני עם אופציה -טופס מידע.
Pavuk יכול להריץ מספר ניתן להגדרה של שרשורי הורדה הפועלים בו-זמנית כאשר
מורכב עם תמיכה בריבוי השחלות.
פוּרמָט of נתמך כתובות
HTTP
http://[[user][:password]@]host[:port][/document]
[[משתמש][:סיסמה]@]מארח[:פורט][/document]
HTTPS
https://[[user][:password]@]host[:port][/document]
ssl[.domain][:port][/document]
fTP
ftp://[[משתמש][:סיסמה]@]מארח[:פורט][/relative_path][;type=x]
ftp://[[משתמש][:סיסמה]@]מארח[:פורט][//absolute_path][;type=x]
ftp[.domain][:port][/document][;type=x]
FTPS
ftps://[[משתמש][:סיסמה]@]מארח[:פורט][/relative_path][;type=x]
ftps://[[משתמש][:סיסמה]@]מארח[:פורט][//absolute_path][;type=x]
ftps[.domain][:port][/document][;type=x]
סְנָאִי הָעַרָבָה
gopher://host[:port][/type[document]]
gopher[.domain][:port][/type[document]]
בְּרִירַת מֶחדָל מיפוי of כתובות ל מקומי שמות קבצים
HTTP
http://[[user][:password]@]host[:port][/document][?query]
ל
http/host_port/[document][?query]
HTTPS
https://[[user][:password]@]host[:port][/document][?query]
ל
https/host_port/[מסמך][?query]
fTP
ftp://[[משתמש][:סיסמה]@]מארח[:פורט][/נתיב]
ל
ftp/host_port/[נתיב]
FTPS
ftps://[[משתמש][:סיסמה]@]מארח[:פורט][/נתיב]
ל
ftps/host_port/[נתיב]
סְנָאִי הָעַרָבָה
gopher://host[:port][/type[document]]
ל
gopher/host_port/[סוג[מסמך]]
הערה: Pavuk ישתמש במחרוזת שבה הוא מבצע שאילתות לשרת היעד כשם ה-
קובץ התוצאות. שם קובץ זה עשוי, במקרים מסוימים, להכיל סימני פיסוק כגון $,?,=,& וכו '
סימני פיסוק כאלה עלולים לגרום לבעיות כאשר אתה מנסה לגלוש עם קבצים שהורדת
הדפדפן שלך או שאתה מנסה לעבד קבצים שהורדת עם סקריפטים של מעטפת או תצוגה
קבצים עם כלי עזר לניהול קבצים שמתייחסים לשם של קובץ התוצאות. אם אתה
מאמין שזה עלול לגרום לך לבעיות, אז תוכל להסיר את כל סימני הפיסוק מ
שם קובץ התוצאה עם האפשרות: -tr_del_chr [:punct:] או עם אפשרויות אחרות עבור
התאמת שמות קבצים.
אפשרויות
כל האפשרויות אינן תלויות רישיות.
רשימה of אפשרויות פרקים
מצב
עֶזרָה
ציין/רישום/ממשק אפשרויות
נטלי אפשרויות
מיוחד התחלה
תרחיש/משימה אפשרויות
מַדרִיך אפשרויות
לשמור אפשרויות
פרוקסי אפשרויות
פרוקסי אימות
פרוטוקול/הורדה אפשרות
אימות
אתר/דומיין/יציאה הגבלה אפשרויות
הגבלה מסמך נכסים
הגבלה מסמך שם
הגבלה פרוטוקול אפשרות
אחר הגבלה אפשרויות
Javascript תמיכה
עוגיה
HTML שִׁכתוּב מנוע כונון אפשרויות
שם קובץ/כתובת אתר המרה אפשרות
אחר אפשרויות
מצב
-מצב {נוֹרמָלִי, עדכון קישור, סינכרון, עמוד יחיד, סינגלרג'ט, resumeregets}
הגדר מצב פעולה.
נוֹרמָלִי - מאחזר מסמכים רקורסיביים
עדכון קישור - עדכן כתובות URL מרוחקות במסמכי HTML מקומיים לכתובות URL מקומיות אם כתובות אתרים אלו
קיימים בעץ המקומי
לסנכרן - סנכרן מסמכים מרוחקים עם עץ מקומי (אם עותק מקומי של מסמך
ישן יותר מאשר מרחוק, המסמך מאוחזר שוב, אחרת שום דבר לא קורה)
עמוד יחיד - כתובת האתר מאוחזרת כעמוד אחד עם כל האובייקטים המוטבעים (תמונה, צליל
...) מצב זה מיושן כעת על ידי -עמוד יחיד אוֹפְּצִיָה.
מתחדש - pavuk סורק את העץ המקומי לאיתור קבצים שלא אוחזרו במלואם
ומחזיר אותם שוב (משתמש בקבל חלקי אם אפשר)
singlereget - קבל כתובת URL עד שתאוחזר במלואה
לא לאחסן - העבר דף מהשרת, אך אל תאחסן אותו בעץ המקומי. זֶה
מצב מתאים לאחזור דפים המוחזקים בשרת פרוקסי/מטמון מקומי.
תזכורת - משמש ליידע את המשתמש על מסמכים שהשתנו
ftpdir - משמש לרשימת התוכן של ספריות FTP
ברירת המחדל של מצב הפעולה הוא נוֹרמָלִי מצב.
עֶזרָה
-h הדפס הודעת עזרה מפורטת ארוכה
-v הצג מידע גרסה ותצורה בזמן הידור.
ציין/רישום/ממשק אפשרויות
-שֶׁקֶט אל תציג הודעות על המסך.
-שורש
הכרח להציג הודעות פלט על המסך (ברירת מחדל)
-התקדמות/-לא התקדמות
הצג התקדמות אחזור בזמן ריצה בטרמינל (ברירת המחדל היא התקדמות כבויה)
-זמן/-נוזמן
הצג את שעת ההתחלה והסיום של ההעברה. (ברירת מחדל, המידע הזה אינו מוצג)
-xmaxlog $nr
המספר המרבי של שורות יומן בווידג'ט היומן. 0 פירושו בלתי מוגבל. אפשרות זו היא
זמין רק כאשר הוא מורכב עם GTK+ GUI. (ערך ברירת המחדל הוא 0)
-קובץ לוג $file
קובץ שבו מאוחסנות כל ההודעות שהופקו.
-unique_log/-nounique_log
כאשר קובץ יומן כפי שצוין עם האפשרות -קובץ לוג כבר בשימוש על ידי אחר
בתהליך, נסה ליצור שם ייחודי חדש עבור קובץ היומן. (ברירת המחדל היא אפשרות זו
כבוי)
-Slogfile $file
קובץ לאחסון רישומים קצרים. קובץ זה מכיל שורה אחת של מידע לכל
מסמך מעובד. זה נועד לשמש בקשר עם כל סוג של סקריפט
להפקת נתונים סטטיסטיים, לאימות קישורים באתר האינטרנט שלך, או להפקה
מפות אתר פשוטות. תהליכי pavuk מרובים יכולים להשתמש בקובץ זה במקביל, ללא
החלפת ערכים אחד של השני. מבנה רשומה:
- מח"ש של תהליך pavuk
- זמן זמן נוכחי
- COUNTER בפורמט הנוכחי/מספר הכולל של כתובות אתרים
- סטָטוּס מכיל את סוג השגיאה: FATAL, ERR,
אזהרה או בסדר
- ERRCODE הוא קוד המספר של השגיאה
(ראה errcode.h במקורות pavuk)
- כתובת האתר של המסמך
- הורה מסמך האב הראשון של כתובת האתר הזו
(כאשר אין לה הורה - [אין])
- שם קובץ הוא שם הקובץ המקומי ה
המסמך נשמר תחת
- גודל גודל המסמך המבוקש אם ידוע
- DOWNLOAD_TIME זמן שלוקח הורדה של זה
מסמך בפורמט seconds.mili_seconds
- HTTPRESP מכיל את השורה הראשונה של שרת ה-HTTP
תגובה
-שפה $ str
שפת אם ש-pavuk צריך להשתמש בה לתקשורת עם המשתמש שלה (פועלת בלבד
כאשר יש קטלוג הודעות לשפה זו) גנה gettext תמיכה (להודעה
אינטרנציונליזציה) חייב להיות גם קומפילד ב. שפת ברירת המחדל נלקחת מהשפת שלך
משתני סביבת NLS.
-gui_font גופן $
גופן בשימוש בממשק GUI. כדי לרשום X גופנים זמינים השתמש ב- xlsfonts פקודה.
אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכה ב-GTK+ GUI.
נטלי אפשרויות
-[no]read_css
אפשר או השבת שליפת אובייקטים המוזכרים בגיליונות סגנונות.
- [לא] לאמת
הפעל או השבת שרת אימות CERTS במצב SSL.
-tlogfile $file
הפעל רישום Netli עם פלט לקובץ שצוין.
-יחסי {לְהִתְנַגֵד | תכנית}
בצע תזמוני Netli ביחס לתחילת האובייקט הראשון או התוכנית.
-פרוקסי_שקוף FQDN[:port]
בעת עיבוד כתובת URL, שלח את המקור, אך שלח אותו לכתובת ה-IP ב-FQDN
-שקוף_ssl_proxy FQDN[:port]
בעת עיבוד כתובת URL של HTTPS, שלח את המקור, אך שלח אותו לכתובת ה-IP ב-FQDN
-sdemo פלט בפורמט תואם sdemo. זה משמש רק על ידי sdemo. (בינתיים זה פשוט
פירושו פלט '-1' במקום '*' כאשר המדידות אינן חוקיות.)
-לא קוד
אל תבריחה תווים שהם "לא בטוחים" בכתובות URL.
מיוחד התחלה
-X התחל תוכנית עם ממשק X Window (אם הידור עם תמיכה ב-GTK+). פאבוק
כברירת מחדל מתחיל ללא GUI, ומתנהג ככלי שורת פקודה רגיל.
-runX בשימוש יחד עם -X אפשרות, pavuk מתחיל בעיבוד כתובות אתרים באופן מיידי
לאחר הפעלת חלון ה-GUI. בלי ה -X נתון, לאפשרות זו אין
כל השפעה. זמין רק כאשר הוא מורכב עם תמיכה ב-GTK+.
-bg/-nobg
אפשרות זו מאפשרת ל-pavuk להתנתק מהטרמינל שלו ולהפעיל במצב רקע.
Pavuk לא תוציא הודעות למסוף מאשר. אם אתה רוצה לראות
הודעות, עליך להשתמש ב- -קובץ לוג אפשרות לציין קובץ שבו הודעות
ייכתב. ברירת המחדל של pavuk מופעלת בחזית.
-check_bg/-nocheck_bg
בדרך כלל, תוכניות הנשלחות לרקע לאחר הפעלתן בחזית ממשיכות
כדי להוציא הודעות למסוף. אם אפשרות זו מופעלת, pavuk בודק אם
זה פועל כעבודת רקע ולא יכתוב שום הודעה למסוף ב
מקרה זה. לאחר שהוא יהפוך שוב לעבודת חזית, הוא יתחיל לכתוב הודעות
למסוף בדרך הרגילה. אפשרות זו זמינה רק כאשר המערכת שלך
תומך באחזור מידע מסוף באמצעות tc*() פונקציות.
-prefs/-noprefs
כאשר אתה מפעיל אפשרות זו, pavuk ישמור את כל ההגדרות בעת היציאה, וכן
כאשר תפעיל שוב את pavuk עם ממשק GUI, כל ההגדרות ישוחזרו. ה
ההגדרות יאוחסנו ב- ~./pavuk_prefs קוֹבֶץ. ברירת מחדל pavuk רוצה לשחזר את זה
אפשרות כאשר התחילו. אפשרות זו זמינה רק כאשר היא מורכבת עם GTK+.
-לוח זמנים זמן $
בצע pavuk בזמן שצוין כפרמטר. הפורמט של הפרמטר $time
הוא YYYY.MM.DD.hh.mm. אתה צריך תזמון מוגדר כהלכה עם at הפקודה
במערכת שלך לשימוש באפשרות זו. אם תצורת ברירת המחדל (ב-f %f %t
%d.%m.%Y) של פקודת התזמון לא תעבוד במערכת שלך, נסה להתאים אותה עם
-sched_cmd אוֹפְּצִיָה.
-תזמון מחדש $nr
בצע pavuk מעת לעת בפרק זמן של $nr שעות. אתה צריך להגדיר כראוי
תזמון עם ה at פקודה במערכת שלך לשימוש באפשרות זו.
-sched_cmd $ str
פקודה לשימוש לתזמון. Pavuk תומך במפורש בתזמון עם at $ str
צריך להכיל תווים רגילים ופקודות מאקרו, עם escape by % אופי. נתמך
פקודות מאקרו הן:
%f
- עבור שם קובץ סקריפט
%t
- עבור זמן (בפורמט HH:MM)
- כל פקודות המאקרו הנתמכות על ידי זמן עבודה () פונקציה
-URls_file $file
אם תשתמש באפשרות זו, pavuk יקרא כתובות URL מ-$file לפני שהוא מתחיל
מעבד. בקובץ זה, כל כתובת אתר צריכה להיות בשורה נפרדת. אחרי האחרון
כתובת URL, נקודה בודדת . ואחריו תו LF (הזנת שורה) מציינת את הסוף. פאבוק
יתחיל לעבד מיד לאחר קריאת כל כתובות האתרים. אם $file ניתן כ
מה היא - תו, קלט סטנדרטי ייקרא.
-store_info/-nostore_info
אפשרות זו גורמת ל-pavuk לאחסן מידע על כל מסמך בנפרד
הקובץ .pavuk_info מַדרִיך. קובץ זה משמש לאחסון כתובת ה-URL המקורית ממנה
שהמסמך הורד. עבור קבצים שהורדו באמצעות HTTP או HTTPS
פרוטוקולים, כל כותרת תגובת ה-HTTP מאוחסנת שם. אני ממליץ להשתמש בזה
אפשרות כאשר אתה משתמש באפשרויות שמשנות את פריסת ברירת המחדל של המקומי
עץ המסמכים, מכיוון שקובץ המידע הזה עוזר ל-pavuk למפות את שם הקובץ המקומי ל-
כתובת אתר. אפשרות זו שימושית מאוד גם כאשר כתובות URL שונות מכילות את אותו שם קובץ
העץ המקומי. כאשר זה קורה, pavuk מזהה זאת באמצעות קבצי מידע, וזה יעשה זאת
הקידומת של השם המקומי במספרים. כברירת מחדל מושבתת אחסון של תוספת זו
ידיעות.
-info_dir $dir
אתה יכול להגדיר עם אפשרות זו מיקום של ספרייה נפרדת לאחסון קבצי מידע
נוצר מתי -מידע_חנות נעשה שימוש באופציה. זה שימושי כאשר אתה לא רוצה לערבב
בספריית היעד קבצי המידע עם קבצי מסמכים רגילים. המבנה
מקבצי המידע נשמרים, רק מאוחסנים בספרייה אחרת.
-בַּקָשָׁה $req
עם אפשרות זו אתה יכול לציין מידע מורחב עבור כתובות אתרים מתחילות. עם
אפשרות זו תוכל לציין עבורה נתוני שאילתה POST or לקבל . תחביר נוכחי של זה
האפשרות היא: כתובת אתר:["]$url["] [שיטה:["]{GET|POST}["]] [קידוד:["]{u|m}["]]
[FIELD:["]משתנה=ערך["]] [FILE:["]משתנה=שם קובץ["]
[LNAME:["]שם_קובץ_מקומי["]]
- כתובת האתר: מציין את כתובת האתר של הבקשה
- שיטה: מציין את שיטת הבקשה עבור כתובת האתר והיא
אחד לקבל or POST.
- הַצפָּנָה: מציין קידוד עבור נתוני גוף הבקשה.
m הוא עבור נתונים מרובי חלקים / טפסים הַצפָּנָה
u הוא עבור יישום / x-www-form-urlencoded
הַצפָּנָה
- שדה: מציין את נתוני שדה הבקשה בפורמט
משתנה=ערך. לקידוד תווים מיוחדים
in משתנה ו ערך אתה יכול להשתמש באותו קידוד
כפי שמשמש ב יישום / x-www-form-urlencoded
הַצפָּנָה.
- קוֹבֶץ: מציין שדה מיוחד של שאילתה, כלומר
משמש לציון קובץ עבור POST העלאת קבצים מבוססת.
- LNAME: מציין שם מקומי עבור בקשה זו
כאשר אתה צריך להשתמש בתוך שדה: ו קוֹבֶץ: מפרט תחומי בקשה מיוחד
תווים, עליך להשתמש ב- יישום / x-www-form-urlencoded קידוד של תווים.
המשמעות היא כל התווים שאינם ASCII, תו מרכאות ("), תו רווח ( ), אמפרסנד
תו (&), תו אחוז (%) ותווים שווה (=) צריכים להיות מקודדים בצורה %xx
איפה xx הוא ייצוג הקסדצימלי של ערך ASCII של התו. כך למשל %
תו צריך להיות מקודד כמו % 25.
-טופס מידע $req
אפשרות זו נותנת לך הזדמנות לציין תוכן עבור טפסי HTML שנמצאו במהלך
חוצה עץ מסמכים.
התחביר הנוכחי של אפשרות זו זהה לזה של -בַּקָשָׁה אפשרות, אבל הַצפָּנָה: ו
שיטה: חסרי משמעות בסמנטיקה של אפשרות זו.
In כתובת האתר: עליך לציין את כתובת ה-URL לפעולה בטופס HTML, אשר יתואם
כתובות אתרים לפעולה שנמצאו במסמכי HTML מעובדים. אם pavuk מוצא פעולה כתובת אשר
גפרורים שסופקו ב -טופס מידע אפשרות, pavuk יבנה לקבל or POST לבקש
מהנתונים שסופקו באפשרות זו ומערכי ברירת המחדל של שדות טופס שסופקו ב
מסמך HTML. לערכים שסופקו בשורת הפקודה יש עדיפות לפני הערכים שסופקו
בקובץ HTML.
-nthreads $nr
באמצעות אפשרות זו תוכל לציין כמה שרשורים במקביל יורדו
מסמכים. ברירת המחדל של pavuk מבצעת 3 שרשורי הורדה במקביל. אפשרות זו היא
זמין רק כאשר pavuk מורכב כדי לתמוך בריבוי השחלות.
-immesg/-noimmesg
התנהגות ברירת המחדל של pavuks בעת הפעלת שרשורי הורדה מרובים היא לחצץ את כולם
פלט הודעות במאגר זיכרון ושטוף את הנתונים שאוחסנו בו בדיוק בזמן השרשור
מסיים עיבוד של מסמך אחד. עם אפשרות זו תוכל לשנות התנהגות זו
לראות את ההודעות מיד כשהן מופקות. זה שמיש רק כשאתה
רוצה לנפות באגים בכמה מבצעים בסביבת ריבוי השרשורים. אפשרות זו היא
זמין רק כאשר pavuk מורכב כדי לתמוך בריבוי השחלות.
-dumpfd $nr
עבור scripting הוא לפעמים שמיש כדי להיות מסוגל להוריד מסמך ישירות לצינור
או משתנה במקום לאחסן אותו בקובץ רגיל. במקרה כזה אתה יכול להשתמש בזה
אפשרות לשפוך נתונים למשל ל-stdout ($nr = 1).
-dump_after/-nodump_after
תוך שימוש -dumpfd אפשרות ב-pavuk מרובה הליכי, נדרש לזרוק מסמך
ברגע אחד כי מסמכים שהורדו במספר שרשורים יכולים לחפוף. זֶה
האפשרות שימושית גם כאשר ברצונך לזרוק מסמך לאחר ש-pavuk מתאים קישורים
בתוך מסמכי HTML.
-dump_response/-nodump_response
אפשרות זו משפיעה רק בשימוש עם -dumpfd אוֹפְּצִיָה. הוא משמש כדי לזרוק HTTP
כותרות תגובה.
-dump_urlfd $nr
כאשר תשתמש באפשרות זו, pavuk תוציא את כל כתובות האתרים שנמצאו במסמכי HTML
לתיאור הקובץ $nr. אתה יכול להשתמש באפשרות זו כדי לחלץ ולהמיר את כל כתובות האתרים
מוּחלָט.
תרחיש/משימה אפשרויות
-תַרחִישׁ $ str
שם התרחיש לטעינה ו/או הפעלה. תרחישים הם קבצים בעלי מבנה דומה
אל ה .pavukrc קוֹבֶץ. תרחישים מכילים תצורות שמורות. אתה יכול להשתמש בו עבור
שיקוף תקופתי. פרמטרים מתרחישים שצוינו בשורת הפקודה יכולים
יוחלף על ידי פרמטרים של שורת הפקודה. כדי להיות מסוגל להשתמש באפשרות זו, אתה צריך
כדי לציין ספריית בסיס תרחיש עם אפשרות -scndir.
-dumpscn שם קובץ $
אחסן את התצורה בפועל בקובץ התרחישים עם השם שם קובץ $. זה שימושי
כדי ליצור במהירות תרחישים מוגדרים מראש לעריכה ידנית.
מַדרִיך אפשרויות
-msgcat $dir
ספרייה המכילה את קטלוג ההודעות עבור pavuk. אם אין לך
הרשאה לאחסן קטלוג הודעות pavuk בספריית המערכת, עליך
פשוט צור מבנה דומה של ספריות בספריית הבית שלך כפי שהיא פועלת
המערכת שלך.
בעד דוּגמָה:
שפת האם שלך היא גרמנית, וספריית הבית שלך היא /home/jano.
תחילה עליך ליצור את הספרייה /home/jano/locales/de/LC_MESSAGES/, ולאחר מכן
שים שם את ה-pavuk.mo הגרמני והגדר את -msgcat ל- /home/jano/locales/. אם יש לך
הגדר כראוי את ערכי הסביבה המקומית, תראה את pavuk דובר גרמנית. זֶה
האפשרות זמינה רק כאשר ערכת תמיכה בהודעות gettext של GNU
בִּנאוּם.
-cdir $dir
ספרייה שבה מאוחסנים כל המסמכים שאוחזרו. אם לא צוין, ה
נעשה שימוש בספרייה הנוכחית. אם הספרייה שצוינה לא קיימת, היא תהיה
נוצר.
-scndir $dir
ספרייה שבה מאוחסנים התרחישים שלך. עליך להשתמש באפשרות זו כאשר אתה
טוענים או מאחסנים קבצי תרחישים.
לשמור אפשרויות
-שמר_זמן/-זמן_לא-שמר
אחסן מסמך שהורד באותו זמן שינוי כמו באתר המרוחק.
זמן השינוי יוגדר רק כאשר מידע כזה זמין (חלק מה-FTP
שרתים אינם תומכים ב MDTM הפקודה, וכמה מסמכים בשרתי HTTP הם
נוצר באופן מקוון כך ש-pavuk לא יכול לאחזר את זמן השינוי של מסמך זה). בְּ
זמן שינוי ברירת המחדל של מסמכים אינו נשמר.
-שמר סלסל/-סלסל_לא
אחסן מסמך שהורד עם אותן הרשאות כמו באתר המרוחק. זֶה
לאפשרות יש השפעה רק בעת הורדת קובץ באמצעות פרוטוקול FTP ומניח
כי -ftplist נעשה שימוש באפשרות. כברירת מחדל ההרשאות אינן נשמרות.
-preserve_slinks/-nopreserve_slinks
הגדר קישורים סמליים שיצביעו בדיוק על אותו מיקום כמו בשרת המרוחק; אל תעשה
לעשות כל רילוקיישן. אפשרות זו משפיעה רק בעת הורדת קובץ דרך FTP
פרוטוקול ומניח שה -ftplist נעשה שימוש באפשרות. קישורי ברירת מחדל סמליים הם
אינם נשמרים, ומאוחזרים כמסמכים רגילים עם תוכן מלא של מקושרים
קובץ.
לדוגמה, נניח שבשרת ה-FTP ftp.xx.org יש קישור סמלי
/pub/pavuk/pavuk-current.tgz, המצביע על /tmp/pub/pavuk-0.9pl11.tgz. פאבוק
תיצור קישור סמלי ftp/ftp.xx.org_21/pub/pavuk/pavuk-current.tgz
אם תעשה שימוש באפשרות -preserve_slinks הקישור הסימבולי הזה יצביע
/tmp/pub/pavuk-0.9pl11.tgz
אם תשתמש באפשרות -preserve_slinks want, קישור סמלי זה יצביע על
../../tmp/pub/pavuk-0.9pl11.tgz
-retrieve_symlink/-noretrieve_symlink
אחזר קבצים מאחורי קישורים סמליים במקום לשכפל קישורים סימליים בעץ המקומי.
פרוקסי אפשרויות
-http_proxy $site[:$port]
אם נעשה שימוש בפרמטר זה, כל בקשות ה-HTTP עוברות דרך פרוקסי זה
שרת. זה שימושי אם האתר שלך נמצא מאחורי חומת אש, או אם תרצה בכך
השתמש בשרת מטמון פרוקסי HTTP. מספר היציאה המוגדר כברירת מחדל הוא 8080. Pavuk מאפשר לך
כדי לציין פרוקסי HTTP מרובים (באמצעות מספר אפשרויות -http_proxy) וזה יעשה זאת
סובב פרוקסי עם עדיפות roundrobin השבתת פרוקסי עם שגיאות.
-nocache/-cache
השתמש באפשרות זו בכל פעם שתרצה לקבל את המסמך ישירות מהאתר ו
לא משרת מטמון ה-proxy של HTTP שלך. ברירת המחדל של pavuk מאפשרת העברת מסמך
עותקים מהמטמון.
-ftp_proxy $site[:$port]
אם נעשה שימוש בפרמטר זה, כל בקשות ה-FTP עוברות דרך פרוקסי זה
שרת. זה שימושי כאשר האתר שלך נמצא מאחורי חומת אש, או אם תרצה בכך
השתמש בשרת מטמון פרוקסי FTP. מספר היציאה המוגדר כברירת מחדל הוא 22. Pavuk תומך בשלושה
סוגים שונים של פרוקסי עבור FTP, עיין באפשרויות -ftp_httpgw, -ftp_dirtyproxy.
אם לא נעשה שימוש באף אחת מהאפשרויות המוזכרות, אז pavuk מניח פרוקסי FTP רגיל
עם משתמש user@host מתחבר לשרת FTP מרוחק.
-ftp_httpgw/-noftp_httpgw
פרוקסי ה-FTP שצוין הוא שער HTTP עבור פרוטוקול ה-FTP. פרוקסי ברירת מחדל של FTP
הוא פרוקסי FTP רגיל.
-ftp_dirtyproxy/-noftp_dirtyproxy
פרוקסי ה-FTP שצוין הוא פרוקסי HTTP התומך ב-a לְחַבֵּר בקשה (pavuk
צריך להשתמש בפרוטוקול FTP מלא, למעט חיבורי נתונים פעילים). ברירת המחדל של FTP
proxy הוא פרוקסי FTP רגיל. אם מצוין גם -ftp_dirtyproxy וגם -ftp_httpgw,
עדיף -ftp_dirtyproxy.
-גופר_פרוקסי $site[:$port]
שער Gopher או שרת פרוקסי/מטמון.
-gopher_httpgw/-nogopher_httpgw
שרת ה-proxy שצוין של Gopher הוא שער HTTP עבור פרוטוקול Gopher. מתי
-גופר_פרוקסי מוגדר וזה -gopher_httpgw האפשרות אינה בשימוש, pavuk משתמש
פרוקסי כמנהרת HTTP עם לְחַבֵּר בקשה לפתוח חיבורים לשרתי Gopher.
-ssl_proxy $site[:$port]
שרת פרוקסי (מנהור) SSL [כמו זה ב-CERN httpd + patch או ב-Squid] עם
מופעל לְחַבֵּר בקשה (לפחות ביציאה 443). אפשרות זו זמינה רק כאשר
הידור עם תמיכת SSL (אתה צריך את ספריות SSleay או OpenSSL עם
כותרות פיתוח)
פרוקסי אימות
-http_proxy_user המשתמש $
שם משתמש לאימות פרוקסי HTTP.
-http_proxy_pass לעבור $
סיסמה לאימות פרוקסי HTTP.
-http_proxy_auth {1/2/3/4/user/Basic/Digest/NTLM}
ערכת אימות עבור גישת פרוקסי. משמעות דומה כמו ה -auth_scheme
אפשרות (ראה עזרה עבור אפשרות זו לפרטים נוספים). ברירת המחדל היא 2 (סכמה בסיסית).
-auth_proxy_ntlm_domain $ str
דומיין NT או LM משמש להרשאה שוב שרת פרוקסי HTTP כאשר NTLM
נדרשת סכימת אימות. אפשרות זו זמינה רק לאחר קומפילציה
עם ספריות OpenSSL או libdes.
-auth_reuse_proxy_nonce/-noauth_reuse_proxy_nonce
בעת שימוש בסכימת אימות גישת HTTP Proxy Digest, השתמש בתחילה שהתקבלה
ערך nonce במספר בקשות הבאות.
-ftp_proxy_user המשתמש $
שם משתמש לאימות פרוקסי FTP.
-ftp_proxy_pass לעבור $
סיסמה לאימות פרוקסי FTP.
פרוטוקול/הורדה אפשרויות
-ftp_passive
משתמש ב-ftp פסיבי בעת הורדה דרך ftp.
-ftp_active
משתמש ב-ftp פעיל בעת הורדה דרך ftp.
-active_ftp_port_range $min:$max
אפשרות זו מאפשרת לציין את היציאות המשמשות עבור ftp פעיל. זה מאפשר יותר קל
תצורת חומת האש מכיוון שניתן להגביל את טווח היציאות.
Pavuk יבחר באופן אקראי מספר מתוך הטווח שצוין עד לפתיחה
נמצא יציאה. אם לא יימצאו יציאות פתוחות בטווח הנתון, pavuk יעשה זאת
ברירת המחדל ליציאה רגילה שהוקצתה ליבה, והודעה (נטו ברמת ניפוי באגים) היא
פלט.
טווח היציאה שנבחר חייב להיות בטווח הלא מוגן (למשל, גדול מ- או
שווה ל-1024); מומלץ בחום שהטווח הנבחר יהיה גדול מספיק
לטפל בחיבורים פעילים רבים בו זמנית (לדוגמה, 49152-65534, IANA-
טווח יציאות ארעיות רשום).
-תמיד_mdtm/-noalways_mdtm
כפה על pavuk להשתמש תמיד ב-"MDTM" כדי לקבוע את זמן שינוי הקובץ ולעולם לא
משתמש בזמני מטמון שנקבעו בעת רישום הקבצים המרוחקים.
-remove_before_store/-noremove_before_store
לאלץ ביטול קישור של קבצים לפני שתוכן חדש יאוחסן בקובץ. זה מועיל
אם הקבצים המקומיים מקושרים קשה לספרייה אחרת ולאחר שיקוף של
קישורים קשיחים מסומנים. כל הקישורים הקשיחים ה"שבורים" מציינים עדכון קובץ.
-נסה שוב $nr
הגדר את מספר הניסיונות להעברת מסמך מעובד. ברירת המחדל מוגדרת ל-1, זה
mean pavuk ינסה שוב פעם אחת כדי לקבל מסמכים שנכשלו בניסיון הראשון.
-נרגטס $nr
הגדר את מספר הרגטים המותרים במסמך בודד, לאחר העברה פגומה.
ערך ברירת המחדל עבור אפשרות זו הוא 2.
-נרדיר $nr
הגדר את מספר הפניות ה-HTTP המותרות. (השתמש בזה למניעת לולאות) ברירת מחדל
הערך עבור אפשרות זו הוא 5, ותואם למפרט HTTP.
-force_reget/-noforce_reget
כפה רגיטה של כל המסמך לאחר העברה פגומה כאשר השרת
אינו תומך באחזור של תוכן חלקי. התנהגות ברירת המחדל של Pavuk היא להפסיק
קבלת מסמכים שאינם מאפשרים התחלה מחדש של העברה מהמיקום שצוין.
-פסק זמן $nr
פסק זמן לחיבורים שנתקעו תוך דקות. ערך זה משמש גם לחיבור
פסקי זמן. עבור פסק זמן של תת-דקות אתה יכול להשתמש במספרי נקודה צפה. בְּרִירַת מֶחדָל
הזמן הקצוב הוא 0, כלומר בדיקת הזמן הקצוב מושבתת.
-לא רובוטים/-רובוטים
מתג זה מדכא את השימוש ב- robots.txt תקן, אשר רגיל
הגבלת גישה של רובוטי אינטרנט למיקומים מסוימים בשרת האינטרנט. ברירת המחדל היא
מותר בדיקה של קבצי robots.txt בשרתי HTTP. הפעל את האפשרות הזו תמיד
כאשר אתה מוריד קבוצות ענק של דפים עם פריסה בלתי צפויה. זֶה
מונע ממך להרגיז מנהלי שרת :-).
-noEnc/-Enc
מתג זה מדכא את השימוש ב- מופעלת דחיסת or לדחוס or לנפח קידוד בהעברה. אני
לא יודע אם חלק מהשרתים שבורים או מה, אבל הם מפיצים את ה-MIME הזה
הקלד application/gzip או application/compress כמקודד. כבה את האפשרות הזו,
כאשר אין לך תמיכה ב-libz הידור ב- וגם מופעלת דחיסת תוכנית שבה נעשה שימוש
לפענח מסמך המקודד בצורה זו. ברירת המחדל היא פענוח של המסמך שהורד
נכה.
-check_size/-nocheck_size
יש להשתמש באפשרות -nocheck_size אם אתה מנסה להוריד דפים מ-a
שרת HTTP ששולח שגיאה אורך תוכן: שדה בכותרת MIME של
תְגוּבָה. התנהגות ברירת המחדל של pavuk היא לבדוק את השדה הזה ולהתלונן מתי
משהו לא בסדר.
-תעריף מקסימום $nr
אם אינך רוצה לתת את כל רוחב הפס ההעברה שלך ל-pavuk, השתמש באפשרות זו כדי
הגדר את קצב ההעברה המרבי של pavuk. אפשרות זו מקבלת מספר נקודה צפה ל
ציין את קצב ההעברה ב-kB/s. אם אתה רוצה לקבל הגדרות אופטימליות, יש לך גם
לשחק עם גודל מאגר הקריאה (אפשרות -בגודל) כי pavuk עושה
בקרת זרימה רק ברמת היישום. ברירת המחדל של pavuk השתמש ברוחב פס מלא.
-מינרט $nr
אם אתה שונא קצבי העברה איטיים, אפשרות זו מאפשרת לך לשבור העברות עם
מהירות נמוכה. אתה יכול להגדיר את קצב ההעברה המינימלי, ואם החיבור יתקבל
לאט מהקצב הנתון, ההעברה תופסק. קצב ההעברה המינימלי
ניתן ב-kB/s. כברירת מחדל pavuk לא בודק מגבלה זו.
-בגודל $nr
אפשרות זו משמשת לציון גודל מאגר הקריאה (גודל ברירת המחדל: 32kB).
אם יש לך חיבור מהיר מאוד, אתה עשוי להגדיל את גודל המאגר כדי לקבל
ביצועי קריאה טובים יותר. אם אתה צריך להקטין את קצב ההעברה, ייתכן שתצטרך
כדי להקטין את גודל המאגר ולהגדיר את קצב ההעברה המקסימלי באמצעות ה-
-תעריף מקסימום אוֹפְּצִיָה. אפשרות זו מקבלת את גודל המאגר ב-kB.
-fs_quota $nr
אם אתה מפעיל pavuk על מערכת מרובת משתמשים, ייתכן שתצטרך להימנע ממילוי
מערכת הקבצים שלך. אפשרות זו מאפשרת לך לציין כמה מקום צריך להישאר פנוי. אם
pavuk מזהה חוסר ריצה של השטח הפנוי, הוא יפסיק להוריד קבצים.
ציין מכסה זו ב-kB. ערך ברירת המחדל הוא 0, וזה אומר שאין בדיקה של זה
מִכסָה.
-מכסת_קובץ $nr
אפשרות זו שימושית כאשר אתה רוצה להגביל הורדה של קבצים גדולים, אבל רוצה
הורד לפחות $nr קילובייט מקבצים גדולים. קובץ גדול יועבר,
וכשהיא מגיעה לגודל שצוין, ההעברה תישבר. מסמך כזה יהיה
מעובד כפי שהורד כהלכה, אז היזהר בעת שימוש באפשרות זו. כברירת מחדל
pavuk מעביר מסמכים בגודל מלא.
-מכסת_טרנס $nr
אם אתה מודע לכך שהבחירה שלך צריכה להתייחס לכמות גדולה של נתונים, אתה יכול
השתמש באפשרות זו כדי להגביל את כמות הנתונים המועברים. ברירת המחדל היא לפי גודל
העברה בלתי מוגבלת.
-זמן_מקסימלי $nr
הגדר את משך הזמן המרבי להפעלת התוכנית. לאחר חריגה מהזמן, pavuk ייפסק
מוריד. הזמן מוגדר בדקות. ערך ברירת המחדל הוא 0, וזה אומר
זמן ההורדה אינו מוגבל.
-אסטרטגיית_URL $ אסטרטגיה
אפשרות זו מאפשרת לך לציין סדר הורדה עבור כתובות URL בעץ המסמכים.
אפשרות זו מקבלת את המחרוזות הבאות כפרמטרים:
רָמָה - יזמין כתובות URL תוך כדי טעינתן מקובצי HTML (ברירת מחדל)
leveli - כמו קודם, אבל כתובות ה-URL של אובייקטים מוטבעים קודמים
מראש - יכניס כתובות URL ממסמך HTML בפועל בהתחלה, לפני אחר
פרי - כמו קודם, אבל כתובות ה-URL של אובייקטים מוטבעים קודמים
-send_if_range/-nosend_if_range
שילחו אם-טווח: כותרת בבקשת HTTP. גיליתי שיש שרתי HTTP
(ברכות, MS :-)) שולחים אחרת Etag: שדות בתגובות שונות עבור
אותו מסמך ללא שינוי. זה גורם לבעיות כאשר pavuk מנסה להחזיר את א
מסמך משרת כזה: pavuk יזכור את הערך הישן של ETag וישתמש בו
בעקבות בקשות למסמך זה. אם השרת בודק את זה עם ה-ETag החדש
ערך וזה שונה, הוא יסרב לשלוח רק חלק מהמסמך, ויתחיל
ההורדה מאפס.
-ssl_version $v
הגדר את גרסת פרוטוקול SSL הנדרשת עבור תקשורת SSL. $v הוא אחד מ-ssl2, ssl23,
ssl3 או tls1. אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכת SSL.
ברירת המחדל היא ssl23.
-unique_sslid/-nounique_sslid
ניתן להשתמש באפשרות זו אם ברצונך להשתמש ביחידה ייחודית SSL ID עבור כל הפעלות SSL.
התנהגות ברירת המחדל של pavuk היא לנהל משא ומתן בכל פעם על מזהה הפעלה חדש עבור כל אחד מהם
חיבור. אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכת SSL.
-use_http11/-nouse_http11
אפשרות זו משמשת למעבר בין פרוטוקול HTTP/1.0 ו-HTTP/1.1 המשמש עם HTTP
שרתים. עכשיו הוא משתמש בפרוטוקול HTTP/1.1 לא ברירת מחדל בגלל היישום שלו
טרי מאוד ולא נבדק ב-100%. למרות שהשימוש ב-HTTP/1.1 הוא מאוד
מומלץ, מכיוון שהוא מהיר יותר מ-HTTP/1.0 ומשתמש בפחות רוחב פס רשת עבור
ייזום קשרים. בכל גרסה נוספת אפעיל שימוש ב-HTTP/1.1 כ
ברירת המחדל.
-local_ip $ addr
אתה יכול להשתמש באפשרות זו כאשר אתה רוצה להשתמש בממשק רשת שצוין עבור
תקשורת עם מארחים אחרים. אפשרות זו מתאימה למארחים multihomed עם
מספר ממשקי רשת. יש להזין כתובת ככתובת IP רגילה או כ
שם מארח.
-זהות $ str
אפשרות זו מאפשרת לך לציין תוכן של סוכן משתמש: שדה של בקשת HTTP.
זה שמיש כאשר סקריפטים בשרת מרוחק מחזירים מסמך שונה על אותו
כתובת URL עבור דפדפנים שונים, או אם שרת HTTP כלשהו מסרב להגיש מסמך עבור האינטרנט
רובוטים כמו פאבוק. ברירת מחדל pavuk שולח סוכן משתמש: שדה pavuk/$VERSION מחרוזת.
-auto_referer/-noauto_referer
אפשרות זו מאלצת את pavuk לשלוח HTTP מפנה: שדה כותרת עם כתובות אתרים התחלתיות.
התוכן של שדה זה יהיה כתובת אתר עצמית. שימוש באפשרות זו נדרש, כאשר מרוחק
השרת בודק את השדה Referer:. ברירת המחדל pavuk לא רגיל לשלוח מפנה: שדה עם
כתובות אתרים מתחילות.
-מפנה/-נורפרר
אפשרות זו מאפשרת להפעיל ולנטרל את השידור של HTTP מפנה: כותרת
שדה. כברירת מחדל pavuk שולח מפנה: שדה.
-httpad $ str
במקרים מסוימים ייתכן שתרצה להוסיף שדות המוגדרים על ידי משתמש לבקשות HTTP/HTTPS. זֶה
האפשרות היא בדיוק למטרה זו. ב $ str אתה יכול לציין ישירות את התוכן של
כותרת נוספת. אם תציין רק כותרת גולמית, היא תשמש רק עבור
מתחילים בקשות. כאשר אתה רוצה להשתמש בכותרת זו עם כל בקשה תוך כדי
זחילה, קידומת הכותרת עם + אופי.
-del_after/-nodel_after
אפשרות זו מאפשרת לך למחוק FILES משרת מרוחק, כאשר ההורדה היא
סיים כמו שצריך. כברירת מחדל אפשרות זו כבויה.
-FTPlist/-noFTPlist
כאשר תעשה שימוש באפשרות -FTPlist, pavuk יאחזר תוכן של ספריות FTP
עם פקודת FTP רשימה במקום NLST. אז אותו רישום יאוחזר כמו
עם הפקודה "ls -l" UNIX. אפשרות זו נדרשת אם אתה צריך לשמר
הרשאות של קבצים מרוחקים או שאתה צריך לשמור קישורים סמליים. Pavuk תומך
רישום רחב בשרתי FTP עם רגיל BSD or SYSV ספריית "ls -l" בסגנון
רישום, בשרתי FTP עם EPFL פורמט רישום, VMS רישום סגנון, DOS/Windows
רישום בסגנון ו רומן פורמט רישום. התנהגות ברירת המחדל של pavuk היא להשתמש ב-NLST fro
רשימות ספריות FTP.
-ftp_list_options $ str
שרתי FTP מסוימים דורשים לספק אפשרויות נוספות לפקודות FTP LIST או NLST
להציג את כל הקבצים והספריות כראוי. אבל הקפד לא להשתמש באפשרויות נוספות
אשר יכול לפרמט מחדש את הפלט של הרישום. שימושי הוא במיוחד -a אפשרות אשר
לאלץ את שרת ה-FTP להציג גם קבצי נקודות וספריות ועם WuFTP שבור
שרתים זה גם עוזר לייצר רשימות ספריות מלאות לא רק קבצים.
-fix_wuftpd/-nofix_wuftpd
אפשרות זו היא תוצאה של מספר ניסיונות כדי לפעול כראוי
-הסר_ישן אפשרות עם שרת WuFTPd כאשר -ftplist נעשה שימוש באפשרות. הבעיה היא
לפקודת ה-FTP LIST ב-WuFTPd לא אכפת כשמנסים לרשום לא קיים
ספרייה, ומציינת הצלחה בקוד תגובת FTP. כאשר אתה מפעיל את זה
אפשרות, pavuk משתמש בפקודת FTP נוספת (STAT -d dir) כדי לבדוק אם הספרייה
באמת קיים. אל תשתמש באפשרות זו עד שאתה בטוח שאתה באמת צריך אותה!
אימות
-auth_file $file
קובץ שבו שמרת מידע אימות לצורך גישה לשירות כלשהו.
למבנה הקבצים ראה להלן ב קבצים סָעִיף.
-auth_name המשתמש $
אם אתה משתמש בפרמטר זה, התוכנית מבצעת אימות עם כל HTTP
גישה למסמך. השתמש בזה רק אם אתה יודע שרק שרת HTTP אחד יכול להיות
גישה או שימוש -אתר אפשרות לציין את האתר שאליו אתה משתמש באימות.
אחרת פרמטרי ההסמכה שלך יישלחו לכל שרת HTTP שניגשת אליו.
-auth_passwd $passwd
הערך של פרמטר זה משמש כסיסמה לאימות
-auth_scheme {1/2/3/4/user/Basic/Digest/NTLM}
פרמטר זה מציין סכימת אימות בשימוש.
1 or המשתמש אומר המשתמש סכימת אימות משמשת כפי שהוגדרה ב-HTTP/1.0 או
HTTP/1.1. הסיסמה ושם המשתמש נשלחים ללא קידוד.
2 or בסיסי אומר בסיסי סכימת אימות משמשת כפי שהוגדרה ב-HTTP/1.0.
הסיסמה ושם המשתמש נשלחים בקידוד BASE64.
3 or תקציר אומר תקציר גישה לתכנית אימות המבוססת על סכימי בדיקה MD5 as
מוגדר ב-RFC2069.
4 or NTLM אומר NTLM ערכת אימות גישה קניינית בשימוש על ידי Microsoft
שרתי IIS או Proxy. כאשר אתה משתמש בסכימה זו, עליך לציין גם NT או LM
דומיין עם אפשרות -auth_ntlm_domain. סכימה זו נתמכת רק כאשר היא מורכבת
עם ספריות OpenSSL או libdes.
-auth_ntlm_domain $ str
דומיין NT או LM משמש להרשאה שוב שרת HTTP בעת אימות NTLM
נדרשת תכנית. אפשרות זו זמינה רק כאשר היא מורכבת עם OpenSSL או
ספריות ליבדס.
-auth_reuse_nonce/-noauth_reuse_nonce
בעת שימוש בסכימת אימות גישת HTTP Digest, השתמש בתחילה שלא התקבלה
ערך בבקשות נוספות הבאות. ברירת המחדל של pavuk מנהלת משא ומתן ללא תשלום עבור כל בקשה.
-ssl_key_file $file
קובץ עם מפתח ציבורי עבור אישור SSL (למידע נוסף מ-SSLeay או OpenSSL
תיעוד) אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכת SSL (אתה
צריך ספריות SSleay או OpenSSL וכותרות פיתוח)
-ssl_cert_file $file
קובץ אישור בפורמט PEM (למידע נוסף מתיעוד SSLeay או OpenSSL)
אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכת SSL (אתה זקוק ל-SSleay או
ספריות OpenSSL וכותרות פיתוח)
-ssl_cer_passwd $ str
סיסמה המשמשת ליצירת אישור (למידע נוסף מ-SSLeay או OpenSSL
תיעוד) אפשרות זו זמינה רק כאשר היא מורכבת עם תמיכת SSL (אתה
צריך ספריות SSLeay או OpenSSL וכותרות פיתוח)
-nss_cert_dir $dir
ספריית הגדרות עבור תעודות NSS (יישום SSL של Netscape). בְּדֶרֶך כְּלַל
~/.netscape (נוצר על ידי Netscape communicator/נווט) או ספריית הפרופיל למטה
~/.mozilla (נוצר על ידי דפדפן מוזילה). הספרייה צריכה להכיל cert7.db ו
key3.db קבצים. אם אינך משתמש במוזילה או בנטסקייפ, עליך ליצור קבצים אלה על ידי
כלי עזר המופצים עם ספריות NSS. Pavuk פותח מאגר תעודות בלבד
לקריאה בלבד. אפשרות זו זמינה רק כאשר pavuk מורכבת עם תמיכת SSL
מסופק על ידי הטמעת Netscape NSS SSL.
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
כברירת מחדל, pavuk ידחה חיבור לשרת SSL אשר אישור אינו
מאוחסן במסד נתונים מקומי של אישורים (מוגדר על ידי -nss_cert_dir אוֹפְּצִיָה). אתה חייב
לאלץ את pavuk במפורש לאפשר חיבור לשרתים עם אישורים לא ידועים.
אפשרות זו זמינה רק כאשר pavuk מורכבת עם תמיכת SSL המסופקת על ידי
הטמעת NSS SSL של Netscape.
[-nss_domestic_policy/-nss_export_policy]
בוחר קבוצות של צפנים המותרות/מושבתות לפי כללי הייצוא של ארה"ב. אפשרות זו היא
זמין רק כאשר pavuk מורכב עם תמיכת SSL המסופקת על ידי Netscape NSS SSL
יישום.
-מ הדוא"ל $
פרמטר זה משמש בעת גישה לשרת FTP אנונימי כסיסמה או היא
אופציונלי מוכנס לתוך מ שדה בבקשת HTTP. אם לא צוין pavuk
מגלה זאת מ משתמש משתנה סביבה ומשם מארח האתר.
-שלח_מ/-nosend_from
אפשרות זו משמשת להפעלה או ביטול שליחה של זיהוי משתמש,
נכנס -מ אפשרות, כסיסמת משתמש אנונימית FTP ו מ: שדה של HTTP
בַּקָשָׁה. כברירת מחדל אפשרות זו כבויה.
-ftp_login_shake $מארח לחיצת יד $
כאשר אתה צריך להשתמש בהליך התחברות לא סטנדרטי עבור חלק משרתי FTP, אתה יכול
השתמש באפשרות זו כדי לשנות את נוהל ההתחברות של pavuk כברירת מחדל. כדי לאפשר יותר גמישות,
אתה יכול להקצות את הליך הכניסה לשרת כלשהו או לכולם. מתי $מארח is
צוין כמחרוזת ריקה (""), מאשר הליך ההתחברות המצורף מוקצה לכולם
שרתי FTP מלבד אלה שהוקצו נהלי התחברות משלהם. בתוך ה לחיצת יד $
פרמטר אתה יכול לציין הליך כניסה מדויק שצוין על ידי פקודות FTP שאחריו
לפי קודי תגובה צפויים של FTP המופרדים עם קו נטוי אחורי () תווים.
לדוגמה, זהו הליך התחברות ברירת המחדל בעת כניסה לשרת ftp רגיל
מבלי לעבור דרך שרת פרוקסי: משתמש %u\331\PASS %p\230. יש שני
פקודות ואחריהן שני קודי תגובה. לאחר פקודת USER pavuk מצפה ל-FTP
קוד תגובה 331 ואחרי פקודת PASS pavuk מצפה מהשרת לתגובת FTP
קוד 230. בפקודות ftp ניתן להשתמש בפקודות מאקרו הבאות אשר יוחלפו על ידי
ערכים בהתאמה:
%u - שם משתמש המשמש לגישה לשרת FTP
%p - סיסמה המשמשת לגישה לשרת FTP
%U - שם משתמש המשמש לגישה לשרת פרוקסי FTP
%P - סיסמה המשמשת לגישה לשרת פרוקסי FTP
%h - שם מארח של שרת FTP
%s - מספר יציאה שבו שרת FTP מאזין
אתר/דומיין/יציאה הגבלה אפשרויות
-אתר $ list
ציין רשימה מופרדת בפסיקים של אתרים מותרים שבהם נמצאים מסמכים שהפניה אליהם
מְאוּחסָן.
-dsite $ list
ציין רשימה מופרדת בפסיקים של אתרים אסורים. הפרמטר הקודם הוא הפוך
לזה. אם נעשה שימוש בשניהם, המופע האחרון שלהם משמש להיות תקף.
-דומיין $ list
ציין רשימה מופרדת בפסיקים של דומיינים מותרים שבהם נמצאים מסמכי הפניה
מְאוּחסָן.
-דומיין $ list
ציין רשימה מופרדת בפסיקים של דומיינים אסורים. הפרמטר הקודם הוא הפוך
לזה. אם נעשה שימוש בשניהם, המופע האחרון שלהם משמש להיות תקף.
-נמל $ list
In $ list, אתה יכול לכתוב רשימה מופרדת בפסיק של יציאות שמהן אתה מאפשר
להוריד מסמכים.
-dport $ list
אפשרות זו הפוכה לאפשרות הקודמת. הוא משמש כדי לציין נדחה
נמלים. אם שניהם -נמל ו -dport נעשה שימוש באפשרויות שההתרחשות האחרונה שלהן היא
בעבר היה חוקי וכל שאר המופעים יושמטו.
הגבלה מסמך נכסים
-אמימט $ list
רשימת סוגי MIME המותרים המופרדים בפסיק. אתה יכול להשתמש גם עם אפשרות זו
דפוסי תווים כלליים.
-דמימט $ list
רשימה של סוגי MIME אסורים המופרדים בפסיק. אתה יכול להשתמש גם עם אפשרות זו
דפוסי תווים כלליים. הפרמטר הקודם מנוגד לפרמטר הזה. אם נעשה שימוש בשניהם
המופע האחרון שלהם משמש כתקף.
-גודל מקסימלי $nr
גודל מקסימלי מותר של מסמך. אפשרות זו מיושמת רק כאשר pavuk מסוגל
כדי לזהות את המסמך לפני תחילת ההעברה. ערך ברירת המחדל הוא 0, וזה
פירוש הדבר שהמגבלה הזו לא חלה.
-גודל קטן $nr
גודל מינימלי מותר של מסמך. אפשרות זו מיושמת רק כאשר pavuk מסוגל
כדי לזהות את המסמך לפני תחילת ההעברה. ערך ברירת המחדל הוא 0, וזה
פירוש הדבר שהמגבלה הזו לא חלה.
-חדש יותר מ זמן $
אפשר רק העברה של מסמכים עם זמן שינוי חדש מהמצוין ב
פרמטר $time. הפורמט של $time הוא: YYYY.MM.DD.hh:mm. כדי ליישם אפשרות זו pavuk
חייב להיות מסוגל לזהות את זמן השינוי של המסמך.
-ישן מ זמן $
אפשר רק העברה של מסמכים עם זמן שינוי ישן מהמצוין ב
פרמטר $time. הפורמט של $time הוא: YYYY.MM.DD.hh:mm. כדי ליישם אפשרות זו pavuk
חייב להיות מסוגל לזהות את זמן השינוי של המסמך.
-noCGI/-CGI
מתג זה מונע העברת מסמכים פרמטריים שנוצרו באופן דינמי דרך
ממשק CGI. זה מזוהה עם התרחשות של ? תו בתוך כתובת האתר. בְּרִירַת מֶחדָל
התנהגות pavuk היא לאפשר העברה של כתובות URL עם מחרוזות שאילתות.
-אלנג $ list
זה מאפשר לך לציין רשימה מסודרת מופרדת בפסיקים של מועדף טבעי
שפות. אפשרות זו פועלת רק עם פרוטוקול HTTP ו-HTTPS באמצעות לְקַבֵּל-
שפה: שדה MIME.
-charset $ list
אפשרות זו מאפשרת לך להזין רשימה מופרדת בפסיק של קידוד מועדף של
העבירו מסמכים. זה עובד רק עם כתובות HTTP ו-HTTPS ורק אם כאלה
קידודי המסמכים נמצאים בשרת היעד.
דוּגמָה: -charset iso-8859-2,windows-1250,utf8
הגבלה מסמך שם
-asfx $ list
פרמטר זה מאפשר לך לציין סט של סיומות המשמשות להגבלת הבחירה של
מסמכים שיטופלו.
-dsfx $ list
סט של סיומות המשמשות לציון הגבלה על בחירת מסמכים.
זה הפוך לאפשרות הקודמת. הם מפרידים זה את זה.
-ראשית $list, -dprefix $ list
שתי אפשרויות אלו מאפשרות לך לציין קבוצה של קידומות מותרות או אסורות של
מסמכים. הם מפרידים זה את זה.
-תבנית $pattern
אפשרות זו מאפשרת לך לציין דפוס תווים כלליים עבור מסמכים. כל המסמכים הם
נבדק אם הם תואמים את הדפוס הזה.
-rpattern $reg_exp
זוהי אפשרות שווה לקודמתה, אך היא משתמשת בביטויים רגולריים. זמין
רק בפלטפורמות שיש להן יישום RE נתמך.
-דילוג_דפוס $pattern
אפשרות זו מאפשרת לך לציין דפוס תווים כלליים עבור מסמכים שאמור להיות
דילג. כל המסמכים נבדקים אם הם תואמים דפוס זה.
-skip_rpattern $reg_exp
זוהי אפשרות שווה לקודמתה, אך היא משתמשת בביטויים רגולריים. זמין
רק בפלטפורמות שיש להן יישום RE נתמך.
-כתובת_אתר $pattern
אפשרות זו מאפשרת לך לציין דפוס תווים כלליים עבור כתובות אתרים. כל כתובות האתר נבדקות אם
הם תואמים את הדפוס הזה.
דוגמא:
-url_pattern http://\*.idata.sk:\*/~ondrej/\* . אפשרות זו מאפשרת את כל כתובות ה-HTTP
מהדומיין .idata.sk בכל היציאות שנמצאות תחת /~ondrej/.
-url_rpattern $reg_exp
זוהי אפשרות שווה לקודמתה, אך היא משתמשת בביטויים רגולריים. זמין
רק בפלטפורמות שיש להן יישום RE נתמך.
-דלג_דפוס_כתובת_אתר $pattern
אפשרות זו מאפשרת לך לציין דפוס תווים כלליים עבור כתובות אתרים שיש לדלג עליהן.
כל כתובות האתרים נבדקות אם הן תואמות לדפוס זה.
-skip_url_rpattern $reg_exp
זוהי אפשרות שווה לקודמתה, אך היא משתמשת בביטויים רגולריים. זמין
רק בפלטפורמות שיש להן יישום RE נתמך.
-aip_pattern $re
אפשרות זו מאפשרת לך להגביל את קבוצת המסמכים המועברים לפי כתובת ה-IP של השרת.
ניתן לציין כתובת IP כביטויים רגולריים, כך שניתן לציין
קבוצה של כתובות IP לפי ביטוי אחד. זמין רק בפלטפורמות שיש להן
נתמך ביישום RE.
-דפוס_דפוס $re
אפשרות זו דומה לאפשרות הקודמת, אך משמשת לציון ערכת IP אסורה
כתובות. זמין רק בפלטפורמות שיש להן יישום RE נתמך כלשהו.
-tag_pattern $tag $attrib url $
גרסה חזקה יותר של -כתובת_אתר אפשרות להתאמה מדויקת יותר של מותר
כתובות אתרים המבוססות על דפוס שם תג HTML, דפוס שם תכונת תג HTML ועל כתובת URL
תבנית. אתה יכול להשתמש בכל שלושת הפרמטרים של אפשרות זו בדפוסי תווים כלליים, כך
משהו כמו -tag_pattern '*' '*' url_pattern שווה ל -כתובת_אתר
url_pattern. ה $tag ו $attrib פרמטרים תמיד מותאמים שוב באותיות רישיות
מחרוזות. לדוגמה, אם אתה רוצה פשוט תן ל-pavuk לעקוב רק אחר קישורים רגילים תוך התעלמות
כל גיליונות סגנונות, תמונות וכו', השתמש באפשרות -tag_pattern A הרף '*'.
-tag_rpattern $tag $attrib url $
זוהי וריאציה על -tag_pattern. הוא משתמש בדפוסי ביטוי רגולרי ב
פרמטרים במקום תבניות תווים כלליים בשימוש באפשרות הקודמת.
הגבלה פרוטוקול אפשרות
-noHTTP/-HTTP
מתג זה מדכא את כל ההעברות באמצעות פרוטוקול HTTP. ברירת המחדל היא העברה
באמצעות HTTP מופעל.
-noSSL/-SSL
מתג זה מדכא את כל ההעברות באמצעות פרוטוקול HTTPS (פרוטוקול HTTP over
SSL). ברירת המחדל היא העברה דרך HTTPS מופעלת. אפשרות זו זמינה בלבד
כאשר הידור עם תמיכת SSL (אתה צריך ספריות SSleay או OpenSSL ו
כותרות פיתוח)
-noGopher/-Gopher
דחק את כל ההעברות באמצעות פרוטוקול האינטרנט של Gopher. ברירת המחדל היא העברה
באמצעות Gopher מופעל.
-noFTP/-FTP
מתג זה מונע עיבוד מסמכים המוקצים בכל שרתי ה-FTP. ברירת המחדל היא
העברה דרך FTP מופעלת.
-noFTPS/-FTPS
מתג זה מונע עיבוד מסמכים המוקצים בכל שרתי ה-FTP אליהם ניגש
דרך SSL. ברירת המחדל היא העברה דרך FTPS מופעלת. אפשרות זו זמינה
רק כאשר הוא מורכב עם תמיכת SSL (אתה צריך ספריות SSleay או OpenSSL ו
כותרות פיתוח)
-FTPhtml/-noFTPhtml
על ידי שימוש באפשרות -FTPhtml אתה יכול לאלץ את pavuk לעבד קבצי HTML שהורדת
עם פרוטוקול FTP. כברירת מחדל, pavuk לא ינתח קבצי HTML משרתי FTP.
-FTPdir/-noFTPdir
כפה גם עיבוד רקורסיבי של ספריות FTP. ברירת המחדל היא רקורסיבית
הורדה משרתי FTP נדחתה.
-disable_html_tag $TAG,[$ATTRIB][;...]
-enable_html_tag $TAG,[$ATTRIB][;...] אפשר או השבת עיבוד מסוים
תגיות או תכונות HTML. כברירת מחדל, כל תגי ה-HTML הנתמכים מופעלים.
לדוגמה, אם אינך רוצה לעבד את כל התמונות, עליך להשתמש באפשרות
-disable_html_tag 'IMG,SRC;INPUT,SRC;BODY,BACKGROUND' .
אחר הגבלה אפשרויות
-subdir $dir
ספריית משנה של ספריית העץ המקומית, כדי להגביל חלק מהמצבים {sync,
resumeregets, linkupdate} בסריקת העץ שלו.
-dont_leave_site/-leave_site
(אל תעזוב) את אתר הפתיחה. כברירת מחדל pavuk יכול להשתרע על המארח כאשר הוא חוזר דרך
עץ WWW.
-dont_leave_dir/-leave_dir
(אל תעזוב) את ספריית ההתחלה. אם תשתמש באפשרות -dont_leave_dir pavuk תישאר
רק בספריית ההתחלה (כולל ספריות המשנה שלה). ברירת המחדל של pavuk
יכול לעזוב את ספריות ההתחלה.
-leave_site_enter_dir/-dont_leave_site_enter_dir
אם אתה מוריד עץ WWW המשתרע על פני מארחים מרובים עם עצים ענקיים, אתה יכול
רוצה לאפשר הורדה של מסמכים שנמצאים בהיררכיית הספריות למטה
ספרייה שבה ביקרנו כראשונה בכל אתר. כדי להשיג זאת, השתמש באפשרות
-dont_leave_site_enter_dir. כברירת מחדל pavuk יעבור גם לספרייה גבוהה יותר
רמות באתר זה.
-למקס $nr
הגדר את הרמה המקסימלית המותרת של מעבר עצים. ברירת המחדל מוגדרת ל-0, מה זה אומר
פאבוק יכול לעבור באינסוף. החל מגרסה 0.8pl1 אובייקטים מוטבעים של דפי HTML
ממוקמים באותה רמה כמו דף HTML אב.
-leave_level $nr
רמה מקסימלית של מסמכים מחוץ לאתר של כתובת האתר ההתחלתית. ברירת המחדל מוגדרת ל-0,
ו-0 פירושו שהבדיקה לא מופעלת.
-רמת_אתר $nr
רמה מקסימלית של אתרים מחוץ לאתר של כתובת האתר ההתחלתית. ברירת המחדל מוגדרת ל-0, ו
0 פירושו שהבדיקה לא מופעלת.
-dmax $nr
הגדר את המספר המרבי המותר של מסמכים שיעובדו. ערך ברירת המחדל הוא 0.
כלומר, לא נעשה שימוש בהגבלות במספר המסמכים המעובדים.
-דף יחיד/-דף אף אחד
שימוש באפשרות -עמוד יחיד מאפשר לך להעביר רק דפי HTML עם כל התכונות שלו
אובייקטים מוטבעים (תמונות, צלילים, מסמכי מסגרת, ...). כברירת מחדל מושבתת
העברת עמוד בודד. אפשרות זו עושה -מצב עמוד יחיד אפשרות מיושנת.
-limit_inlines/-dont_limit_inlines
עם אפשרות זו אתה יכול לשלוט אם אפשרויות ההגבלה יחולו גם על מוטבע
חפצים (תמונות, צלילים,...). זה שימושי כאשר ברצונך להוריד שצוין
סט של דפי HTML עם כל האפשרויות המוטבעות ללא הגבלות כלשהן.
-user_condition $ str
שם סקריפט או תוכנית עבור תנאים משל המשתמשים. אתה יכול לכתוב כל תסריט אשר
צריך עם ערך יציאה להחליט אם כתובת האתר להורדה או לא. התסריט מקבל מ-pavuk any
מספר אפשרויות, במשמעות זו:
-כתובת אתר url $ - כתובת אתר מעובדת
-הוֹרֶה url $ - כל מספר של כתובות אתרים של אב
ברמה $nr - רמת כתובת האתר הזו מכתובת האתר ההתחלתית
-גודל $nr - גודל כתובת האתר המבוקשת
-תַאֲרִיך $datenr - זמן שינוי של כתובת האתר המבוקשת בפורמט YYYYMMDDhhmmss
מצב היציאה 0 של סקריפט או תוכנית אומר שיש לדחות את כתובת האתר הנוכחית
ומצב יציאה שאינו אפס פירושו שכתובת האתר צריכה להתקבל.
אזהרה : השתמש בתנאי משתמש רק אם נדרש בגלל האטות גדולות שנגרמו על ידי
מזלג סקריפטים עבור כל כתובת URL מסומנת.
-follow_cmd $ str
אפשרות זו מאפשרת לך לציין סקריפט או תוכנית שיכולים לפי סטטוס היציאה שלו
להחליט אם לעקוב אחר כתובות אתרים ממסמך HTML הנוכחי. התסריט הזה יהיה
נקרא לאחר הורדה של כל מסמך HTML. הסקריפט יקבל את האפשרויות הבאות
כמו הפרמטרים שלו:
-כתובת אתר url $ - כתובת האתר של מסמך ה-HTML הנוכחי
-בקובץ $file - קובץ מקומי שבו מאוחסן מסמך HTML
מצב היציאה 0 של סקריפט או תוכנית אומר שכתובות אתרים מהמסמך הנוכחי יהיו
אסור, מצב יציאה אחר פירושו, ש-pavuk יכול לעקוב אחר קישורים מהנוכחי
מסמך HTML.
Javascript תמיכה
תמיכה בשפות סקריפטים כמו JavaScript או VBScript ב-pavuk נעשית קצת בהאקי
דֶרֶך. אין מתורגמן לשפות האלה, אז לא כל הדברים יעבדו. כֹּל
התמיכה של pavuk עבור שפות סקריפטים זו מבוססת על ביטוי רגולרי
דפוסים שצוינו על ידי המשתמש. Pavuk חפש דפוסים אלה בתכונות DOM של אירועי HTML
תגיות, ב-javascript:... כתובות אתרים, בסקריפטים מוטבעים במסמכי HTML הכלואים ביניהם
תגי ובקובצי javascript נפרדים. תמיכה בשפות סקריפטים
זמין רק כאשר pavuk מורכב עם ספריית ביטויים רגולריים נאותה
(POSIX/GNU/PCRE).
-enable_js/-disable_js
אפשרויות אלה משמשות להפעלה או השבתה של עיבוד של חלקי Javascript של HTML
מסמכים. עליך להפעיל אפשרות זו כדי שתוכל להשתמש בעיבוד של javascript
דפוסי.
-js_pattern $re
עם אפשרות זו אתה מציין אילו דפוסים מתאימים לחלקים המעוניינים בהם
Javascript לחילוץ כתובות אתרים. הפרמטר חייב להיות תבנית RE עם אחד בדיוק
תבנית משנה שתואמת בדיוק לחלק כתובת האתר. לדוגמה, כדי להתאים את כתובת האתר הבאה
סוג ביטויי javascript:
document.b1.src='pics/button1_pre.jpg'
אתה יכול להשתמש בתבנית זו
"^document.[a-zA-Z0-9_]*.src[ ]*=[ ]*'(.*)'$"
-js_transform $p $t $h $a
אפשרות זו דומה לקודמתה, אבל אתה יכול להשתמש בכללי טרנספורמציה מותאמים אישית עבור
כתובות URL חלקים של דפוסים וגם לציין את תג ה-HTML המדויק ואת התכונה לאן
חפש את הדפוס הזה. ה $p הוא התבנית שתתאים לחלק המעוניין בו
תַסרִיט. ה $t הוא כלל טרנספורמציה עבור כתובת האתר, בפרמטר זה את $x חלקים יהיו
יוחלף בתת-ה-X של ה- $p תבנית. ה $h הפרמטר הוא HTML מדויק
תג או "*" כאשר זה חל על javascript: כתובות URL או מאפייני אירוע DOM או "" (ריק
string) כאשר זה חל על גוף ה-Javascript של מסמך HTML או קובץ JS נפרד.
השמיים $a הפרמטר הוא מאפיין HTML מדויק של תג או "" (מחרוזת ריקה) כאשר כלל זה
החל על גוף ה-javascript.
-js_transform2 $p $t $h $a
אפשרות זו דומה מאוד לקודמתה. המשמעות של כל הפרמטרים זהה,
רק התבנית $p יכול להיות רק מחרוזת משנה אחת שתשמש בהמרה
לשלוט $t. זה נדרש כדי לאפשר כתיבה מחדש של חלקי כתובת האתר של התגים והסקריפטים.
ניתן להשתמש באפשרות זו גם כדי לאלץ את pavuk לזהות צמדי HTML Targ/attribute
אשר pavuk אינו תומך.
עוגיה
-קובץ_cookie $file
קובץ שבו מאוחסנים פרטי קובצי Cookie. קובץ זה חייב להיות בקובץ Cookie של Netscape
פורמט (נוצר עם Netscape Navigator או Communicator ...).
-cookie_send/-nocookie_send
השתמש בקובצי Cookie שנאספו בבקשות HTTP/HTTPS. Pavuk לא ישלח כברירת מחדל
עוגיות.
-cookie_recv/-nocookie_recv
אחסן קובצי Cookie שהתקבלו מתגובות HTTP/HTTPS בזיכרון מטמון קובצי Cookie. בְּ
ברירת המחדל pavuk לא תזכור קובצי Cookie שהתקבלו.
-cookie_update/-nocookie_update
עדכן את קובץ העוגיות בדיסק וסנכרן אותו עם שינויים שנעשו על ידי כל במקביל
תהליכים. כברירת מחדל pavuk לא יעדכן את קובץ העוגיות בדיסק.
-cookies_max $nr
המספר המרבי של עוגיות במטמון עוגיות הזיכרון. ערך ברירת המחדל הוא 0, וזה
פירושו שאין הגבלות על מספר עוגיות.
-domains_cookies_disabled $ list
רשימה מופרדת בפסיקים של דומיינים של קובצי Cookie אשר מורשים לשלוח קובצי Cookie מאוחסנים
לתוך מטמון העוגיות
-cookie_check/-nocookie_check
בדוק בעת קבלת קובץ cookie, אם תחום ה-cookie שווה לדומיין של השרת אשר
שולח את העוגייה הזו. ברירת המחדל של pavuk לבדוק האם השרת מגדיר עוגיות עבורו
דומיין, ואם הוא ינסה להגדיר עוגיות עבור דומיין זר pavuk יתלונן עליו
כי ותדחה עוגיה כזו.
HTML שִׁכתוּב מנוע כונון אפשרויות
-לאRelocate/-Relocate
מתג זה מונע מהתוכנית לשכתב כתובות URL יחסיות למוחלטות, אחרי HTML
המסמך מועבר. התנהגות ברירת המחדל של pavuk היא לשמור על עקביות הקישור של
מסמכי HTML. אז תמיד כאשר הורדת מסמך HTML pavuk ישכתב הכל
כתובות URL להצביע על מסמך מקומי אם הוא זמין ואם הוא אינו זמין
יצביע על מסמך מרוחק. לאחר הורדת המסמך כהלכה, pavuk יעשה זאת
עדכן קישורים במסמכי HTML, המצביעים על זה.
-all_to_local/-noall_to_local
אפשרות זו מאלצת את pavuk לשנות את כל כתובות האתרים בתוך מסמך HTML לכתובות אתרים מקומיות
מיד לאחר הורדת המסמך. ברירת המחדל היא אפשרות זו מושבתת.
-sel_to_local/-nosel_to_local
אפשרות זו מאלצת את pavuk לשנות את כל כתובות האתרים, מה שמקיים תנאים עבור
הורדה, למסמך HTML מקומי מיד לאחר הורדת המסמך. אני
ממליץ להשתמש באפשרות זו, כאשר אתה בטוח, ההעברה תהיה ללא כל
בעיות. אפשרות זו יכולה לחסוך זמן רב במעבד. ברירת המחדל היא אפשרות זו
נכה.
-הכל_למרחוק/-noall_למרחוק
אפשרות זו מאלצת את pavuk לשנות את כל כתובות ה-URL בתוך מסמך HTML לכתובות URL מרוחקות
מיד לאחר הורדת המסמך. ברירת המחדל היא אפשרות זו מושבתת.
-post_update/-nopost_update
אפשרות זו תוכננה במיוחד כדי לאפשר כניסה -כללים אפשרות לעשות חוקים על בסיס
סוג MIME של מסמך. אפשרות זו מאלצת את pavuk ליצור עבורם שמות מקומיים
מסמכים רק אחרי pavuk יודע מהו סוג המסמך MIME. זה יש גדול
השפעה על מנוע השכתוב של קישורים בתוך מסמכי HTML. אפשרות זו גורמת
חוסר תפקוד של אפשרויות אחרות לשליטה במנוע שכתוב הקישורים. השתמש בזה
אפשרות רק כשאתה יודע מה אתה עושה :-)
-dont_touch_url_pattern $פט
אפשרות זו משמשת למניעת שכתוב ועיבוד של כתובות URL מסוימות ב-HTML
מסמכים על ידי מנוע שכתוב HTML של pavuk. אפשרות זו מקבלת דפוסי תווים כלליים ל
ציין כתובות אתרים כאלה. ההתאמה מתבצעת מול כתובות URL שלא נפגעו כך כאשר כתובת האתר היא
יחסי, עליך להשתמש בתבנית התואמת לכתובת האתר היחסית, כאשר היא מוחלטת,
עליך להשתמש בכתובת URL מוחלטת.
-dont_touch_url_rpattern $פט
אפשרות זו היא וריאציה מהאפשרות הקודמת. זה משתמש בדפוסים רגילים עבור
התאמה של כתובות אתרים במקום דפוסי תווים כלליים שבהם משתמשים -dont_touch_url_pattern
אוֹפְּצִיָה. אפשרות זו זמינה רק כאשר pavuk מורכב עם תמיכה עבור
דפוסי ביטוי רגולרי.
-dont_touch_tag_rpattern $פט
אפשרות זו היא וריאציה על האפשרות הקודמת, רק ההתאמה מתבצעת על תג HTML מלא
עם <> כלול. אפשרות זו מקבלת דפוסי ביטוי רגולרי. זה זמין
רק כאשר pavuk מורכב עם תמיכה בדפוסי ביטוי רגולרי.
שם קובץ/כתובת אתר המרה אפשרות
-tr_del_chr $ str
כל הדמויות נמצאות ב $ str יימחק מהשם המקומי של המסמך. $ str
צריך להכיל רצפי בריחה דומים כמו בפקודה tr:
\n - שורה חדשה
\r - החזרת מרכבה
\t - חלל טאב אופקי
\0xXX - ערך ASCII הקסדצימלי
[:עֶלִיוֹן:] - כל האותיות הגדולות
[:נמוך יותר:] - כל האותיות הקטנות
[:alpha:] - כל האותיות
[:alnum:] - כל האותיות והספרות
[:סִפְרָה:] - כל הספרות
[:xdigit:] - כל הספרות הקסדצימליות
[:מֶרחָב:] - כל הרווחים הלבנים האופקיים והאנכיים
[:רֵיק:] - כל הרווחים הלבנים האופקיים
[:cntrl:] - כל תווי הבקרה
[:הדפס:] - כל התווים הניתנים להדפסה כולל רווח
[:nprint:] - כל התווים שאינם ניתנים להדפסה
[:punct:] - כל תווי הפיסוק
[:גרָף:] - כל התווים הניתנים להדפסה, לא כולל רווח
-tr_str_str $str1 $str2
מחרוזת $str1 מהשם המקומי של המסמך יוחלף ב $str2.
-tr_chr_chr $chrset1 $chrset2
דמויות מ $chrset1 מהשם המקומי של המסמך יוחלף ב
דמות מקבילה מ $chrset2. $charset1 ו $charset2 צריך להיות אותו דבר
תחביר as $ str in -tr_del_chr אוֹפְּצִיָה.
-שם חנות $ str
כאשר אתה רוצה לשנות את שם הקובץ המקומי של הקובץ הראשון שהורד עם singlepage
במצב, עליך להשתמש באפשרות זו.
-שם_אינדקס $ str
עם אפשרות זו ניתן לשנות את שם אינדקס הספרייה. כברירת מחדל משמש _.__.html .
-store_index/-nostore_index
עם האפשרות -nostore_index אתה צריך למנוע אחסון של אינדקסים של ספריות ב-HTML
קבצים.
-כללים $t $m $r
זוהי אפשרות חזקה מאוד! אפשרות זו משמשת לשינוי פריסה גמישה של
עץ מסמכים מקומי. הוא מקבל שלושה פרמטרים. פרמטר ראשון $t רגיל לומר
איזה סוג עוקב אחר הדפוס. F משמש לדפוס תווים כלליים (שימושים fnmatch())
ו R משמש לדפוס ביטוי רגולרי (באמצעות כל RE נתמך
יישום). הפרמטר השני הוא דפוס התאמה המשמש לבחירת כתובות אתרים עבור זה
כְּלָל. אם כתובת האתר תואמת לדפוס זה, השם המקומי עבור כתובת האתר הזו מחושב
לפי הכללים של הפרמטר השלישי. ופרמטר שלישי הוא בניית שם מקומי
כְּלָל. Pavuk תומך כעת בשני סוגים של כללים מקומיים לבניית שמות. אחד פשוט
מבוסס רק על פשוט פקודות מאקרו ואחרות מסובכות יותר מוּרחָב כלל, אשר גם
מאפשר לבצע מספר פונקציות. הכרה בין שני סוגי הכללים הללו
נעשה על ידי הסתכלות על התו הראשון של הכלל. במקרה כאשר הדמות הראשונה היא
'(', הכלל מורחב ובכל שאר המקרים זהו הכלל הפשוט.
פָּשׁוּט לשלוט צריך להכיל מילוליות או פקודות מאקרו בריחה. מאקרו מומלצים על ידי %
תו או לפי תו $.
כאן is רשימה of מוכר פקודות מאקרו:
$x - כאשר x הוא כל מספר חיובי. מאקרו זה מוחלף במחרוזת משנה x-th
תואם על ידי דפוס RE. (אם אתה משתמש בזה אתה צריך להבין RE!)
%i - מוחלף במזהה פרוטוקול (http, https, ftp, gopher)
%p - מוחלף בסיסמה. (השתמש בזה רק כאשר ניתן לשימוש)
%u - מוחלף בשם משתמש.
%h - מוחלף בשם המארח.
%m - מוחלף בשם דומיין.
%r - מוחלף במספר יציאה.
%d - מוחלף בנתיב למסמך.
%n - מוחלף בשם המסמך.
%b - מוחלף בשם הבסיס של המסמך (ללא סיומת).
%e - מוחלף בהרחבה.
%s - מוחלף במחרוזת חיפוש.
%M - מוחלף במסמך מסוג MIME. כאשר אתה משתמש במאקרו זה, אתה
*חייב* להשתמש גם -פוסט_עדכון אפשרות אחרת זה לא יעבוד.
%E - מוחלף בסיומת ברירת המחדל שהוקצתה לסוג המסמך MIME. כאשר אתה
משתמשים במאקרו הזה, *חייב* להשתמש גם -פוסט_עדכון אפשרות אחרת זה לא יעבוד.
%x - כאשר x הוא מספר חיובי. מאקרו זה מוחלף ב-x-th directory from
נתיב למסמך מההתחלה.
%-איקס - כאשר x הוא מספר חיובי. מאקרו זה מוחלף ב-x-th directory from
נתיב למסמך מהקצה.
הנה דוגמה. אם אתה רוצה למקם מסמך בספריות בודדות בהרחבה,
עליך להשתמש באפשרות fnrules הבאה:
-כללים F '*' '/%e/%n'
מורחב לשלוט תמיד מתחיל באופי '('. הוא משתמש בסוג כלשהו של ליספ כמו
תחביר.
כאן יש לו בסיס כללי ל כתיבה מוּרחָב כללי : - שם הקובץ המקומי של זה
סוג הוא פונקציית ערך החזרה
- כל פונקציה סגורה בתוך פלטה עגולה ()
- האסימון הראשון מיד לאחר פתיחת הסוגר הוא שם הפונקציה
- לכל פונקציה יש מספר קבוע שאינו אפס של פרמטרים
- כל פונקציה מחזירה ערך מספרי או מחרוזת
- פרמטרי פונקציה מופרדים על ידי כל מספר של תווי רווח
- פרמטר של פונקציה צריך להיות מחרוזת, מספר, מאקרו או פונקציה אחרת
- מחרוזת אי פעם מצוטטת עם "
- כל פרמטר מספרי יכול להיות בכל קידוד שנתמך על ידי strtod() פונקציה
(אוקטלי, עשרוני, הקסדצימלי,...)
- אין המרה מרומזת ממספר למחרוזת
- כל מאקרו הוא הקידומת של % אופי ואורכו תו אחד
- כל מאקרו מוחלף בייצוג המחרוזת שלו מ-URL הנוכחי
- פרמטרי פונקציה מוקלדים בקפדנות
- הפונקציה העליונה חייבת להחזיר ערך מחרוזת
כלל מורחב תומך בסט מלא של % פקודות מאקרו בריחה הנתמכות עם כללים פשוטים,
בתוספת שתי פקודות מאקרו נוספות הבאות:
%U - מחרוזת כתובת URL
%o - שם מקומי ברירת מחדל עבור כתובת URL
כאן is תיאור of את כל נתמך פונקציות
sc - חיבור שני פרמטרים של מחרוזת
- מקבל שני פרמטרים של מחרוזת
- מחזירה ערך מחרוזת
ss - מחרוזת טופס תת-מחרוזת
- מקבל שלושה פרמטרים.
- הראשון הוא מחרוזת שממנה אנחנו רוצים לחתוך את המשנה
- השני הוא מספר המייצג את מיקום ההתחלה במחרוזת
- השלישי הוא מספר המייצג את עמדת הסיום במחרוזת
- מחזירה ערך מחרוזת
השש - מחשב את ערך הגיבוב של מודולו ממחרוזת עם בסיס שצוין
- מקבל שני פרמטרים
- הראשון הוא מחרוזת שעבורה אנו מחשבים את ערך ה-hash
- שני הוא ערך מספרי לבסיס של מודולו hash
- מחזיר ערך מספרי
md5 - חישוב סכום ביקורת MD5 עבור מחרוזת
- מקבל ערך מחרוזת אחת
- מחזירה מחרוזת שמייצגת MD5 checksum
lo - המר את כל התווים בתוך המחרוזת לאותיות קטנות
- מקבל ערך מחרוזת
- מחזירה ערך מחרוזת
up - המר את כל התווים בתוך המחרוזת לאותיות גדולות
- מקבל ערך מחרוזת אחת
- מחזירה ערך מחרוזת
ue - קידוד תווים לא בטוחים במחרוזת עם אותו קידוד שבו נעשה שימוש
קידוד תווים לא בטוחים בתוך כתובת האתר (%xx) כברירת מחדל מקודדים כל nonascii
ערכים כאשר נעשה שימוש בפונקציה זו.
- מקבל שני ערכי מחרוזת
- הראשון הוא מחרוזת שאנו רוצים לקודד
- השני הוא מחרוזת המכילה תווים לא בטוחים
- החזרת ערך מחרוזת
dc - מחק תווים לא רצויים מהמחרוזת (בעלי פונקציונליות דומה כמו
-tr_del_chr אוֹפְּצִיָה)
- מקבל שני ערכי מחרוזת
- הראשון הוא מחרוזת שממנה אנחנו רוצים למחוק
- השני הוא מחרוזת שמכילה תווים שאנו רוצים למחוק.
- מחזירה ערך מחרוזת
tc - החלף תו עם תו אחר במחרוזת (בעל פונקציונליות דומה
as -tr_chr_chr אוֹפְּצִיָה)
- מקבל שלושה ערכי מחרוזת
- הראשון הוא מחרוזת שבתוכה אנו רוצים להחליף תווים
- השני הוא קבוצה של תווים שאנו רוצים להחליף
- שלישית היא קבוצת דמויות שבהן אנו מחליפים
- מחזירה ערך מחרוזת
ts - החלף איזה מיתר בתוך המחרוזת בכל מחרוזת אחרת (יש דומה
פונקציונליות כמו -tr_str_str אוֹפְּצִיָה)
- מקבל שלושה ערכי מחרוזת
- הראשון הוא מחרוזת שבתוכה אנו רוצים להחליף מחרוזת
- השני הוא המחרוזת מאת
- שלישית היא מחרוזת
- מחזירה ערך מחרוזת
spn - חשב את האורך הראשוני של המחרוזת המכילה רק קבוצה שצוינה של
דמויות. (בעלי אותה פונקציונליות כמו strspn() פונקציית libc)
- מקבל שני ערכי מחרוזת
- הראשון הוא מחרוזת קלט
- השני הוא קבוצה של תווים מקובלים
- מחזיר ערך מספרי
cspn - חשב אורך התחלתי של מחרוזת שאינה מכילה קבוצה שצוינה של
דמויות. (בעלי אותה פונקציונליות כמו strcspn() פונקציית libc)
- מקבל שני ערכי מחרוזת
- הראשון הוא מחרוזת קלט
- השני הוא קבוצה של תווים לא מקובלים
- מחזיר ערך מספרי
sl - לחשב את אורך המחרוזת
- מקבל ערך מחרוזת אחת
- מחזיר ערך מספרי
ns - המרת מספר למחרוזת לפי פורמט
- מקבל שני פרמטרים
- הפרמטר הראשון הוא מחרוזת פורמט זהה לזה של printf () פונקציה
- השני הוא מספר אותו אנו רוצים להמיר
- מחזירה ערך מחרוזת
lc - החזרת מיקום של המופע האחרון של התו שצוין בתוך מחרוזת
- מקבל שני פרמטרים של מחרוזת
- המחרוזת הראשונה שבה אנו מחפשים
- מחרוזת שנייה מכילה תו שאנו מחפשים
- מחזיר ערך מספרי
+ - הוסף שני ערכים מספריים
- מקבל שני ערכים מספריים
- מחזיר ערך מספרי
- - להחסיר שני ערכים מספריים
- מקבל שני ערכים מספריים
- מחזיר ערך מספרי
% - תוספת מודולו
- מקבל שני ערכים מספריים
- מחזיר ערך מספרי
* - שני ערכים מספריים מרובים
- מקבל שני ערכים מספריים
- מחזיר ערך מספרי
/ - חלקו שני ערכים מספריים
- מקבל שני ערכים מספריים
- מחזיר ערך מספרי
rmpar - הסר פרמטר ממחרוזת השאילתה
- מקבל שני מיתרים
- המחרוזת הראשונה היא מחרוזת שאנו מתאימים
- פרמטר שני הוא שם הפרמטר שיש להסיר
- מחזיר מחרוזת מותאמת
getval - קבל ערך פרמטר של מחרוזת שאילתה
- מקבל שני מיתרים
- המחרוזת הראשונה היא מחרוזת שאילתה שממנה ניתן לקבל את הפרמטר
ערך (בדרך כלל %s)
- מחרוזת שנייה היא שם הפרמטר שעבורו אנו רוצים לקבל
הערך
- מחזיר את הערך של הפרמטר או מחרוזת ריקה כאשר הפרמטר
אינו קיים
sif - החלטה הגיונית
- מקבל שלושה פרמטרים
- הראשון הוא מספרי ומתי הוא אפס מהתוצאה של החלטה זו
היא תוצאה של פרמטר שני, אחרת התוצאה היא תוצאה של שלישי
פרמטר
- הפרמטר השני הוא מחרוזת
- הפרמטר השלישי הוא מחרוזת
- מחזיר מחרוזת תוצאת החלטה
! - הגיוני לא
- מקבל פרמטר מספרי אחד
- מחזירה שלילה של פרמטר
& - הגיוני ו
- קבל שני פרמטרים מספריים
- מחזיר לוגי ושל פרמטרים
| - הגיוני או
- קבל שני פרמטרים מספריים
- מחזיר לוגי או של פרמטרים
טקסט - קבל סיומת קובץ
- קבל עוקץ אחד (שם קובץ או נתיב)
- מחרוזת החזרה המכילה הרחבה של פרמטר
seq - השוו בין שני מיתרים
- מקבל שתי מחרוזות להשוואה
- מחזירה ערך מספרי 0 - אם שונה 1 - אם שווה
JSF - הפעל את פונקציית JavaScript
- מקבל פרמטר מחרוזת אחד שמחזיק בשם של
פונקציית JavaScript שצוינה בסקריפט שנטען עם
-js_script_file אוֹפְּצִיָה.
- מחזירה ערך מחרוזת שווה לערך ההחזרה של
פונקציית JavaScript
- פונקציה זו זמינה רק כאשר pavuk מורכב
עם תמיכה בקשרי JavaScript
לדוגמה, אם אתה משקף מספר עצום מאוד של אתרי אינטרנט לתוך אותו
ספרייה מקומית, יותר מדי ערכים בספריה אחת, אמורות לגרום לביצועים
בעיות. אתה יכול להשתמש למשל השש or md5 פונקציות כדי ליצור אחד נוסף
רמת ספריות ה-hash המבוססות על שם מארח עם אחת מהאפשרויות הבאות:
-כללים F '*' '(sc (nc "%02d/" (שש %h 100)) %o)'
-כללים F '*' '(sc (סס (md5 %h) 0 2) %o)'
-רמה בסיסית $nr
מספר רמות הספרייה שיש להשמיט בעץ המקומי.
למשל בעת הורדת URL ftp://ftp.idata.sk/pub/unix/www/pavuk-0.7pl1.tgz
אתה מזין בשורת הפקודה -רמה בסיסית 4 בעץ מקומי ייווצר
www/pavuk-0.7pl1.tgz לא ftp/ftp.idata.sk_21/pub/unix/www/pavuk-0.7pl1.tgz as
בדרך כלל.
-prefix_default $ str
קידומת ברירת המחדל של ספרייה משוקפת. אפשרות זו משמשת רק כאשר אתה מנסה
לסנכרן תוכן של ספרייה מרוחקת שהורדה באמצעות -רמה בסיסית
אוֹפְּצִיָה. כמו כן, עליך להשתמש בשיטת סנכרון מבוססת ספריות, לא מבוססת כתובת URL
שיטת סנכרון. זה שימושי במיוחד, כאשר נעשה בו שימוש בשילוב עם
-הסר_ישן אוֹפְּצִיָה.
-remove_adv/-noremove_adv
אפשרות זו משמשת להפעלה/כיבוי של הסרת תגי HTML המכילים
באנרים של פרסומות. הבאנרים לא מוסרים מקובץ HTML, אבל כן
הגיב. גם כתובות URL כאלה לא יורדו. לאפשרות זו יש השפעה
רק בשימוש עם אופציה -adv_re. ברירת המחדל כבויה. אפשרות זו היא
זמין רק כאשר למערכת שלך יש תמיכה באחד מהרגילים הנתמכים
יישום ביטויים.
-adv_re $RE
אפשרות זו משמשת לציון ביטויים רגולריים עבור כתובות URL תואמות של
באנרים של פרסומות. לדוגמה: -adv_re http://ad.doubleclick.net/.* משמש
כדי להתאים את כל הקבצים מהשרת ad.doubleclick.net. אפשרות זו זמינה בלבד
כאשר למערכת שלך יש יישום ביטויים רגולריים נתמכים.
-שם_יחודי/שם_שם_מיוחד
Pavuk כברירת מחדל תמיד מנסה להקצות לכתובת URL ייחודית שם קובץ מקומי ייחודי. אם
התנהגות זו אינה רצויה, אתה יכול להשתמש באפשרות -שם_שם כדי להשבית את זה.
אחר אפשרויות
-לִישׁוֹן $nr
אפשרות זו מאפשרת לך לציין מספר שניות במהלך שהתוכנית תהיה
מושעה בין שתי העברות. שימושי כדי למנוע עומס יתר על השרת. ערך ברירת מחדל עבור
אפשרות זו היא 0.
-rsleep/-norsleep
כאשר אפשרות זו פעילה, pavuk עושה באקראי את זמן השינה בין העברות
במרווח בין אפס לערך שצוין עם -לִישׁוֹן אוֹפְּצִיָה. ברירת המחדל היא זו
אפשרות לא פעילה.
-ימים $nr
אם למסמך יש זמן שינוי מאוחר יותר כ-$nr ימים, אז במצב סנכרון pavuk
מנסה לאחזר עותק חדש יותר של המסמך מהשרת המרוחק. ערך ברירת המחדל הוא 0.
-remove_old/-noremove_old
הסר מסמכים לא תקינים (שלא קיים באתר מרוחק). אפשרות זו
יש השפעה רק כאשר נעשה שימוש ב-book based לסנכרן מצב. בשימוש עם מבוסס URL
במצב סינכרון, pavuk לא תסיר קבצים ישנים שלא נכללו במסמך
עץ ואינם מוזכרים באף מסמך HTML. עליך להשתמש גם באפשרות
-subdir, כדי לאפשר ל-pavuk למצוא קבצים ששייכים למראה הנוכחית. כברירת מחדל pavuk
לא יסיר קבצים ישנים.
-דפדפן $ str
משמש להגדרת פקודת הדפדפן שלך (בתיבת הדו-שיח של עץ כתובת האתר אתה יכול להשתמש בלחיצה ימנית כדי
להעלות תפריט, שממנו תוכל להפעיל את הדפדפן בכתובת ה-URL שנבחרה בפועל). זֶה
האפשרות זמינה רק כאשר היא מורכבת עם GTK GUI ועם תמיכה בעץ URL
תצוגה מקדימה.
-debug/-nodebug
מפעיל הצגת הודעות ניפוי באגים. אפשרות זו זמינה רק לאחר קומפילציה
עם -DDEBUG. אם נעשה שימוש באפשרות -debug pavuk יוציא מידע רב-משמעי אודות
מסמכים, מידע שלם ברמת הפרוטוקול, מידע נעילה ועוד (תלוי
on -רמת_debug להכין). אפשרויות אלה משמשות בדיוק כמו טריגר כדי לאפשר פלט של
ניפוי באגים שנבחרו על ידי -רמת_debug אוֹפְּצִיָה. ברירת המחדל היא מצב ניפוי באגים כבוי.
-רמת_debug רמת $
הגדר את רמת המידע הנדרש על ניפוי באגים. רמת $ יכול להיות ערך מספרי אשר
מייצגים מסכה בינארית עבור רמות ניפוי באגים מבוקשות, או רשימה מופרדת בפסיק של
רמות ניפוי באגים נתמכות. כרגע pavuk תומך ברמות הבאות הבאות:
html - עבור ניפוי באגים של מנתח HTML
פרוטואים - כדי לראות הודעות פרוטוקול בצד השרת
פרוטוק - כדי לראות הודעות פרוטוקול בצד הלקוח
פרוקס - לראות כמה שיחות נוהל מיוחדות
מנעולים - עבור איתור באגים של נעילת מסמכים
נטו - לאיתור באגים בכמה דברים ברשת ברמה נמוכה
misc - עבור הודעות ניפוי באגים שונות לא ממוינות
המשתמש - להודעות מילוליות ברמת המשתמש
את כל - בקש את כל רמות ניפוי הבאגים הנתמכות כעת
mtlock - נעילת משאבים בסביבת ריבוי פתילים
mtthr - שיגור/החלשה/שינה/עצירת חוטים בסביבת ריבוי חוטים
פרוטוד - עבור ניפוי באגים של בקשות פוסט
גבולות - עבור איתור באגים אפשרויות מגבילות, תראה את הסיבה לכך ספציפית
כתובות URL נדחות על ידי pavuk ואיזו אפשרות גרמה לכך.
SSL - כדי לאפשר דיווח מפורט על דברים הקשורים ל-SSL.
-remind_cmd $ str
אפשרות זו משפיעה רק בעת הפעלת pavuk תזכורת מצב. לפקוד
שצוין עם אפשרות זו pavuk שולח תוצאה של הפעלת מצב תזכורת. יש
כתובות URL מפורטות שהשתנו וכתובות URL שיש בהן שגיאות כלשהן. תזכורת ברירת מחדל
הפקודה היא "mailx user@server -s \"תוצאת תזכורת pavuk\"" .
-nscache_dir $dir
נתיב לספריית המטמון של דפדפן Netscape. אם אתה מציין את הנתיב הזה, pavuk מנסה
כדי לברר אם יש לך כתובת URL במטמון זה. אם כתובת ה-URL קיימת היא תאוחזר אחרת
pavuk יוריד אותו מ-net. יש לתת שם לקובץ האינדקס של ספריית המטמון
index.db וחייב להיות ממוקם בספריית המטמון. כדי לתמוך בתכונה זו,
pavuk חייב להיות מקושר עם BerkeleyDB 1.8x.
-mozcache_dir $dir
נתיב לספריית המטמון של דפדפן Mozilla. אותה פונקציונליות כמו בעבר
אפשרות, רק עבור דפדפן אחר עם פורמטים שונים של מטמון. Pavuk תומך
שני הפורמטים של מטמון הדיסק של דפדפן Mozilla (ישן עבור גרסאות <0.9 וחדשות בשימוש ב
0.9=<). ספריית המטמון בפורמט הישן חייבת להכיל מסד נתונים של אינדקס של ספריית המטמון
עם שם cache.db. אז ספריית מטמון פורמט חדשה חייבת להכיל קובץ מפה
_CACHE_MAP_, ושלושה קבצי בלוק _CACHE_001_, _CACHE_002_, _CACHE_003_. אל
תומך בפורמט מטמון ישן של Mozilla, pavuk חייב להיות מקושר עם BerkeleyDB 1.8x. חָדָשׁ
פורמט המטמון של Mozilla אינו דורש שום ספרייה חיצונית.
-post_cmd $ str
פקודה לאחר עיבוד, שתבוצע לאחר הורדה מוצלחת של
מסמך. פקודה זו עשויה להתמודד איכשהו עם מסמך. בזמן הריצה
הפקודה הזו, pavuk משאיר את המסמך נעול, כך שאין סיכוי שחלק
תהליך אחר של pavuk ישנה את המסמך. הפקודה הזו לאחר עיבוד תקבל
שלושה פרמטרים נוספים מבית pavuk.
- שם מקומי של המסמך
- 1/0 1 אם המסמך הוא מסמך HTML, 0 אם לא
- כתובת האתר המקורית של מסמך זה
-hack_add_index/-nohack_add_index
זו אופציה קצת האקית. זה מאלץ את pavuk להוסיף לתור כתובת האתר גם ספרייה
אינדקסים של כל המסמכים בתור. זה מאפשר ל-pavuk להוריד מסמכים נוספים מהם
אתר, ממה שהוא מסוגל להשיג במעבר רגיל של מסמכי HTML. קצת מלוכלך
אבל שימושי במקרים מסוימים.
-js_script_file $file
ל- Pavuk יש מתורגמן JavaScript מובנה באופן אופציונלי כדי לאפשר רמה גבוהה
התאמה אישית של כמה נהלים פנימיים. נכון לעכשיו אתה רשאי להתאים אישית
עם JavaScript משלך פונקציות שני דברים. אתה יכול להשתמש בו כדי להגדיר מדויק
אפשרויות מגבילות, או שאתה יכול לכתוב פונקציות משלך שניתן להשתמש בהן בתוך כללים של
-כללים אוֹפְּצִיָה. עם אפשרות זו אתה יכול לטעון סקריפט JavaScript עם פונקציות
לתוך מתורגמן JavaScript הפנימי של pavuks. למידע נוסף על יכולות אלו
קרא מסמך נפרד jsbind.txt שמגיע עם מקורות pavuk ב-toplevel
מַדרִיך. אפשרות זו זמינה רק כאשר הידור pavuk עם תמיכה
עבור כריכות JavaScript.
יְצִיאָה סטָטוּס
החל מגרסה 0.9pl29 pavuk שינו את חיווי המצב לפי קודי יציאה. קודם לכן
סטטוס יציאה של גרסאות 0 היה ללא שגיאה ומצב יציאה שאינו אפס היה משהו כמו ספירה
של מסמכים כושלים. בכל הגרסאות לאחר 0.0pl29 מוגדרים קודי יציאה הבאים:
0 - אין שגיאה, הכל בסדר
1 - שגיאה בתצורה של אפשרויות pavuk או
שגיאה בקבצי תצורה
2 - אירעה שגיאה בזמן הורדת מסמכים
סְבִיבָתִי וריאציות
משתמש המשתנה משמש לבניית כתובת דואר אלקטרוני ממשתמש ומשם מארח
LC_* or שפה
משמש לקביעת סביבה בינלאומית
PAVUKRC_FILE
עם משתנה זה אתה יכול לציין מיקום חלופי עבור pavukrc שלך
קובץ תצורה.
נדרש חיצוני תוכניות
at משמש לתזמון.
אקדח משמש לפענוח gzip או לדחיסת מסמכים מקודדים.
באגס
אם תמצא, אנא הודע לי.
השתמש ב-pavuk באינטרנט באמצעות שירותי onworks.net