זוהי הפקודה mmorph שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
mmorph - כלי מורפולוגיה MULTEXT
תַקצִיר
מידע:
ממורף [ -vh ]
לנתח בלבד:
ממורף -y | -z [ -a הוסף קובץ ]
-m morphfile [ -d debug_map ] [ -l קובץ לוג ] [ בקובץ [ אוסף ]]
לִיצוֹר:
ממורף -c | -n [ -t trace_level ] [ -s trace_level ] [ -a הוסף קובץ ]
-m morphfile [ -d debug_map ] [ -l קובץ לוג ] [ בקובץ [ אוסף ]]
חיפוש פשוט:
ממורף [ -פי ] [ -b | -k ] [ -r דחיית קובץ ]
-m morphfile [ -d debug_map ] [ -l קובץ לוג ] [ בקובץ [ אוסף ]]
חיפוש רשומות/שדה:
ממורף -C כיתות [ -fU ] [ -E | -O ] [ -b | [ -k ] [ -B בכיתה ]]
-m morphfile [ -d debug_map ] [ -l קובץ לוג ] [ בקובץ [ אוסף ]]
מסד נתונים של dump:
ממורף -p | -ש
-m morphfile [ -d debug_map ] [ -l קובץ לוג ] [ בקובץ [ אוסף ]]
תיאור
במצב הפעולה הפשוט ביותר, רק עם -m morphfile אוֹפְּצִיָה, ממורף פועלת ב
מצב חיפוש: הוא יפתח מסד נתונים קיים בשם morphfile.db ותחפש את כל
קטעי מחרוזת (בדרך כלל תואמים למילים) בקלט.
כדי ליצור את מסד הנתונים מהערכים המילוניים המצוינים ב-"morphfile", השתמש -c -m
morphfile. הקובץ morphfile.db לא צריך להתקיים. כאשר מסד הנתונים יושלם זה יעשה זאת
חפש את הקטעים בקלט. אם נעשה בו שימוש לא פעיל (הקלט והפלט הם טרמינל), א
הנחיה מודפסת כאשר התוכנית מצפה מהמשתמש להקליד מחרוזת מקטע. לא
הנחיה מתרחשת במצב רשומה/שדה.
כדי לבדוק את יישומי הכללים על הערכים המילוניים המצוינים ב morphfile, בלי
יצירת מסד נתונים ומבלי לחפש פלחים, השתמש -n -m morphfile. זֶה
מגדיר אוטומטית את רמת המעקב ל-1 אם היא לא צוינה.
על מנת לבצע את אותן פעולות כמו לעיל, אבל על הסט החלופי של ערכים מילוניים
in הוסף קובץ, השתמש באפשרות הנוספת -a הוסף קובץ. הערכים המילוניים ב-morphfile יהיו
התעלמו. זה שימושי בעת ביצוע תוספות לתיאור מורפולוגי סטנדרטי.
שים לב שערכים נוספו למסד הנתונים morphfile.db אל תחליף את הקיימים.
איך ל מבחן a מורפולוגי תיאור
השתמש -n אוֹפְּצִיָה. בסעיף דקדוק, ציין כללי יעד שיתאימו לרצוי
תוצאות. בסעיף לקסיקון ציין את הפריטים המילוניים שברצונך לבדוק. בזמן ריצה
כל הכללים יחולו (רקורסיבית) על הפריטים המילוניים, אם הכלל הוא מטרה, אז
התוצאה של היישום מודפסת על הפלט.
הצעה: שים את שני החלקים שהוזכרו לעיל (כללי המטרה וסעיף הלקסיקון) בנפרד
קבצים והפניה לקבצים אלה באמצעות an #include ההוראה היכן הם צריכים להתרחש ב
קובץ הקלט הראשי.
אם אתה משתמש בתיאור קיים וברצונך לבדוק רק ערכים מילוניים חדשים, השתמש
האפשרויות -n -a הוסף קובץ, והכנס את הערכים המילוניים הוסף קובץ.
אפשרויות
-a הוסף קובץ
התעלם מערכים מילוניים ב-morphfile, קח אותם מ הוסף קובץ במקום.
-B בכיתה
מציין את מחלקת הרשומות שמתרחשת לפני תחילת משפט.
מילים באותיות רישיות המתרחשות מיד לאחר רשומות כאלה ייבדקו עם כולם
האותיות שלהם מומרות לאותיות קטנות (לפי LC_CTYPE, ראה להלן).
-b לקפל את המארז לפני חיפוש. אותיות גדולות מומרות לאותיות קטנות
(לפי LC_CTYPE, ראה להלן) לפני חיפוש מילה.
-C כיתות
קובע מצב רישום/שדה. מציין את מחלקות הרשומות שיש לבדוק
לְמַעלָה. יש להפריד בין שמות המחלקות באמצעות פסיק ",", TAB, רווח, פס "|" או קו נטוי לאחור
"\".
-c צור מסד נתונים חדש לחיפוש. שם הקובץ שנוצר הוא השם של
morphfile (-m אפשרות) עם סיומת .db. זה לא צריך להתקיים; אם זה קיים המשתמש
צריך להסיר אותו ידנית לפני ההפעלה ממורף -c (זוהי הגנה מינימלית
נגד החלפה בשוגג של מסד נתונים שאולי לקח הרבה זמן
לִיצוֹר).
-d debug_map
ציין אילו אפשרויות ניפוי באגים רצויות. כל קטע פנימה debug_map תואם ל-
אוֹפְּצִיָה.
מטרה הקסדצימלית של סיביות עשרונית
ללא ביטים 0 0x0 ללא אפשרות ניפוי באגים (ברירת מחדל)
אתחול ניפוי באגים 1 1 0x1
2 2 0x2 ניתוח באגים של yacc
3 שילוב כללי ניפוי באגים 4 0x4
4 8 0x8 יישום איות באגים
5 16 סטטיסטיקות הדפסה 0x10 עם אפשרויות -p או -q
כל הסיביות -1 0xffff כל אפשרויות ניפוי הבאגים באשר הן
כדי לשלב אפשרויות הוסף את הערכים העשרוניים או ההקסדצימליים יחד. דוגמה: -t 0x5
מציין סיביות (אפשרויות) 1 ו-4.
-E במצב רשומה/שדה, מרחיב את ההערות המורפולוגיות אם הן כבר קיימות (ה
ברירת המחדל היא להשאיר הערות קיימות כפי שהן).
-O במצב רשומה/שדה, החלף את ההערות המורפולוגיות אם הן כבר קיימות
(ברירת המחדל היא להשאיר את ההערות הקיימות כפי שהן).
-f שטף את הפלט לאחר כל חיפוש מקטע. זה שימושי רק אם קלט ופלט
מועברים אל תוכנית שצריכה לסנכרן אותם.
-h הדפס עזרה וצא.
-i הוסף את התוצאה של כל חיפוש עם המזהה של קטע הקלט שלו
מתאים ל. כרגע מקטעי קלט מזוהים לפי המספר הרציף שלהם,
החל מ-0. עם אינדיקציה זו, הקו החדש הנוסף המפריד בין הפתרונות
עבור מקטעי קלט שונים אינו מודפס מכיוון שאין בו צורך. אם חיפוש
אין פתרונות, רק מזהה הקטע מודפס על הפלט. הקטע
מזהה מוצמד גם לקטעים שנדחו. כרטיסייה תמיד אחריה
מזהה פלח.
-k מארז מתקפל. אם חיפוש מילים נכשל, המר את כל האותיות הגדולות ל
באותיות קטנות ונסה לחפש שוב. (ההמרה מתבצעת לפי LC_CTYPE, ראה
להלן).
-l קובץ לוג
ציין את הקובץ לכתיבת הודעות מעקב ושגיאה. ברירת המחדל היא שגיאת תקן.
-m morphfile
ציין את הקובץ המכיל את תיאור המורפולוגיה. לִרְאוֹת ממורף (5) עבור
תיאור התחביר של הפורמליזם.
-n אין יצירת מסד נתונים או חיפוש (מצב בדיקה).
-p זרוק את מסד הנתונים של מבנה התכונות המוקלד ל-outfile (או פלט סטנדרטי). ה
ספירת tfs ברורה ניתנת בקובץ היומן (או בשגיאה סטנדרטית) אם סיביות 5 של ניפוי באגים
האפשרות מוגדרת.
-q זרוק את הטפסים במסד הנתונים ל-outfile (או פלט סטנדרטי). קצת סטטיסטיקה
ניתנים בקובץ היומן (או בשגיאה רגילה) אם סיביות 5 של אפשרות ניפוי באגים מוגדרת.
-r דחיית קובץ
במצב שאינו רשומה/שדה, מציין את הקובץ היכן לכתוב מקטעי קלט
לא ניתן היה להסתכל למעלה. ברירת המחדל היא שגיאת תקן.
-s trace_level
מעקב אחר יישום כללי איות:
0 אין מעקב (ברירת מחדל).
1 עקבו אחר צורות משטח חוקיות.
2 חוקי עקבות שחלקם המילוני תואם.
3 עקבות משטח השמאלי התאמת הקשר (בניית מילת משטח).
4 עקבות אי התאמה של ההקשר הימני של פני השטח וחסימת כללים.
כלל 5 עקבות שאינו חוסם.
A trace_level מרמז על כל הקודמים.
-t trace_level
ציין את רמת המעקב עבור יישום כללים:
0 אין מעקב (ברירת מחדל).
1 עקבו אחר כללי יעד החלים.
2 עקבו אחר כל הכללים החלים, הזחה מציינת את עומק הרקורסיה.
10 עקבו גם אחר כללים שנוסו אך לא חלו
A trace_level מרמז על כל הקודמים.
-U במצב שיא/שדה, מילים לא ידועות (כלומר שנבדקו ללא הצלחה).
מסומן ב-??\??.
-v גרסת הדפסה ויציאה.
-y ניתוח בלבד: אל תעבד את התיאור מלבד בדיקת תחביר. בזמן
בפיתוח תיאור מורפולוגיה תוכל להשתמש באפשרות זו כדי לתפוס שגיאות תחביר
במהירות לאחר כל שינוי לפני הפעלתו "באמת".
-z מרמז על -y. נתח והפלט את התיאורים המילוניים בצורה מנורמלת.
בקובץ קובץ המכיל את הקטעים לחיפוש, אחד בכל שורה. ברירת מחדל לתקן
קֶלֶט.
אוסף
קובץ שבו נכתב הפלט של התוכנית. שורה אחת לכל פתרון.
פתרונות של מקטעי קלט שונים מופרדים בשורה ריקה. ברירת מחדל ל
הפלט הסטנדרטי.
WORD דקדוק ו אִיוּת RULES
לתיאור מפורט של העקרונות והמנגנונים המשמשים ב ממורף, בבקשה התייחס ל
המסמכים המצוטטים בסעיף ראה גם להלן.
תיאורים מורפוסינטקטיים משורטים בקצרה שנכתבו עבור ממורף מתארים איך מילים הן
נבנה על ידי שרשור של מורפמות, וכיצד תהליך שרשור זה משתנה
האיות של המורפמות הללו. החלק הראשון, המילה מבנה דקדוק, מצוין
על ידי חוקי שכתוב חופשי בהקשר מוגבל שהפורמליזם שלהם בהשראת איחוד מבוסס
מערכות (השוו שיבר 1986). החלק השני, שינויי האיות, מצוין על ידי
כללי איות בפורמליזם המבוסס על מודל שתי הרמות של מורפולוגיה. הגישה הזו
למורפולוגיה מתואר ב- Ritchie, Russell et. al, 1992 ובאופן תמציתי יותר ב-Pulman
והפל 1993.
הסביבה וריאציות
כדי להחליט אילו תווים ניתן להציג בפלט, ממורף משתמש בשפה
תיאור ספציפי ש setlocale(3) קובע לפי משתנה הסביבה
LC_CTYPE. עבור השפות בהן עוסקים ב-MULTEXT, מומלץ לקבל זאת
משתנה מוגדר ל iso_8859_1.
דוגמאות
להלן סיכום של השימוש הנפוץ באפשרויות mmorph:
ממורף -n -m morphfile
מצב בדיקה: קורא את כל ה-morphfile ומדפיס תוצאות על שגיאת תקן. אין מסד נתונים
נוצר, לא מחפשים מילים.
ממורף -c -m morphfile
יצירת מסד נתונים: קורא את כל ה-morphfile ומאחסן את התוצאות במסד נתונים
(morphfile.db). מבני תכונה מוקלדים נאספים בקובץ נפרד
(morphfile.tfs). הקלט הסטנדרטי נקרא כדי לחפש מילים במסד הנתונים החדש.
ממורף -m morphfile
מצב חיפוש: קורא רק את מקטעי האלפבית, התכונות והסוגים של קובץ המורפ.
קלט סטנדרטי נקרא כדי לחפש מילים בהתאם למסד הנתונים הקיים
(mmorphfile.db ו-morphfile.tfs).
ממורף -m morphfile -a הוסף קובץ
מצב הוספה: מתעלם מקטע ה- Lexicon של morphfile, אך יש להתייעץ עם addfile, ו
התוצאות מתווספות למסד הנתונים. קלט סטנדרטי נקרא כדי לחפש מילים
לפי מסד הנתונים המוגדל (mmorphfile.db ו-morphfile.tfs).
דיאגנוסטיקה
הודעות שגיאה צריכות להיות מובנות מאליהן. בבקשה התייחס ל ממורף(5) עבור רשמי
תיאור התחביר.
השתמש ב-mmorph באינטרנט באמצעות שירותי onworks.net