هذه هي فئة الأوامر التلقائية التي يمكن تشغيلها في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
autoclass - اكتشاف الفئات تلقائيًا في البيانات
موجز
أوتوكلاس -بحث ملف البيانات الملف الاساسي نموذج_ملف s_param_file
أوتوكلاس -أبلغ عن results_file search_file r_params_file
أوتوكلاس -يتنبأ results_file search_file results_file
الوصف
تصنيف تلقائي يحل مشكلة الاكتشاف التلقائي للفئات في البيانات (تسمى أحيانًا
التكتل ، أو التعلم غير الخاضع للإشراف) ، كما يختلف عن جيل الفصل
أوصاف من الأمثلة المصنفة (تسمى التعلم الخاضع للإشراف). يهدف إلى اكتشاف
فئات "طبيعية" في البيانات. تصنيف تلقائي ينطبق على ملاحظات الأشياء التي يمكن
يمكن وصفها بمجموعة من السمات ، دون الإشارة إلى أشياء أخرى. قيم البيانات
المقابلة لكل سمة تقتصر على أن تكون إما أرقامًا أو عناصر من
مجموعة ثابتة من الرموز. مع البيانات الرقمية ، يجب تقديم خطأ في القياس.
تصنيف تلقائي يبحث عن أفضل تصنيف (تصنيفات) للبيانات التي يمكنه العثور عليها. أ
يتكون التصنيف من:
1) مجموعة من الفئات ، كل منها موصوف بمجموعة من معلمات الفئة ، والتي
تحديد كيفية توزيع الفصل على السمات المختلفة. على سبيل المثال،
"الارتفاع موزع بشكل طبيعي بمتوسط 4.67 قدم وانحراف معياري 32 قدمًا" ،
2) مجموعة من أوزان الفصل ، تصف النسبة المئوية للحالات التي يحتمل أن تكون موجودة
كل فئة.
3) تخصيص احتمالي للحالات في البيانات لهذه الفئات. أي لكل منها
الحالة ، الاحتمال النسبي أن يكون عضوًا في كل فئة.
كنظام بايزي صارم (لا تقبل أي بدائل!) ، مقياس الجودة تصنيف تلقائي يستخدم
هو الاحتمال الكلي ، أنك لو لم تكن تعرف شيئًا عن بياناتك أو مجالها
سيجد هذه المجموعة من البيانات التي تم إنشاؤها بواسطة هذا النموذج الأساسي. وهذا يشمل
الاحتمال المسبق أن "العالم" كان سيختار هذا العدد من الفئات ، هذه المجموعة من
أوزان الفئات النسبية ، وهذه المجموعة من المعلمات لكل فئة ، واحتمالية ذلك
كان من الممكن أن تولد مثل هذه المجموعة من الفئات هذه المجموعة من القيم للسمات الموجودة في
حالات البيانات.
عادةً ما تكون هذه الاحتمالات صغيرة جدًا ، في نطاق e ^ -30000 ، وكذلك عادةً
معبرا عنها في التدوين الأسي.
عند الجري مع -بحث أمر، تصنيف تلقائي يبحث عن تصنيف. المطلوب
الوسائط هي المسارات إلى ملفات الإدخال الأربعة ، والتي توفر البيانات وتنسيق البيانات ،
نموذج التصنيف المطلوب ومعلمات البحث على التوالي.
افتراضيا، تصنيف تلقائي يكتب النتائج الوسيطة في ملف ثنائي. مع ال -أبلغ عن
أمر، تصنيف تلقائي يقوم بإنشاء تقرير ASCII. الوسائط هي أسماء المسار الكامل لـ
ملفات .results و .search و .r-params.
عند الجري مع -يتنبأ أمر، تصنيف تلقائي يتوقع عضوية فئة "اختبار"
مجموعة البيانات على أساس الفئات الموجودة في مجموعة بيانات "التدريب" (انظر "التنبؤات" أدناه).
INPUT FILES
توجد مجموعة بيانات AutoClass في ملفين. يوجد ملف رأس (نوع الملف "hd2")
يصف تنسيق البيانات المحددة وتعريفات السمات. قيم البيانات الفعلية هي
في ملف بيانات (نوع الملف "db2"). نستخدم ملفين للسماح بتحرير أوصاف البيانات
دون الحاجة إلى التعامل مع مجموعة البيانات بأكملها. هذا يجعل من السهل التجربة مع
أوصاف مختلفة لقاعدة البيانات دون الحاجة إلى إعادة إنتاج مجموعة البيانات.
داخليًا ، يتم تحديد بنية قاعدة بيانات AutoClass من خلال ملفات الرأس والبيانات الخاصة بها ،
وعدد البيانات التي تم تحميلها.
لمزيد من المعلومات التفصيلية حول تنسيقات هذه الملفات ، راجع
/usr/share/doc/autoclass/preparation-c.text.
بيانات FILE
يحتوي ملف البيانات على سلسلة من كائنات البيانات (مرجع أو حالة) منتهية بنهاية
الملف. يجب أن يكون عدد القيم لكل كائن بيانات مساويًا لعدد
السمات المحددة في ملف الرأس. يجب أن تكون كائنات البيانات مجموعات من الرموز المميزة المحددة بـ
"خط جديد". يتم كتابة السمات على أنها حقيقية أو خاصة أو غبية. قيم السمات الحقيقية
الأرقام ، إما عدد صحيح أو فاصلة عائمة. يمكن أن تكون قيم السمات المنفصلة سلاسل ،
الرموز أو الأعداد الصحيحة. يمكن أن تكون قيمة السمة الوهمية أيًا من هذه الأنواع. تتم قراءة Dummys
في ولكن تم تجاهلها بخلاف ذلك - سيتم تعيينها على الأصفار في قاعدة البيانات الداخلية. هكذا
لن تكون القيم الفعلية متاحة للاستخدام في إخراج التقرير. للحصول على هذه السمة
القيم المتاحة ، استخدم إما النوع REAL أو اكتب DISCRETE ، وحدد نوع النموذج الخاص بها
تجاهل في ملف .model. يمكن تمثيل القيم المفقودة لأي نوع سمة بواسطة
إما "؟" ، أو رمز مميز آخر محدد في ملف الرأس. كلها مترجمة إلى خاص
قيمة فريدة بعد قراءتها ، لذا فإن هذا الرمز محجوز فعليًا للمجهول / المفقود
القيم.
فمثلا:
أبيض 38.991306 0.54248405 2 2 1
أحمر 25.254923 0.5010235 9 2 1
أصفر 32.407973؟ 8 2 1
كل_وايت 28.953982 0.5267696 0 1 1
HEADER FILE
يحدد ملف الرأس تنسيق ملف البيانات وتعريفات البيانات
صفات. تتكون المواصفات الوظيفية لملف الرأس من جزأين - البيانات
تعيين مواصفات تعريف التنسيق ، واصفات السمات. "؛" في العمود 1
يحدد التعليق.
يتبع ملف الرأس هذا التنسيق العام:
؛؛ قيمة num_db2_format_defs (عدد أسطر تعريف التنسيق
؛؛ التي تلي) ، نطاق n هو 1 -> 5
num_db2_format_defs ن
؛؛ number_of_attributes الرمز المميز والقيمة المطلوبة
عدد_السمات
؛؛ فيما يلي اختيارية - يتم تحديد القيم الافتراضية
فاصل_شار ''
comment_char '؛'
unknown_token '؟'
eparator_char '،'
؛؛ واصفات السمة
؛؛
؛؛
كل واصف سمة هو سطر من:
فهرس السمات (قائم على الصفر ، يبدأ في العمود 1)
نوع السمة. انظر أدناه.
نوع السمة الفرعي. انظر أدناه
وصف السمة: رمز (بدون فراغات مضمنة) أو
خيط؛ <= 40 حرفًا
أزواج الممتلكات والقيمة المحددة.
المجموعات المتوفرة حاليًا:
اكتب نوع (أنواع) خاصية النوع الفرعي
-------- ---------------
وهمية لا شيء / لا شيء -
النطاق الاسمي المنفصل
خطأ موقع حقيقي
عددي حقيقي للخطأ في نقطة الصفر
يجب أن تمثل الخاصية ERROR أفضل تقدير لديك لمتوسط الخطأ المتوقع في
قياس وتسجيل تلك السمة الحقيقية. تفتقر إلى معلومات أفضل
يمكن اعتبار الخطأ 1/2 أدنى فرق ممكن بين القيم المقاسة. يمكن
يجادل بأن القيم الحقيقية غالبًا ما يتم اقتطاعها ، بحيث يمكن تبرير الأخطاء الصغيرة ،
خاصة بالنسبة للبيانات التي تم إنشاؤها. لكن AutoClass يرى القيم المسجلة فقط. لذلك هو
يحتاج إلى الخطأ في القيم المسجلة ، بدلاً من خطأ القياس الفعلي. جلسة
هذا الخطأ أصغر بكثير من الحد الأدنى للتعبير عن الاختلاف يعني إمكانية
القيم التي لا يمكن التعبير عنها في البيانات. والأسوأ من ذلك ، أنه يشير إلى وجود قيمتين متطابقتين
يجب أن تمثل قياسات كانت أقرب بكثير مما كانت عليه في الواقع.
هذا يؤدي إلى الإفراط في التصنيف.
تُستخدم الخاصية REL_ERROR مع القيم الحقيقية لـ SCALAR عندما يكون الخطأ متناسبًا مع
القيمة المقاسة. الخاصية ERROR غير مدعومة.
يستخدم التصنيف التلقائي الخطأ كحد أدنى على عرض التوزيع العادي. لذا
تميل تقديرات الخطأ الصغيرة إلى إعطاء ذروات أضيق وزيادة عدد
الفئات واحتمال التصنيف. تميل تقديرات الخطأ الواسعة إلى الحد من
عدد الفصول.
الخاصية العددية ZERO_POINT هي أصغر قيمة يمكن أن تتم في عملية القياس
أنتجت. هذا غالبًا 0.0 أو أقل من خلال بعض نطاق الخطأ. وبالمثل ، يحدها
خصائص min و max هي حدود حصرية لعملية توليد السمات.
بالنسبة للنسبة المئوية المحسوبة ، ستكون هذه هي 0-e و 100 + e ، حيث تمثل e قيمة خطأ. ال
نطاق السمة المنفصلة هو عدد القيم المحتملة التي يمكن أن تتخذها السمة.
يجب أن يتضمن هذا النطاق غير معروف كقيمة عند حدوث مثل هذه القيم.
مثال على ملف الرأس:
! # ؛ ملف رأس AutoClass C - التمديد .hd2
! # ؛ الأحرف التالية في العمود 1 تجعل السطر تعليقًا:
! # ؛ '!' و '#' و '؛' و '' و '\ n' (سطر فارغ)
؛ #! num_db2_format_defs
num_db2_format_defs 2
؛؛ مطلوب
عدد_السمات 7
؛؛ اختياري - يتم تحديد القيم الافتراضية
؛؛ فاصل_شار ''
؛؛ comment_char '؛'
؛؛ unknown_token '؟'
eparator_char '،'
؛؛
0 وهمية لا شيء "فئة حقيقية ، النطاق = 1-3"
1 موقع حقيقي "موقع X ، م. في النطاق 25.0 - 40.0" خطأ 25
2 الموقع الحقيقي "موقع Y ، م. في النطاق 0.5 - 0.7" خطأ 05
3 عددي حقيقي "الوزن ، كجم. في النطاق من 5.0 - 10.0" نقطة الصفر_0.0 XNUMX
rel_error .001
4 اسمية منفصلة "قيمة الحقيقة ، النطاق = 1-2" النطاق 2
5 الاسمي المنفصل "لون foobar ، 10 قيم" النطاق 10
6 النطاق الاسمي المنفصل Spectral_color_group 6
فئة الساعة : FILE
يتم تصنيف مجموعة البيانات فيما يتعلق بالنموذج الذي يحدد شكل
دالة التوزيع الاحتمالي للفئات في مجموعة البيانات تلك. عادة النموذج
يتم تعريف البنية في ملف نموذج (نوع الملف "نموذج") ، يحتوي على نموذج واحد أو أكثر.
داخليًا ، يتم تعريف النموذج بالنسبة إلى قاعدة بيانات معينة. وهكذا يتم تحديده
بواسطة قاعدة البيانات المقابلة ، ملف نموذج النموذج وموقعه التسلسلي في
ملف.
يتم تحديد كل نموذج من خلال سطر واحد أو أكثر من خطوط تعريف مجموعة النماذج. كل مجموعة نموذجية
يربط السطر مؤشرات السمات بنوع مصطلح النموذج.
فيما يلي مثال لملف نموذج:
# ملف نموذج AutoClass C - امتداد نموذج
نموذج_الفهرس 0 7
تجاهل 0
Single_normal_cn 3
Single_normal_cn 17 18 21
متعدد_عادي_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
واحد_متعدد الحدود الافتراضي
هنا ، السطر الأول هو تعليق. الأحرف التالية في العمود 1 تجعل السطر أ
التعليق: "!" و "#" و "" و "؛" و "\ n" (سطر فارغ).
الرموز المميزة "model_index n m"يجب أن يظهر في السطر الأول بدون تعليق ، وأن يسبق
خطوط تعريف مصطلح النموذج. n هو مؤشر النموذج الصفري ، وعادة ما يكون 0 حيث يوجد
نموذج واحد فقط - غالبية حالات البحث. m هو رقم مصطلح النموذج
خطوط التعريف التالية.
الأسطر السبعة الأخيرة عبارة عن خطوط مجموعة نموذجية. يتكون كل خط مجموعة نموذجي من:
نوع مصطلح النموذج (واحد من واحد_متعدد الحدود, واحد_العادي_سم, Single_normal_cn,
multi_normal_cn أو تجاهل).
قائمة فهارس السمات (قائمة مجموعة السمات) ، أو الرمز الافتراضي. يصف
المؤشرات على أساس الصفر. قد تحتوي مصطلحات النموذج الفردي على فهرس سمات واحد أو أكثر
كل سطر ، بينما تتطلب مصطلحات النماذج المتعددة اثنين أو أكثر من مؤشرات السمات لكل سطر. ان
يجب ألا يظهر فهرس السمات أكثر من مرة في قائمة النماذج.
الملاحظات:
1) يلزم تعريف نموذج واحد على الأقل (رمز model_index المميز).
2) قد يكون هناك عدة إدخالات في النموذج لأي نوع مصطلح نموذج.
3) تتكون أنواع المصطلحات النموذجية حاليًا من:
واحد_متعدد الحدود
نماذج سمات منفصلة باعتبارها متعددة الحدود ، مع القيم المفقودة.
Single_normal_cn
نماذج للسمات ذات القيمة الحقيقية كقواعد ؛ لا توجد قيم مفقودة.
واحد_العادي_سم
نماذج صفات ذات قيمة حقيقية بقيم مفقودة.
multi_normal_cn
هو نموذج عادي متغير بدون قيم مفقودة.
تجاهل يسمح للنموذج بتجاهل سمة واحدة أو أكثر. تجاهل ليس صحيحا
نوع مصطلح النموذج الافتراضي.
راجع الوثائق في نماذج c.text لمزيد من المعلومات حول طراز معين
شروط.
4) Single_normal_cn, واحد_العادي_سمو multi_normal_cn البيانات المنمذجة ، ونوعها الفرعي
is العددية (يكون توزيع القيمة بعيدًا عن 0.0 ، وبالتالي فهو ليس "عاديًا"
التوزيع) سيتم تحويله ونمذجه باستخدام نموذج السجل العادي. ل
البيانات ذات النوع الفرعي موقع (توزيع القيمة حوالي 0.0) ، لا يوجد تحويل
تم ، ويتم استخدام النموذج العادي.
SEARCHING
عند استدعائه في وضع "البحث" ، سيتحقق التصنيف التلقائي من صحة مجموعة البيانات ،
الرأس والنموذج وملفات معلمات البحث. ستؤدي الأخطاء إلى إيقاف بدء البحث ، و
ستسأل التحذيرات المستخدم ما إذا كان سيستمر أم لا. تاريخ الخطأ والتحذير
يتم حفظ الرسائل بشكل افتراضي في ملف السجل.
بمجرد أن تنجح في وصف بياناتك بملف رأس وملف نموذج
اجتياز عمليات التحقق من الإدخال AUTOCLASS -SEARCH <...> ، ستكون قد دخلت مجال البحث
أين تصنيف تلقائي يصنف البيانات الخاصة بك. (أخيرا!)
الوظيفة الرئيسية التي يجب استخدامها في العثور على تصنيف جيد لبياناتك هي AUTOCLASS
-SARCH ، واستخدامه سيستغرق معظم وقت الحساب. يتم استدعاء عمليات البحث مع:
autoclass -search <مسار ملف .db2> <مسار ملف .hd2>
<مسار ملف الطراز> <مسار ملف .s-params>
يجب تحديد جميع الملفات كأسماء مسار نسبية أو مطلقة مؤهلة بالكامل. اسم الملف
يتم فرض الامتدادات (أنواع الملفات) لجميع الملفات على القيم الأساسية التي يتطلبها ملف
برنامج AutoClass:
ملف البيانات ("ascii") db2
ملف البيانات ("ثنائي") db2-bin
ملف رأس hd2
نموذج ملف النموذج
البحث في ملف المعلمات s-params
تشغيل العينة (/ usr / share / doc / autoclass / أمثلة /) التي تأتي مع تصنيف تلقائي يظهر بعض
نماذج من عمليات البحث ، وتصفحها ربما يكون أسرع طريقة للتعرف على كيفية القيام بذلك
لإجراء عمليات البحث. مجموعات بيانات الاختبار الموجودة أسفل / usr / share / doc / autoclass / أمثلة / سوف
تظهر لك بعض الرؤوس الأخرى (.hd2) ، والنموذج (.model) ، وملف معلمات البحث (.s-params)
الأجهزة. يوضح الجزء المتبقي من هذا القسم كيفية إجراء عمليات البحث بشكل أكبر إلى حد ما
التفاصيل.
تشير الخطّ الغامق واجه الرموز المميزة أدناه هي بشكل عام معلمات ملف معلمات البحث. للمزيد من
معلومات عن ملف s-params ، انظر ابحث المعلمات أدناه ، أو
/usr/share/doc/autoclass/search-c.text.gz.
ما النتائج هي
تصنيف تلقائي يبحث عن أفضل تصنيف (تصنيفات) للبيانات التي يمكنه العثور عليها. أ
يتكون التصنيف من:
1) مجموعة من الفئات ، كل منها موصوف بمجموعة من معلمات الفئة ، والتي
تحديد كيفية توزيع الفصل على السمات المختلفة. على سبيل المثال،
"الارتفاع موزع بشكل طبيعي بمتوسط 4.67 قدم وانحراف معياري 32 قدمًا" ،
2) مجموعة من أوزان الفصل ، توضح النسبة المئوية للحالات التي من المحتمل أن تكون موجودة
كل فئة.
3) تخصيص احتمالي للحالات في البيانات لهذه الفئات. أي لكل منها
الحالة ، الاحتمال النسبي أن يكون عضوًا في كل فئة.
كنظام بايزي صارم (لا تقبل أي بدائل!) ، مقياس الجودة تصنيف تلقائي يستخدم
هو الاحتمال الكلي ، أنك لو لم تكن تعرف شيئًا عن بياناتك أو مجالها
سيجد هذه المجموعة من البيانات التي تم إنشاؤها بواسطة هذا النموذج الأساسي. وهذا يشمل
الاحتمال المسبق أن "العالم" كان سيختار هذا العدد من الفئات ، هذه المجموعة من
أوزان الفئات النسبية ، وهذه المجموعة من المعلمات لكل فئة ، واحتمالية ذلك
كان من الممكن أن تولد مثل هذه المجموعة من الفئات هذه المجموعة من القيم للسمات الموجودة في
حالات البيانات.
عادةً ما تكون هذه الاحتمالات صغيرة جدًا ، في نطاق e ^ -30000 ، وكذلك عادةً
معبرا عنها في التدوين الأسي.
ما النتائج MEAN
من المهم أن نتذكر أن كل هذه الاحتمالات أعطيت أن النموذج الحقيقي
هو في عائلة النموذج تصنيف تلقائي قصر اهتمامه على. لو تصنيف تلقائي is
تبحث عن فئات جاوس والطبقات الحقيقية هي بواسون ، ثم حقيقة ذلك
تصنيف تلقائي وجدت 5 فصول غاوسية قد لا تقول الكثير عن عدد فصول بواسون هناك
هي في الواقع.
يمكن أن يكون الاحتمال النسبي بين التصنيفات المختلفة الموجودة كبيرًا جدًا ، مثل
^ 1000 ، لذا فإن أفضل تصنيف تم العثور عليه يكون عادةً أكثر احتمالية من
الباقي (وأقل احتمالًا بشكل كبير من أي تصنيفات أفضل حتى الآن
غير مكتشف). لو تصنيف تلقائي يجب أن يتمكن من العثور على تصنيفين ضمنهما
حول exp (5-10) من بعضها البعض (أي في حدود 100 إلى 10,000 مرة أكثر احتمالية) ثم أنت
يجب أن نعتبرها محتملة بنفس القدر ، لأن حساباتنا عادة لا تكون أكثر
دقيقة من هذا (وأحيانًا أقل من ذلك بكثير).
HOW IT WORKS
تصنيف تلقائي بشكل متكرر ينشئ تصنيفًا عشوائيًا ثم يحاول تدليك هذا إلى ملف
تصنيف احتمالية عالية على الرغم من التغييرات المحلية ، حتى يتقارب مع بعض "المحلية
القصوى ". ثم يتذكر ما وجده ويبدأ من جديد ، ويستمر حتى أنت
قل لها أن تتوقف. كل جهد يسمى "محاولة" ، والاحتمال المحسوب مقصود
لتغطية الحجم الكامل في مساحة المعلمة حول هذا الحد الأقصى ، بدلاً من مجرد
قمة.
النهج القياسي للتدليك هو
1) حساب عضوية الفئة الاحتمالية للحالات باستخدام معلمات الفئة و
الاحتمالات النسبية الضمنية.
2) باستخدام أعضاء الفصل الجدد ، حساب إحصائيات الفصل (مثل المتوسط) ومراجعة
معلمات الطبقة.
وكرر حتى يتوقفوا عن التغيير. هناك ثلاث خوارزميات تقارب متاحة:
"converge_search_3" (الافتراضي) و "converge_search_4" و "converge". هُم
يتم التحكم في المواصفات من خلال معلمة ملف معلمات البحث Try_fn_type.
متى إلى إيقاف
يمكنك إخبار AUTOCLASS -SEARCH بالتوقف عن طريق: 1) إعطاء a المدة القصوى (بالثواني) وسيطة
في البداية؛ 2) إعطاء أ max_n_tries (عدد صحيح) حجة في البداية ؛ أو 3) بواسطة
كتابة "q" و بعد أن رأيت عددًا كافيًا من المحاولات. ال المدة القصوى
max_n_tries تعتبر الوسائط مفيدة إذا كنت ترغب في تشغيل AUTOCLASS -SEARCH في وضع الدُفعات. لو
أنت تعيد تشغيل AUTOCLASS -SEARCH من بحث سابق ، قيمة max_n_tries لصحتك!
يوفر ، على سبيل المثال 3 ، سيخبر البرنامج بحساب 3 محاولات أخرى بالإضافة إلى
مهما فعلت بالفعل. يتم عرض نفس السلوك المتزايد بواسطة
المدة القصوى.
إن اتخاذ قرار بشأن موعد التوقف هو أمر يتعلق بالحكم والأمر متروك لك. منذ البحث يتضمن أ
مكون عشوائي ، هناك دائمًا فرصة أنه إذا سمحت له بالاستمرار في العثور عليه
شيء أفضل. لذلك أنت بحاجة إلى المقايضة إلى أي مدى يمكن أن يكون أفضل مع طول المدة
قد يستغرق للعثور عليه. تقارير حالة البحث التي تتم طباعتها عند ظهور الأفضل
تم العثور على التصنيف يهدف إلى تزويدك بمعلومات لمساعدتك في القيام بذلك
التنازل عن ميزة ممن أجل الحصول على أخرى.
إحدى العلامات الواضحة التي تدل على أنه من المحتمل أن تتوقف هي ما إذا كانت معظم التصنيفات التي تم العثور عليها موجودة
نسخ مكررة من التكرارات السابقة (تم وضع علامة "تكرار" كما تم العثور عليها). يجب أن يحدث هذا فقط
لمجموعات صغيرة جدًا من البيانات أو عند تحديد عدد صغير جدًا من الفئات ، مثل اثنين.
تجربتنا هي أنه بالنسبة لمجموعات البيانات المتوسطة إلى الكبيرة للغاية (من 200 إلى ~ 10,000
datum) ، فمن الضروري تشغيلها تصنيف تلقائي لما لا يقل عن 50 تجربة.
ما يحصل على عاد
قبل العودة مباشرة ، سيعطي AUTOCLASS -SEARCH أوصافًا مختصرة للأفضل
وجدت التصنيفات. كم سيتم وصفها يمكن التحكم بها n_final_summary.
بشكل افتراضي ، سيقوم AUTOCLASS -SEARCH بكتابة عدد من الملفات ، في كل من النهاية و
بشكل دوري أثناء البحث (في حالة تعطل النظام قبل انتهائه). هؤلاء
ستحمل جميع الملفات نفس الاسم (مأخوذ من اسم مسار معلمات البحث [ .س-
params]) ، وتختلف فقط في امتدادات الملفات الخاصة بهم. إذا كانت عمليات البحث طويلة جدًا و
هناك احتمال أن جهازك قد يتعطل ، يمكن أن يكون لديك "نتائج" وسيطة
ملفات مكتوبة. يمكن استخدامها لإعادة تشغيل عملية البحث بأقل خسارة
جهد البحث. انظر ملف التوثيق /usr/share/doc/autoclass/checkpoint-c.text.
سيحتوي ملف ".log" على قائمة بمعظم ما تم طباعته على الشاشة أثناء
تشغيل ، إلا إذا قمت بتعيين log_file_p للخطأ أن أقول إنك لا تريد مثل هذا الحماقة. إلا إذا
results_file_p هو خطأ ، ملف ثنائي ".results-bin" (الافتراضي) أو ملف ASCII ".results"
ملف نصي ، سيحتوي على أفضل التصنيفات التي تم إرجاعها ، وما لم يكن search_file_p
غير صحيح ، سيحتفظ ملف ".search" بسجل محاولات البحث. save_compact_p
يتحكم في ما إذا كان سيتم حفظ ملفات "النتائج" كنص ثنائي أو نص ASCII.
إذا تم تعريف المتغير العام C "G_safe_file_writing_p" على أنه TRUE في "autoclass-
c / prog / globals.c "، أسماء ملفات" النتائج "(تلك التي تحتوي على ملفات
تصنيفات) داخليًا لمراعاة كتابة الملفات الزائدة عن الحاجة. إذا كان
اسم ملف معلمات البحث هو "my_saved_clsfs" سترى ملف "النتائج" التالي
أسماء (تجاهل الدلائل وأسماء المسار لهذا المثال)
save_compact_p = صحيح -
"my_saved_clsfs.results-bin" - ملف مكتوب بالكامل
"my_saved_clsfs.results-tmp-bin" - ملف مكتوب جزئيًا ، تمت إعادة تسميته
عند الانتهاء
save_compact_p = خطأ -
"my_saved_clsfs.results" - ملف مكتوب بالكامل
"my_saved_clsfs.results-tmp" - ملف مكتوب جزئيًا ، تمت إعادة تسميته
عند الانتهاء
إذا تم إجراء تأشير ، فستظهر هذه الأسماء الإضافية
save_compact_p = صحيح -
"my_saved_clsfs.chkpt-bin" - ملف نقطة تفتيش مكتوب بالكامل
"my_saved_clsfs.chkpt-tmp-bin" - ملف نقاط تحقق مكتوب جزئيًا ،
أعيدت تسميته عند الانتهاء
save_compact_p = خطأ -
"my_saved_clsfs.chkpt" - ملف نقاط تفتيش مكتوب بالكامل
"my_saved_clsfs.chkpt-tmp" - ملف نقاط تفتيش مكتوب جزئيًا ،
أعيدت تسميته عند الانتهاء
HOW إلى للحصول على بدأت
طريقة استدعاء AUTOCLASS -SEARCH هي:
autoclass -search <مسار ملف .db2> <مسار ملف .hd2>
<مسار ملف الطراز> <مسار ملف .s-params>
لإعادة تشغيل بحث سابق ، حدد ذلك فرض_البحث_الجديد القيمة false في
البحث في ملف params ، نظرًا لأن قيمته الافتراضية صحيحة. يؤدي تحديد خطأ إلى إخبار AUTOCLASS -SEARCH
لمحاولة العثور على بحث متوافق سابق (<...>. نتائج [-bin] & <...>. بحث) إلى
تابع من ، وسيتم إعادة استخدامه إذا وجدت. لفرض بحث جديد بدلاً من
إعادة تشغيل قديمة ، إعطاء المعلمة فرض_البحث_الجديد قيمة true ، أو استخدم
تقصير. إذا كان هناك بحث موجود (<...>. النتائج [-bin] & <...>. بحث) ، المستخدم
سيُطلب منك تأكيد المتابعة لأن المتابعة ستتجاهل البحث الحالي.
في حالة استمرار البحث السابق ، ستظهر رسالة "إعادة بدء البحث" بدلاً من ذلك
من "البحث المبتدئ" المعتاد. من الأفضل عمومًا مواصلة البحث السابق
بدلاً من بدء واحدة جديدة ، إلا إذا كنت تحاول طريقة بحث مختلفة بشكل كبير ، في
إحصائيات الحالة التي تم الحصول عليها من البحث السابق قد تضلل البحث الحالي.
الوضع تقارير
ستتم طباعة تعليق قيد التشغيل على البحث على الشاشة وعلى ملف السجل
(ما لم log_file_p هو زائف). لاحظ أن ملف ".log" سيحتوي على قائمة بكافة
قيم معلمات البحث الافتراضية ، وقيم جميع المعلمات التي تم تجاوزها.
بعد كل محاولة يتم تقديم تقرير قصير جدًا (فقط عدد قليل من الأحرف). بعد كل جديد
أفضل تصنيف ، يتم تقديم تقرير أطول ، ولكن ليس أكثر من الحد الأدنى_تقرير_المدة
(الافتراضي 30 ثانية).
ابحث الاختلافات
يستخدم AUTOCLASS -SEARCH افتراضيًا طريقة بحث قياسية معينة أو "وظيفة المحاولة"
(Try_fn_type = "converge_search_3"). هناك نوعان آخران متاحان أيضًا: "converge_search_4"
و "تتلاقى"). يتم توفيرها في حال كانت مشكلتك قد تستفيد منها
منهم. بشكل عام ، ستؤدي الطريقة الافتراضية إلى العثور على تصنيفات أفضل في
على حساب وقت البحث الأطول. تم اختيار التقصير ليكون قويا ، عطاء
حتى في الأداء عبر العديد من المشكلات. قد تعمل بدائل الإعداد الافتراضي بشكل أفضل
بعض المشاكل ، ولكن قد يكون تأثيرها أسوأ على البعض الآخر.
يستخدم "converge_search_3" معيار إيقاف مطلق (rel_delta_range، القيمة الافتراضية
0.0025) الذي يختبر التباين لكل فئة من فئات دلتا السجل التقريبي-
احتمالية هامشية لإحصائيات الفصل فيما يتعلق بفرضية الفصل
(class-> log_a_w_s_h_j) مقسومة على وزن الفئة (class-> w_j) بين المتتالية
دورات التقارب. تؤدي زيادة هذه القيمة إلى إرخاء التقارب وتقليل الرقم
من الدورات. يؤدي تقليل هذه القيمة إلى تشديد التقارب وزيادة عدد
دورات. n_average (القيمة الافتراضية 3) تحدد عدد الدورات المتعاقبة التي يجب أن تفي بـ
وقف المعيار قبل انتهاء المحاكمة.
يستخدم "converge_search_4" معيار إيقاف مطلق (cs4_delta_range، القيمة الافتراضية
0.0025) الذي يختبر التباين في كل فئة من فئات المنحدر لكل فئة من اللوغاريتمات
احتمالية تقريبية هامشية لإحصائيات الفصل فيما يتعلق بالفصل
فرضية (class-> log_a_w_s_h_j) مقسومة على وزن الفئة (class-> w_j) أكثر
sigma_beta_n_values (القيمة الافتراضية 6) دورات التقارب. زيادة قيمة
cs4_delta_range يخفف التقارب ويقلل من عدد الدورات. تقليل هذا
القيمة تشد التقارب وتزيد من عدد الدورات. حسابيا ، هذا
تعد وظيفة try أكثر تكلفة من "converge_search_3" ، ولكن قد تكون مفيدة إذا كان
تعتبر "الضوضاء" الحسابية مهمة مقارنة بالتغيرات في القيم المحسوبة.
تتم العمليات الحسابية الرئيسية بنقطة عائمة مزدوجة الدقة ، وللبيانات الأكبر
الأساس الذي اختبرناه حتى الآن (5,420 حالة من 93 سمة) ، لم يحدث التشويش الحسابي
كانت مشكلة ، على الرغم من قيمة ماكس_دراجات يجب زيادتها إلى 400.
يستخدم "كونفيرج" أحد معيارين التوقف المطلق اللذين يختبران تباين
التصنيف (clsf) log_marginal (clsf-> log_a_x_h) دلتا بين التقارب المتتالي
دورات. أكبر توقف_النطاق (القيمة الافتراضية 0.5) و عامل التوقف *
current_clsf_log_marginal) تستخدم (القيمة الافتراضية لـ عامل التوقف هو 0.0001). في ازدياد
هذه القيم تخفف التقارب وتقلل من عدد الدورات. تقليل هذه
القيم تشدد التقارب وتزيد من عدد الدورات. n_average (إفتراضي
قيمة 3) تحدد عدد الدورات التي يجب أن تفي بمعايير التوقف قبل التجربة
ينتهي. هذا معيار إيقاف تقريبي للغاية ، لكنه سيعطيك بعض الشعور
لنوع التصنيفات المتوقعة. سيكون مفيدًا لعمليات البحث "الاستكشافية"
من قاعدة البيانات.
الغرض من إعادة التقارب = "chkpt" هو إكمال التصنيف المتقطع بواسطة
مستمرة من آخر نقطة تفتيش لها. الغرض من إعادة التقارب = "النتائج" هي
حاول مزيدًا من التنقيح لأفضل تصنيف مكتمل باستخدام قيمة مختلفة لـ
Try_fn_type ("converge_search_3"، "converge_search_4"، "converge"). لو max_n_tries is
أكبر من 1 ، ثم في كل حالة ، بعد اكتمال إعادة التقارب ، تصنيف تلقائي سوف
إجراء المزيد من تجارب البحث استنادًا إلى قيم المعلمات في ملف <...>. s-params.
بإستخدام إعادة التقارب (القيمة الافتراضية "") ، يمكنك تطبيق أكثر من محاولة
وظيفة لتصنيف. لنفترض أنك تنشئ العديد من التجارب الاستكشافية باستخدام
Try_fn_type = "تقارب" ، وقم بإنهاء حفظ البحث وملفات البحث والنتائج [-bin].
ثم يمكنك بدء بحث آخر باستخدام Try_fn_type = "converge_search_3" ، إعادة التقارب
= "النتائج" ، و max_n_tries = 1. سيؤدي هذا إلى مزيد من التقارب بين الأفضل
تم إنشاء التصنيف باستخدام Try_fn_type = "تتلاقى" مع Try_fn_type =
"converge_search_3". متى تصنيف تلقائي يكمل هذا البحث حاول ، سيكون لديك
تصنيف مكرر إضافي.
طريقة جيدة للتحقق من أن أيًا من البديل Try_fun_type تقوم بتوليد بئر
يتم تشغيل التصنيف المتقارب تصنيف تلقائي في وضع التنبؤ على نفس البيانات المستخدمة ل
توليد التصنيف. ثم قم بإنشاء ومقارنة الحالة أو الفئة المقابلة
عبر الملفات المرجعية للتصنيف الأصلي والتنبؤ. صغير
من المتوقع وجود اختلافات بين هذه الملفات ، بينما تشير الاختلافات الكبيرة
تقارب غير كامل. يجب أن تكون الاختلافات بين أزواج الملفات هذه ، في المتوسط و modulo
حذف فئة ، قلل بشكل رتيب مع مزيد من التقارب.
الطريقة القياسية لإنشاء تصنيف عشوائي لبدء المحاولة هي بالطريقة الافتراضية
قيمة "عشوائي" لـ start_fn_type. في هذه المرحلة لا توجد بدائل. التحديد
"حظر" لـ start_fn_type ينتج عمليات بحث غير عشوائية قابلة للتكرار. هذا هو كيف
<..>. ملفات s-params في autoclass-c / data / .. تم تحديد الدلائل الفرعية. هذه هي الطريقة
تم اختبار التطوير.
ماكس_دراجات يتحكم في الحد الأقصى لعدد دورات التقارب التي سيتم إجراؤها في أي منها
تجربة واحدة بوظائف التقارب. قيمته الافتراضية هي 200. إخراج الشاشة
يُظهر نقطة (".") لكل دورة مكتملة. إذا تم تشغيل تجارب البحث الخاصة بك لمدة 200 دورة ،
إذن فإما أن تكون قاعدة بياناتك معقدة للغاية (قم بزيادة القيمة) ، أو أن Try_fn_type ليس
مناسب للموقف (جرب أحد الخيارات المتاحة واستخدمه converge_print_p تحصل
مزيد من المعلومات حول ما يجري).
تحديد converge_print_p أن يكون صحيحًا سينتج عنه نسخة مطبوعة موجزة لكل دورة
والتي ستوفر معلومات بحيث يمكنك تعديل القيم الافتراضية لـ
rel_delta_range & n_average لـ "converge_search_3" ؛ cs4_delta_range & sigma_beta_n_values
لـ "converge_search_4" ؛ و توقف_النطاق, عامل التوقفو n_average من أجل "تتلاقى". هُم
يتم إعطاء القيم الافتراضية في ملفات <..>. s-params في فئة autoclass-c / data / .. sub-
الدلائل.
HOW كتييير الطبقات؟
تبدأ كل محاولة جديدة بعدد معين من الفئات وقد تنتهي برقم أصغر ،
لأن بعض الفصول قد تنسحب من التقارب. بشكل عام ، تريد أن تبدأ المحاولة
مع بعض الفصول الدراسية التي أشارت المحاولات السابقة إلى أنها تبدو واعدة ، وأنت
تريد أن تتأكد من أنك تقوم بالصيد في مكان آخر في حال فاتك شيء من قبل.
n_classes_fn_type = "random_ln_normal" هي الطريقة الافتراضية للقيام بهذا الاختيار. تناسبها أ
سجل طبيعي لعدد الفئات (تسمى عادةً "j" للاختصار) من أفضل 10
وجدت التصنيفات حتى الآن ، ويختار بشكل عشوائي من ذلك. لا يوجد حاليا أي
البدائل.
لبدء اللعبة ، الافتراضي هو النزول start_j_list في المحاولات القليلة الأولى ، و
ثم انتقل إلى n_classes_fn_type. إذا كنت تعتقد أن العدد المحتمل للفئات في
لنفترض أن قاعدة بياناتك هي 75 ، فبدلاً من استخدام القيمة الافتراضية start_j_list (2 ، 3 ،
5 ، 7 ، 10 ، 15 ، 25) ، حدد شيئًا مثل 50 ، 60 ، 70 ، 80 ، 90 ، 100.
إذا أراد المرء أن يبحث دائمًا عن ، على سبيل المثال ، ثلاث فئات ، فيمكن للمرء أن يستخدمها fix_j وتجاوز
فوق. ستصف تقارير حالة البحث الطريقة الحالية لاختيار j.
DO I HAVE يكفي الذاكرة لأي لبس DISK فضاء؟
داخليا ، متطلبات التخزين في النظام الحالي هي من الدرجة n_classes_per_clsf
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values). هذا يعتمد على
عدد الحالات ، عدد السمات ، القيم لكل سمة (استخدم 2 إذا كان حقيقيًا
value) ، وعدد التصنيفات المخزنة بعيدًا للمقارنة لمعرفة ما إذا كان الآخرون كذلك
مكررة - التي تسيطر عليها max_n_store (القيمة الافتراضية = 10). عملية البحث لا
نفسه يستهلك ذاكرة كبيرة ، ولكن تخزين النتائج قد يؤدي إلى ذلك.
تصنيف تلقائي C تم تكوينه للتعامل مع 999 سمة كحد أقصى. إذا حاولت الجري
مع أكثر من ذلك سوف تحصل على انتهاكات مجموعة منضم. في هذه الحالة ، قم بتغيير هذه
معلمات التكوين في prog / autoclass.h وإعادة تجميعها تصنيف تلقائي C:
#تعريف جميع_الخصائص 999
#حدد VERY_LONG_STRING_LENGTH 20000
#حدد VERY_LONG_TOKEN_LENGTH 500
على سبيل المثال ، ستتعامل هذه القيم مع عدة آلاف من السمات:
#تعريف جميع_الخصائص 9999
#حدد VERY_LONG_STRING_LENGTH 50000
#حدد VERY_LONG_TOKEN_LENGTH 50000
مساحة القرص التي يشغلها ملف "السجل" ستعتمد بالطبع على مدة البحث.
n_ حفظ (القيمة الافتراضية = 2) تحدد عدد التصنيفات التي يتم حفظها في ملف
ملف ".results [-bin]". save_compact_p يتحكم في ما إذا كانت "النتائج" و "نقطة التفتيش"
يتم حفظ الملفات كثنائي. الملفات الثنائية أسرع وأكثر إحكاما ، لكنها ليست كذلك
محمول. القيمة الافتراضية لـ save_compact_p هو true ، مما يتسبب في أن تكون الملفات الثنائية
مكتوب.
إذا كان الوقت المستغرق لحفظ ملفات "النتائج" يمثل مشكلة ، ففكر في زيادة
min_save_period (القيمة الافتراضية = 1800 ثانية أو 30 دقيقة). يتم حفظ الملفات على القرص
هذا غالبًا إذا كان هناك أي شيء مختلف للإبلاغ عنه.
فقط HOW بطيء IS تكنولوجيا المعلومات؟
وقت الحساب حسب الترتيب n_data * n_attributes * n_classes * n_tries *
متقارب_دراجات_في_محاولة. الشكوك الرئيسية في هذا هي عدد الأساسية الظهر و
الدورات الرابعة حتى التقارب في كل محاولة ، وبالطبع عدد المحاولات. الرقم
من الدورات لكل تجربة عادة 10-100 ل Try_fn_type "كونفيرج" و 10-200 + من أجل
"converge_search_3" و "converge_search-4". يتم تحديد العدد الأقصى بواسطة
max_n_tries (القيمة الافتراضية = 200). عدد المحاولات متروك لك ومتاح لك
موارد الحوسبة.
سيكون وقت تشغيل مجموعات البيانات الكبيرة جدًا غير مؤكد تمامًا. ننصح أن القليل
يتم إجراء عمليات اختبار على نطاق صغير على نظامك لتحديد خط الأساس. حدد n_data إلى
تحديد عدد متجهات البيانات المقروءة. بالنظر إلى كمية كبيرة جدًا من البيانات ، تصنيف تلقائي قد
تجد تصنيفاتها الأكثر احتمالا لما يزيد عن مائة فئة ، وهذه الإرادة
تتطلب ذلك start_j_list يتم تحديدها بشكل مناسب (انظر القسم أعلاه HOW كتييير
الطبقات؟). إذا كنت متأكدًا تمامًا من أنك لا تريد سوى عدد قليل من الفصول ، فيمكنك الإجبار
تصنيف تلقائي للبحث بعدد ثابت من الفئات المحددة بواسطة fix_j. سوف تفعل بعد ذلك
تحتاج إلى إجراء عمليات بحث منفصلة مع كل عدد ثابت مختلف من الفئات.
التغيير الملفات IN A SAVED تصنيف FILE
تصنيف تلقائي تخزين البيانات والرأس وأسماء مسار ملف النموذج مؤقتًا في التصنيف المحفوظ
بنية الملفات الثنائية (".results-bin") أو ASCII (".results") ملفات "results". إذا كان
يتم نقل ملفات "النتائج" و "البحث" إلى موقع دليل مختلف ، البحث
لا يمكن إعادة التشغيل بنجاح إذا كنت قد استخدمت أسماء المسار المطلقة. هكذا هو
من المفيد تشغيل الاستدعاء تصنيف تلقائي في الدليل الرئيسي للبيانات والعنوان والنموذج
الملفات ، بحيث يمكن استخدام أسماء المسار النسبية. منذ ذلك الحين سيتم تخزين أسماء المسار مؤقتًا
نسبيًا ، يمكن نقل الملفات إلى مضيف أو نظام ملفات مختلف وإعادة التشغيل -
توفير نفس التسلسل الهرمي لاسم المسار النسبي موجود.
ومع ذلك ، نظرًا لأن ملف ".results" هو نص ASCII ، يمكن تغيير أسماء المسار هذه بامتداد
محرر النص (save_compact_p يجب تحديده على أنه خطأ).
ابحث المعلمات
يتم التحكم في البحث بواسطة ملف ".s-params". في هذا الملف ، سطر فارغ أو سطر
بدءًا من أحد هذه الأحرف يتم التعامل معه كتعليق: "#" أو "!" أو "؛". ال
يمكن فصل اسم المعلمة وقيمتها بعلامة يساوي أو مسافة أو علامة تبويب:
ن_clsfs 1
ن_clsfs = 1
n_clsfs 1
يتم تجاهل المسافات إذا كانت "=" أو " يتم استخدام "كفواصل. لاحظ عدم وجود لاحقة
فاصلة منقوطة.
معلمات البحث بقيمها الافتراضية هي كما يلي:
rel_error = 0.01
يحدد مقياس الفرق النسبي المستخدم بواسطة clsf-DS -٪ = ، عند تحديد ما إذا كان a
clsf الجديد هو نسخة مكررة من نسخة قديمة.
start_j_list = 2 ، 3 ، 5 ، 7 ، 10 ، 15 ، 25
في البداية جرب هذه الأعداد من الفصول ، حتى لا تضيق البحث بسرعة كبيرة.
يتم حفظ حالة هذه القائمة في <..>. ملف البحث واستخدامها عند إعادة التشغيل ،
ما لم يتم تجاوز مواصفات start_j_list في ملف .s-params لـ
تشغيل إعادة التشغيل. يجب أن تضع هذه القائمة بين قوسين العدد المتوقع من الفصول ، وبواسطة
بهامش واسع! تحدد "start_j_list = -999" قائمة فارغة (مسموح بها فقط في
إعادة تشغيل)
n_classes_fn_type = "random_ln_normal"
Once Spa start_j_list تم استنفاد، تصنيف تلقائي سوف تستدعي هذه الوظيفة لتقرر كيف
العديد من الفصول للبدء بها في المحاولة التالية ، بناءً على أفضل 10 تصنيفات
وجدت حتى الآن. يتوفر حاليًا "random_ln_normal" فقط.
fix_j = 0
متى fix_j > 0 ، التجاوزات start_j_list n_classes_fn_type ، تصنيف تلقائي سوف
استخدم دائمًا هذه القيمة للعدد الأولي للفئات.
الحد الأدنى_تقرير_المدة = 30
انتظر هذه المرة على الأقل (بالثواني) منذ آخر تقرير حتى تقديم تقرير شفهيًا
مرة أخرى. يجب تعيينه لفترة أطول من وقت التشغيل المتوقع عند التحقق من وجوده
تكرار النتائج. للحصول على نتائج قابلة للتكرار ، انظر أيضًا force_new_search_p ،
start_fn_type العشوائية_عشوائية_ص. نوت: واحد على الأقل من "Interactive_p" ،
يجب أن تكون "max_duration" ، و "max_n_tries" نشطة. خلاف ذلك تصنيف تلقائي سوف يعمل
إلى أجل غير مسمى. انظر أدناه.
Interactive_p = صحيح
عندما يكون خطأ ، يسمح للجري بالاستمرار حتى يتم إيقافه. عندما يكون هذا صحيحًا ، يكون المعيار
يتم الاستعلام عن الإدخال في كل دورة عن حرف الإقلاع "q" ، والذي عند اكتشافه ،
يؤدي إلى وقف فوري.
المدة القصوى = 0
عندما تكون = 0 ، يسمح للجري بالاستمرار حتى يتم إيقافه. عندما> 0 ، تحدد
أقصى عدد من الثواني للتشغيل.
max_n_tries = 0
عندما تكون = 0 ، يسمح للجري بالاستمرار حتى يتم إيقافه. عندما> 0 ، تحدد
أقصى عدد من المحاولات.
n_ حفظ = 2
احفظ هذا العدد الكبير من clsfs على القرص في النتائج [-bin] وملفات البحث. إذا 0 ، لا تفعل
حفظ أي شيء (لا توجد ملفات بحث ونتائج [-bin]).
log_file_p = صحيح
إذا كان خطأ ، لا تكتب ملف السجل.
search_file_p = صحيح
إذا كان خطأ ، لا تكتب ملف بحث.
results_file_p = صحيح
إذا كان خطأ ، لا تكتب ملف النتائج.
min_save_period = 1800
حماية تحطم وحدة المعالجة المركزية. هذا يحدد الحد الأقصى للوقت ، بالثواني ، ذلك تصنيف تلقائي
سيتم تشغيله قبل أن يحفظ النتائج الحالية على القرص. الوقت الافتراضي هو 30
دقائق.
max_n_store = 10
يحدد الحد الأقصى لعدد التصنيفات المخزنة داخليًا.
n_final_summary = 10
يحدد عدد التجارب التي سيتم طباعتها بعد انتهاء البحث.
start_fn_type = "عشوائي"
واحد من {"عشوائي" ، "كتلة"}. هذا يحدد نوع تهيئة الفئة. ل
البحث العادي ، استخدم "عشوائي" ، والذي يختار عشوائيًا المثيلات لتكون فئة أولية
يعني ويضيف الفروق المناسبة. للاختبار مع البحث القابل للتكرار ، استخدم
"block" ، الذي يقسم قاعدة البيانات إلى كتل متتالية ذات حجم متساوٍ تقريبًا.
للحصول على نتائج قابلة للتكرار ، انظر أيضًا فرض_البحث_الجديد, الحد الأدنى_تقرير_المدةو
العشوائية_عشوائية_ص.
Try_fn_type = "converge_search_3"
أحد {"converge_search_3"، "converge_search_4"، "converge"}. هذه تحدد
معايير إيقاف البحث البديل. "تتلاقى" تختبر فقط معدل التغيير
احتمال تصنيف log_marginal (clsf-> log_a_x_h) ، دون التحقق
معدل التغيير للفئات الفردية (انظر توقف_النطاق عامل التوقف).
يراقب كل من "converge_search_3" و "converge_search_4" النسبة
class-> log_a_w_s_h_j / class-> w_j لجميع الفئات ، واستمر في التقارب حتى الكل
اجتياز معايير quiescence ل n_average دورات. اختبارات "converge_search_3"
الاختلافات بين دورات التقارب المتتالية (انظر rel_delta_range). هذا
يوفر معايير إيقاف معقولة للأغراض العامة. "converge_search_4"
متوسط النسبة على دورات "sigma_beta_n_values" (انظر cs4_delta_range). هذا
يُفضل عندما ينتج converge_search_3 العديد من الفئات المتشابهة.
أول_دراجات_ص = صحيح
إذا كان هذا صحيحًا ، فقم بإجراء base_cycle في initialize_parameters. يستخدم خطأ فقط ل
الاختبار.
save_compact_p = صحيح
صحيح يحفظ التصنيفات كثنائي يعتمد على الآلة (.results-bin & .chkpt-bin).
حفظ خاطئ كنص أسكي (.results & .chkpt)
read_compact_p = صحيح
يقرأ true التصنيفات كثنائي يعتمد على الآلة (.results-bin & .chkpt-bin).
القراءات الخاطئة كنص أسكي (. النتائج و. chkpt).
العشوائية_عشوائية_ص = صحيح
بذور كاذبة lrand48 ، دالة الرقم العشوائي الزائف مع 1 لإعطاء قابلة للتكرار
حالات تجريبية. يستخدم true ساعة التوقيت العالمية كبذرة ، مما يعطي شبه عشوائي
عمليات البحث. للحصول على نتائج قابلة للتكرار ، انظر أيضًا فرض_البحث_الجديد, الحد الأدنى_تقرير_المدة
start_fn_type.
n_data = 0
مع n_data = 0 ، تتم قراءة قاعدة البيانات بأكملها من db2. مع n_data> 0 ، هذا فقط
تتم قراءة عدد البيانات.
توقف_النطاق = 0.5
مرت إلى try_fn_type "تتقارب". مع "التقارب" try_fn_type ، يكون التقارب
توقف عندما أكبر من halt_range و (halt_factor * current_log_marginal)
يتجاوز الفرق بين قيم الدورة المتتالية للتصنيف
log_marginal (clsf-> log_a_x_h). قد يؤدي تقليل هذه القيمة إلى تشديد التقارب
وزيادة عدد الدورات.
عامل التوقف = 0.0001
مرت إلى try_fn_type "تتقارب". مع "التقارب" try_fn_type ، يكون التقارب
توقف عندما أكبر من halt_range و (halt_factor * current_log_marginal)
يتجاوز الفرق بين قيم الدورة المتتالية للتصنيف
log_marginal (clsf-> log_a_x_h). قد يؤدي تقليل هذه القيمة إلى تشديد التقارب
وزيادة عدد الدورات.
rel_delta_range = 0.0025
مرت لتجربة وظيفة "converge_search_3" ، والتي تراقب نسبة السجل تقريبًا-
احتمالية هامشية لإحصائيات الفصل فيما يتعلق بفرضية الفصل
(class-> log_a_w_s_h_j) مقسومة على وزن الفئة (class-> w_j) ، لكل فئة.
يوقف "converge_search_3" التقارب عند الاختلاف بين الدورات ، من هذا
تم تجاوز النسبة لكل فئة بـ "rel_delta_range" لـ "n_average"
دورات. يؤدي تقليل "rel_delta_range" إلى تشديد التقارب وزيادة
عدد الدورات.
cs4_delta_range = 0.0025
مرت لتجربة وظيفة "converge_search_4" ، والتي تراقب نسبة
(class-> log_a_w_s_h_j) / (class-> w_j) ، لكل فئة ، متوسطها أكثر
دورات تقارب "sigma_beta_n_values". "converge_search_4" توقف التقارب
عندما ينخفض الحد الأقصى للاختلاف في متوسط قيم هذه النسبة أدناه
"cs4_delta_range". يؤدي تقليل "cs4_delta_range" إلى تشديد التقارب و
يزيد من عدد الدورات.
n_average = 3
مرت لتجربة الدالتين "converge_search_3" و "converge". عدد الدورات
التي يجب استيفاء معيار التقارب لها حتى تنتهي المحاكمة.
sigma_beta_n_values = 6
مرت إلى try_fn_type "converge_search_4". عدد القيم السابقة التي سيتم استخدامها
حساب سيجما ^ 2 (ضوضاء) وبيتا ^ 2 (إشارة).
ماكس_دراجات = 200
هذا هو الحد الأقصى لعدد الدورات المسموح بها لأي تقارب واحد لـ a
التصنيف ، بغض النظر عن أي معايير إيقاف أخرى. هذا يعتمد بشكل كبير
بناءً على قاعدة البيانات الخاصة بك واختيار النموذج ومعلمات التقارب ، ولكن يجب أن يكون
حوالي ضعف متوسط عدد الدورات المبلغ عنها في ملف تفريغ الشاشة وملف السجل
converge_print_p = خطأ
إذا كان هذا صحيحًا ، فستتم طباعة وظيفة المحاولة المحددة على قيم الشاشة المفيدة في
تحديد قيم غير افتراضية لـ توقف_النطاق, عامل التوقف, rel_delta_range,
n_average, sigma_beta_n_valuesو النطاق_المعامل.
فرض_البحث_الجديد = صحيح
إذا كان هذا صحيحًا ، فسيتم تجاهل أي نتائج بحث سابقة ، مع تجاهل البحث الحالي
و .results [-bin] الملفات بعد تأكيدها من قبل المستخدم ؛ إذا كان خطأ ، سيستمر
البحث باستخدام ملفات .search و .results الحالية [-bin]. للتكرار
النتائج ، انظر أيضًا الحد الأدنى_تقرير_المدة, start_fn_type العشوائية_عشوائية_ص.
نقطة تفتيش_ص = خطأ
إذا كان هذا صحيحًا ، فستتم كتابة نقاط التحقق الخاصة بالتصنيف الحالي كل
"min_checkpoint_period" ثانية ، بامتداد الملف .chkpt [-bin]. هذا فقط
مفيد في التصنيفات الكبيرة جدًا
min_checkpoint_period = 10800
إذا كان checkpoint_p = صحيحًا ، فسيتم كتابة التصنيف المحقق في كثير من الأحيان
- بالثواني (الافتراضي = 3 ساعات)
إعادة التقارب = "
يمكن أن يكون إما "chkpt" أو "results". إذا كان "checkpoint_p" = صحيح و "Recverge_type"
= "chkpt" ، ثم تابع تقارب التصنيف المضمن في
<...>. chkpt [-bin]. إذا كان "checkpoint_p" = خطأ و "Recverge_type" = "نتائج" ،
مواصلة تقارب أفضل تصنيف وارد في <...>. النتائج [-bin].
screen_output_p = صحيح
إذا كان خطأ ، فلن يتم توجيه أي إخراج إلى الشاشة. بافتراض أن log_file_p = صحيح ، خرج
سيتم توجيهه إلى ملف السجل فقط.
break_on_ warnings_p = صحيح
القيمة الافتراضية تطلب من المستخدم ما إذا كان سيستمر أم لا ، عند تعريف البيانات
تم العثور على تحذيرات. إذا تم تحديده على أنه خطأ ، إذن تصنيف تلقائي سوف تستمر ، على الرغم من
التحذيرات - سيستمر إخراج التحذير إلى الجهاز والسجل
ملف.
free_storage_p = صحيح
تخبر القيمة الافتراضية تصنيف تلقائي لتحرير غالبية مساحة التخزين المخصصة لها.
هذا ليس مطلوبًا ، وفي حالة DEC Alpha يتسبب في تفريغ النواة [هل هذا
لا يزال صحيحا؟]. إذا تم تحديده على أنه خطأ ، تصنيف تلقائي لن يحاول تحرير مساحة التخزين.
HOW إلى للحصول على أوتوكلاس C إلى ننتج قابل للتكرار النتائج
في بعض الحالات ، تكون التصنيفات القابلة للتكرار مطلوبة: مقارنة الأساسي تصنيف تلقائي C
النزاهة على منصات مختلفة ، النقل تصنيف تلقائي C إلى منصة جديدة ، وما إلى ذلك
إنجاز هذين الأمرين ضروريان: 1) يجب أن يكون نفس مولد الأرقام العشوائية
مستخدمة ، و 2) يجب تحديد معلمات البحث بشكل صحيح.
عشوائي عدد المولدات. هذا التنفيذ تصنيف تلقائي C يستخدم Unix srand48 / lrand48
مولد الأرقام العشوائي الذي يولد أرقامًا شبه عشوائية باستخدام الخطي المعروف
خوارزمية متطابقة وحساب صحيح 48 بت. تقوم lrand48 () بإرجاع قيمة غير سالبة
الأعداد الصحيحة الطويلة موزعة بشكل موحد على الفاصل الزمني [0 ، 2 ** 31].
معلمات البحث. يجب تحديد معلمات ملف .s-params التالية:
force_new_search_p = صحيح
start_fn_type "block"
Randomize_random_p = خطأ
؛؛ حدد عدد التجارب التي ترغب في إجرائها
max_n_tries = 50
؛؛ حدد وقتًا أكبر من مدة التشغيل
min_report_period = 30000
لاحظ أنه لن يتم إنتاج أي تقارير تصنيف حالية. فقط نهائي
سيتم إخراج ملخص التصنيف.
نقطة تفتيش
مع وجود قواعد بيانات كبيرة جدًا ، هناك احتمال كبير لتعطل النظام أثناء أي
محاولة تصنيف واحد. في ظل هذه الظروف ، من المستحسن أن تأخذ الوقت الكافي لذلك
نقطة تفتيش الحسابات لإعادة تشغيل محتمل.
يتم بدء عملية التحقق من خلال تحديد "نقطة تفتيش_ص = true "في ملف" .s-params.
يؤدي هذا إلى قيام خطوة التقارب الداخلي بحفظ نسخة من التصنيف في ملف
ملف نقاط التفتيش في كل مرة يتم فيها تحديث التصنيف ، مع توفير فترة معينة من
لقد انقضى الوقت. امتداد الملف هو ".chkpt [-bin]".
في كل مرة تكمل فيها "فئة تلقائية" دورة ، يتم "." يتم إخراجها إلى الشاشة لتزويدك بها
المعلومات لاستخدامها في ضبط min_checkpoint_period القيمة (الافتراضي 10800 ثانية
أو 3 ساعات). من الواضح أن هناك مفاضلة بين تكرار نقاط التفتيش و
احتمال تعطل جهازك ، منذ الكتابة المتكررة لنقطة التفتيش
ملف سيبطئ عملية البحث.
إعادة تشغيل بحث AutoClass:
لاستعادة التصنيف ومتابعة البحث بعد إعادة التشغيل وإعادة التحميل
تصنيف تلقائي ، حدد إعادة التقارب = "chkpt" في ملف ".s-params" (حدد
فرض_البحث_الجديد كاذب).
سيعيد AutoClass تحميل قاعدة البيانات والنماذج المناسبة ، بشرط عدم وجود
تغيير في أسماء الملفات الخاصة بهم منذ وقت تحميلهم للحاجز
تشغيل التصنيف. يحتوي ملف ".s-params" على أي وسيطات غير افتراضية كانت
المقدمة إلى المكالمة الأصلية.
في بداية البحث ، من قبل start_j_list تم إفراغه ، سيكون ضروريًا
لقص القائمة الأصلية إلى ما كان سيبقى في البحث المعطل. هذا يمكن أن يكون
يتم تحديده من خلال النظر في ملف ".log" لتحديد القيم التي تم استخدامها بالفعل. لو
هيه start_j_list تم إفراغها ، ثم فارغة start_j_list يجب تحديدها في
ملف ".s-params". يتم ذلك إما عن طريق
start_j_list =
or
start_j_list = -9999
فيما يلي مجموعة من النصوص لإثبات تأشير الفحص:
autoclass -search data / glass / glassc.db2 data / glass / glass-3c.hd2 \
data / glass / glass-mnc.model data / glass / glassc-chkpt.s-params
تشغيل 1)
## glassc-chkpt.s-params
max_n_tries = 2
force_new_search_p = صحيح
## --------------------
؛؛ تشغيل حتى الانتهاء
تشغيل 2)
## glassc-chkpt.s-params
force_new_search_p = خطأ
max_n_tries = 10
checkpoint_p = صحيح
الحد الأدنى_لنقطة_الفحص = 2
## --------------------
؛؛ بعد نقطة تفتيش واحدة ، اضغط على ctrl-C لمحاكاة تعطل وحدة المعالجة المركزية
تشغيل 3)
## glassc-chkpt.s-params
force_new_search_p = خطأ
max_n_tries = 1
checkpoint_p = صحيح
الحد الأدنى_لنقطة_الفحص = 1
Recverge_type = "chkpt"
## --------------------
؛؛ يجب أن تنتهي المحاكمة المحجوزة
OUTPUT FILES
التقارير القياسية هي
1) قيم تأثير السمة: تعرض التأثير النسبي أو أهمية
سمات البيانات عالميًا (بمتوسط جميع الفئات) ومحليًا
(خاصة لكل فصل). الكشف عن مجريات الأمور لقوة الطبقة النسبية هو أيضًا
المدرجة ؛
2) الإسناد الترافقي حسب رقم الحالة (مرجع): يسرد احتمالية الفئة الأساسية لـ
كل مسند مرتبة حسب رقم الحالة. عندما يكون report_mode = "البيانات" ، يكون أقل من ذلك
يتم سرد احتمالات الفئة (أكبر من أو يساوي 0.001) لكل مسند ؛
3) الإسناد الترافقي برقم الصنف: لكل فئة احتمالية صنف ابتدائي و
يتم سرد أي احتمالات أقل للفئة (أكبر من أو تساوي 0.001) لكل منها
مسند في الفصل ، مرتبة حسب رقم الحالة. من الممكن أيضًا سرد لكل منها
datum ، قيم السمات التي تحددها.
يحاول تقرير قيم تأثير السمة تقديم مقاييس نسبية لـ
"تأثير" سمات البيانات على الفئات التي وجدها التصنيف. ال
قوة الطبقة المقيسة ، تؤثر السمة المقيسة على قيم التأثير التي يتم تلخيصها في الكل
الطبقات ، وقيم التأثير الفردي (I [jkl]) كلها مقاييس نسبية و
يجب تفسيره بمعنى أكثر من ترتيب الترتيب ، ولكن ليس مثل أي شيء آخر
تقترب من القيم المطلقة.
يتم إخراج التقارير إلى الملفات التي تم أخذ أسمائها وأسماء المسارات من ".r-params"
اسم الملف. أنواع ملفات التقرير (الامتدادات) هي:
تأثير القيم تقرير
"نص مؤثر-n"أو" تأثير عدم النص-n"
إشارة الصليب by حقيبة
"حالة النص-n"
إشارة الصليب by فئة
"فئة-نص-n"
أو ، إذا تم تجاوز report_mode إلى "البيانات":
تأثير القيم تقرير
"بيانات مؤثرة-n"أو" تأثير عدم وجود بيانات-n"
إشارة الصليب by حقيبة
"بيانات الحالة-n"
إشارة الصليب by فئة
"فئة البيانات-n"
أين n هو رقم التصنيف من ملف "النتائج". الأول أو الأفضل
التصنيف مرقم 1 ، ثاني أفضل 2 ، إلخ. الإعداد الافتراضي هو إنشاء التقارير
فقط لأفضل تصنيف في ملف "النتائج". يمكنك إنتاج تقارير للآخرين
التصنيفات المحفوظة باستخدام كلمات معلمات التقرير n_clsfs clsf_n_list.
"نص مؤثر-nنوع الملف هو الافتراضي (order_attributes_by_influence_p = صحيح) ، و
يسرد سمات كل فئة بترتيب تنازلي لقيمة تأثير السمة. إذا كان
قيمة order_attributes_by_influence_p تم تجاوزه ليكون خطأ في <...>. r-params
ملف ، ثم سيتم سرد سمات كل فئة بترتيب تصاعدي حسب رقم السمة.
سيكون امتداد الملف الذي تم إنشاؤه "تأثير - لا - نص-n". طريقة الإدراج هذه
يسهل المقارنة المرئية لقيم السمات بين الفئات.
على سبيل المثال ، هذا الأمر:
autoclass - نموذج التقارير / الواردات - 85c.results-bin
عينة / واردات 85c.search sample / import-85c.r-params
بهذا السطر في ملف ".r-params":
xref_class_report_att_list = 2، 5، 6
ستنشئ ملفات الإخراج هذه:
الواردات 85.influ-o-text-1
الواردات 85.case- نص -1
يستورد -85-فئة-نص -1
تشير تصنيف تلقائي C توفر التقارير القدرة على حساب قيم محيط فئة سيجما لـ
أزواج محددة من السمات ذات القيمة الحقيقية ، عند إنشاء تقرير قيم التأثير
مع خيار البيانات (report_mode = "data"). لاحظ أن ملامح فئة سيجما ليست كذلك
ولدت من سمات النوع المنفصل.
ملامح سيجما هي المكافئ ثنائي الأبعاد لأشرطة خطأ n-sigma في واحد
البعد. على وجه التحديد ، بالنسبة لسمتين مستقلتين ، يتم تعريف كفاف n-sigma على أنهما
القطع الناقص حيث
((x - xMean) / xSigma) ^ 2 + ((y - yMean) / ySigma) ^ 2 == n
مع السمات المتغيرة ، يتم تعريف ملامح n-sigma بشكل متماثل ، في التدوير
نظام إحداثيات محاور التوزيع الأساسية. وبالتالي تعطي السمات المستقلة
تتجه الخطوط الناقصة بالتوازي مع محاور السمة ، بينما محاور سيجما ملامح
يتم تدوير السمات المتغيرة حول المركز الذي تحدده الوسائل. في كلا الحالتين
يمثل كفاف سيجما خطًا يكون فيه احتمال الفئة ثابتًا ، بغض النظر
من أي احتمالات فئة أخرى.
مع ثلاث سمات أو أكثر ، تصبح ملامح n-sigma بيضاوية البعد k
الأسطح. يستفيد هذا الرمز من حقيقة أن الإسقاط المتوازي لـ n-
بيضاوي الأبعاد ، على أي مستوى 2-خافت ، يحده قطع ناقص. في هذا مبسط
حالة إسقاط القطع الناقص سيجما الفردي على مستويات الإحداثيات ، فهذا صحيح أيضًا
أن التغايرات ثنائية الأبعاد لهذا القطع الناقص تساوي العناصر المقابلة لـ
التغاير n-dim ellipsoid. يعطي نظام Eigen للتغاير 2-dim التباين المشترك ثم
تباينات في المكونات الرئيسية للكسوف ، والدوران الذي يحاذيه
مع البيانات. يمثل هذا أفضل طريقة لعرض التوزيع في الهامش
طائرة.
للحصول على قيم الكنتور ، قم بتعيين الكلمة الأساسية sigma_contours_att_list إلى قائمة القيمة الحقيقية
فهارس السمات (من ملف .hd2) ، واطلب تقرير قيم التأثير بالبيانات
اختيار. على سبيل المثال،
report_mode = "بيانات"
sigma_contours_att_list = 3 ، 4 ، 5 ، 8 ، 15
OUTPUT تقرير المعلمات
يتم التحكم في محتويات تقرير الإخراج بواسطة ملف ".r-params". في هذا الملف ،
يتم التعامل مع سطر فارغ أو سطر يبدأ بأحد هذه الأحرف كتعليق:
"#"، "!"، أو "؛". يمكن فصل اسم المعلمة وقيمتها بعلامة يساوي ، أ
مسافة ، أو علامة تبويب:
ن_clsfs 1
ن_clsfs = 1
n_clsfs 1
يتم تجاهل المسافات إذا كانت "=" أو " يتم استخدام "كفواصل. لاحظ عدم وجود لاحقة
فاصلة منقوطة.
فيما يلي المعلمات المسموح بها وقيمها الافتراضية:
n_clsfs = 1
عدد clsfs في ملف النتائج المراد إنشاء تقارير لها ، بدءًا من
الأول أو "الأفضل".
clsf_n_list =
إذا تم تحديده ، فهذه قائمة فهرس ذات قاعدة واحدة من clsfs في تسلسل clsf المقروء
من ملف النتائج. إنها تلغي "n_clsfs". على سبيل المثال:
clsf_n_list = 1 ، 2
سينتج نفس الناتج مثل
ن_clsfs = 2
لكن
clsf_n_list = 2
سيخرج تقرير التصنيف "ثاني أفضل" فقط.
نوع التقرير =
نوع التقارير المراد إنشاؤها: "all" أو "effect_values" أو "xref_case" أو
"xref_class".
تقرير_الوضع =
طريقة إعداد التقارير. "النص" هو تخطيط نص منسق. "البيانات" عددية
- مناسب لمزيد من المعالجة.
comment_data_headers_p = خطأ
القيمة الافتراضية لا تُدرج # في العمود 1 لمعظم report_mode = "data" header
خطوط. إذا تم تحديده على أنه صحيح ، فسيتم إدراج حرف التعليق في معظم الرأس
خطوط.
عدد_إلى_قائمة =
إذا تم تحديد عدد السمات المراد إدراجها في تقرير قيم التأثير. ان لم
محدد، الكل سيتم سرد السمات. (على سبيل المثال "num_atts_to_list = 5")
xref_class_report_att_list =
إذا تم تحديد قائمة بأرقام السمات (على أساس الصفر) ، والتي سيتم إخراج قيمها
في تقرير "xref_class" جنبًا إلى جنب مع احتمالات الحالة. إذا لم يتم تحديدها ، لا
سيتم إخراج قيم السمات. (على سبيل المثال "xref_class_report_att_list = 1، 2، 3")
order_attributes_by_influence_p = صحيح
تسرد القيمة الافتراضية سمات كل فئة بترتيب تنازلي للسمة
التأثير في القيمة ، ويستخدم ".influ-o-text-n" كملف تقرير قيم التأثير
يكتب. إذا تم تحديدها على أنها خطأ ، فسيتم إدراج سمات كل فئة في
ترتيب تصاعدي حسب رقم السمة. سيكون امتداد الملف الذي تم إنشاؤه
"تأثير لا نص ن".
break_on_ warnings_p = صحيح
القيمة الافتراضية تطلب من المستخدم ما إذا كان سيستمر أم لا عند تعريف البيانات
تم العثور على تحذيرات. إذا تم تحديده على أنه خطأ ، إذن تصنيف تلقائي سوف تستمر ، على الرغم من
التحذيرات - سيستمر إخراج التحذير إلى الجهاز.
free_storage_p = صحيح
تخبر القيمة الافتراضية تصنيف تلقائي لتحرير غالبية مساحة التخزين المخصصة لها.
هذا ليس مطلوبًا ، وفي حالة DEC Alpha يسبب تفريغًا أساسيًا [هل هذا
لا يزال صحيحا؟]. إذا تم تحديده على أنه خطأ ، تصنيف تلقائي لن يحاول تحرير مساحة التخزين.
max_num_xref_class_probs = 5
يحدد عدد احتمالات فئة المؤجر التي ستتم طباعتها للحالة و
تقارير الإسناد الترافقي للفئة. الافتراضي هو طباعة الفئة الأكثر احتمالا
قيمة الاحتمالية وما يصل إلى 4 احتمالات فئة المؤجر. لاحظ أن هذا صحيح بالنسبة لـ
كل من تقارير الإسناد الترافقي لفئة "النص" و "البيانات" ، ولكنها تنطبق فقط على
تقرير الإحالة الترافقية "البيانات". تقرير الإحالة الترافقية "النصية" فقط
لديه احتمالية للفئة الأكثر احتمالا.
sigma_contours_att_list =
إذا تم تحديد ذلك ، فستكون قائمة بمؤشرات السمات القيمة الحقيقية (من ملف .hd2) إلى
حساب قيم كفاف فئة سيجما ، عند إنشاء تقرير قيم التأثير مع
خيار البيانات (report_mode = "data"). إذا لم يتم تحديده ، فلن يكون هناك سيجما
إخراج كفاف الطبقة. (على سبيل المثال "sigma_contours_att_list = 3 ، 4 ، 5 ، 8 ، 15")
ترجمة OF أوتوكلاس النتائج
ما HAVE YOU يملك؟
الآن قمت بتشغيل تصنيف تلقائي في مجموعة البيانات الخاصة بك - ماذا لديك؟ عادةً ما يكون ملف
تصنيف تلقائي يجد إجراء البحث العديد من التصنيفات ، ولكنه يحفظ فقط القليل منها. هؤلاء
متاحة الآن للفحص والتفسير. أهم مؤشر على
المزايا النسبية لهذه التصنيفات البديلة هي سجل الاحتمال اللاحق الكلي
قيمة. لاحظ أنه بما أن الاحتمال يقع بين 1 و 0 ، فإن السجل المقابل
الاحتمالية سالبة وتتراوح من 0 إلى اللانهاية السالبة. الفرق بين
تعطي قيم احتمالية السجل هذه المرفوعة إلى الأس e الاحتمال النسبي لـ
تصنيفات البدائل. لذا فإن الاختلاف ، لنقل 100 ، يعني أن أحد التصنيفات هو
e ^ 100 ~ = 10 ^ 43 أكثر احتمالا من الآخر. ومع ذلك ، يمكن أن تكون هذه الأرقام مضللة للغاية ،
لأنها تعطي الاحتمال النسبي للتصنيفات البديلة تحت
تصنيف تلقائي الافتراضات.
الافتراضات
على وجه التحديد ، الأهم تصنيف تلقائي الافتراضات هي استخدام النماذج العادية ل
المتغيرات الحقيقية ، وافتراض استقلالية السمات داخل الطبقة. منذ
غالبًا ما يتم انتهاك هذه الافتراضات في الممارسة ، والفرق في الاحتمال اللاحق
من التصنيفات البديلة يمكن أن يرجع جزئيًا إلى أن أحد التصنيفات أقرب إلى
إرضاء الافتراضات دون غيرها ، بدلاً من الاختلاف الحقيقي في
جودة التصنيف. مصدر آخر لعدم اليقين بشأن فائدة السجل
قيم الاحتمالية هي أنها لا تأخذ في الاعتبار أي معرفة مسبقة محددة
قد يكون لدى المستخدم حول المجال. هذا يعني أنه غالبًا ما يستحق البحث عن بديل
التصنيفات لمعرفة ما إذا كان يمكنك تفسيرها ، لكن الأمر يستحق البدء من أكثر من غيرها
المحتمل أولا. لاحظ أنه إذا كانت قيمة احتمالية السجل أكبر بكثير من تلك الخاصة بـ
حالة فئة واحدة ، وهي تقول أن هناك أدلة دامغة على بعض هيكل في
البيانات ، وقد تم التقاط جزء من هذا الهيكل بواسطة تصنيف تلقائي تصنيف.
تأثير تقرير
لذا فقد اخترت الآن تصنيفًا تريد فحصه ، بناءً على احتمالية تسجيله
قيمة؛ كيف تفحصه؟ أول شيء يجب القيام به هو إنشاء تقرير "تأثير"
على التصنيف باستخدام مرافق إصدار التقارير الموثقة في
/usr/share/doc/autoclass/reports-c.text. تم تصميم تقرير التأثير لتلخيص
معلومات مهمة مدفونة في تصنيف تلقائي هياكل البيانات.
الجزء الأول من هذا التقرير يعطي الطبقة الاستكشافية "نقاط القوة". الطبقة "القوة" هي
يُعرَّف هنا على أنه احتمال المتوسط الهندسي أن أي مثيل "ينتمي إلى" فئة ،
تم إنشاؤها من نموذج احتمالية الفئة. وبالتالي فإنه يوفر الكشف عن مجريات الأمور
قياس مدى قوة كل فئة تتنبأ بمثيلاتها.
الجزء الثاني عبارة عن قائمة "التأثير" العام لكل سمة مستخدمة فيها
التصنيف. هذه تعطي مقياسًا إرشاديًا تقريبيًا للأهمية النسبية لـ
كل سمة في التصنيف. السمة "قيم التأثير" هي فئة
المتوسط المرجح "لتأثير" كل سمة في الفئات ، مثل
هو موضح أدناه.
الجزء التالي من التقرير هو وصف موجز لكل فئة من الفئات. الاقسام
يتم ترقيمها بشكل تعسفي من 0 إلى n ، بترتيب تنازلي لوزن الفئة. صف
وزن القول 34.1 يعني أن المجموع المرجح لاحتمالات العضوية للفئة هو
34.1. لاحظ أن وزن الفئة 34 لا يعني بالضرورة أن 34 حالة تنتمي
تلك الفئة ، نظرًا لأن العديد من الحالات قد يكون لها عضوية جزئية فقط في تلك الفئة. داخل كل
يتم ترتيب فئة أو سمات أو مجموعات السمات من خلال "تأثير" مصطلح نموذجها.
CROSS غير قادر علي
مقياس شائع الاستخدام للاختلاف بين توزيعين احتماليين هو
إنتروبيا متقاطعة: مجموع كل القيم الممكنة x ، لـ P (x | c ...) * log [P (x | c ...) / P (x | g ...)] ،
حيث c ... و g ... تحديد التوزيعات. إنه يتراوح من صفر إلى متطابقة
التوزيعات اللانهائية للتوزيعات التي تضع الاحتمال 1 على قيم مختلفة لـ
سمة. مع وجود شروط مستقلة مشروطًا في التوزيعات الاحتمالية ، فإن
يمكن تحليل الانتروبيا المتقاطعة إلى مجموع فوق هذه الشروط. توفر هذه العوامل مقياسًا
من تأثير السمة المنمذجة المقابلة في التفريق بين الاثنين
التوزيعات.
نحدد "تأثير" المصطلح النموذجي على فئة ما ليكون مصطلح الانتروبيا المتقاطع لـ
التوزيع الطبقي عن التوزيع الطبقي العالمي للفئة الواحدة
تصنيف. وبالتالي ، فإن "التأثير" هو مقياس لمدى قوة المصطلح النموذجي في المساعدة
التفريق بين الفصل ومجموعة البيانات بأكملها. مع سمات منمذجة بشكل مستقل ،
يمكن أن يُعزى التأثير شرعيًا إلى السمة نفسها. مع مرتبطة أو
مجموعات السمات المتغيرة ، عامل الانتروبيا هو دالة للمجموعة بأكملها ، و
نقوم بتوزيع قيمة التأثير بالتساوي على السمات النموذجية.
ينسب تأثير القيم
في تقرير "التأثير" على كل فئة ، يتم تقديم معلمات السمات لتلك الفئة
من أجل أعلى قيمة تأثير لمجموعات سمات مصطلح النموذج. فقط القلة الأولى
عادة ما يكون لمجموعات السمات قيم تأثير كبيرة. إذا انخفضت قيمة التأثير
أقل من حوالي 20٪ من أعلى قيمة ، فمن المحتمل ألا تكون مهمة ، لكنها كلها
يتم سرد مجموعات السمات لاكتمالها. بالإضافة إلى قيمة التأثير لكل منهما
مجموعة السمات ، يتم إعطاء قيم معلمات مجموعة السمة في تلك الفئة على طول
مع القيم "العالمية" المقابلة. يتم حساب القيم العامة مباشرة من
بيانات مستقلة عن التصنيف. على سبيل المثال ، إذا كانت الفئة تعني السمة
"درجة الحرارة" 90 مع انحراف معياري 2.5 ، لكن المتوسط العالمي هو 68 مع a
الانحراف المعياري 16.3 ، ثم اختارت هذه الفئة الحالات ذات أعلى بكثير من
متوسط درجة الحرارة ، وانتشار صغير نوعا ما في هذا النطاق المرتفع. وبالمثل ، ل
مجموعات السمات المنفصلة ، يتم إعطاء احتمال كل نتيجة في تلك الفئة ، جنبًا إلى جنب
مع الاحتمال العالمي المقابل - مرتبة حسب أهميتها: المطلق
قيمة (سجل { / }). علامة الأهمية
القيمة توضح اتجاه التغيير من الفئة العالمية. هذه المعلومات تعطي ملف
نظرة عامة على كيفية اختلاف كل فئة عن المتوسط لجميع البيانات ، بالترتيب على الأكثر
فروق ذات دلالة إحصائية.
كلاس لأي لبس هيكل الساعة: تقارير
بعد الحصول على وصف للفئات من تقرير "التأثير" ، قد ترغب في ذلك
متابعة لمعرفة الفئات التي انتهى بها الأمر في حالاتك المفضلة. على العكس من ذلك ، قد ترغب في ذلك
لمعرفة الحالات التي تنتمي إلى فئة معينة. لهذا النوع من الإسناد الترافقي
يمكن إنشاء تقريرين مكملين للمعلومات. هذه موثقة بشكل كامل
in /usr/share/doc/autoclass/reports-c.text. تقرير "الفئة" ، يسرد جميع الحالات التي
لديهم عضوية كبيرة في كل فئة والدرجة التي تنتمي إليها كل حالة من هذا القبيل
لتلك الدرجة. الحالات التي تقل عضويتها عن 90٪ في الفصل الحالي
عضويتهم في الفصل الأخرى مدرجة أيضًا. يتم ترتيب القضايا داخل الفصل في
زيادة عدد الحالات. يوضح تقرير "الحالات" البديل أي فئة (أو فئات) أ
حالة تنتمي إلى ، واحتمال العضوية في الفئة الأكثر احتمالا. هذين
تتيح لك التقارير العثور على الحالات التي تنتمي إلى الفئات أو العكس. لو
تقريبًا كل حالة لديها ما يقرب من 99٪ عضوية في فئة واحدة ، فهذا يعني أن
الفصول الدراسية منفصلة جيدًا ، بينما تشير درجة عالية من العضوية المتقاطعة إلى أن
الطبقات متداخلة بشكل كبير. الطبقات شديدة التداخل هي مؤشر على أن الفكرة
من التصنيف تتفكك وتلك المجموعات من الفئات المتداخلة بشكل كبير ،
نوع من فئات التعريف ، ربما يكون طريقة أفضل لفهم البيانات.
مقارنة كلاس WEIGHTS لأي لبس فئة / حالة تقرير تعيينات
وزن الفئة المعطى كمعامل احتمالية للفئة ، هو في الأساس المجموع الكلي
مثيلات البيانات ، للاحتمال الطبيعي أن يكون المثيل عضوًا في الفئة.
ربما يكون من الخطأ من جانبنا تنسيق هذا الرقم كعدد صحيح في
التقرير ، بدلاً من التأكيد على طبيعته الحقيقية. ستجد القيمة الحقيقية الفعلية
تم تسجيله كمعامل w_j في بنية class_DS على أي ملف .results [-bin].
تعطي تقارير الحالة والفئة احتمالات أن تكون الحالات أعضاء في الفصول الدراسية. أي
يتطلب تخصيص الحالات للفئات بعض قواعد القرار. الاحتمال الأقصى
غالبًا ما يتم افتراض قاعدة التخصيص ضمنيًا ، ولكن لا يمكن توقع أن تكون النتيجة
ستساوي أحجام الأقسام أوزان الفصل ما لم تكن جميع أعضاء الفصل تقريبًا
تكون الاحتمالات فعليًا واحدًا أو صفرًا. مع احتمالات عضوية غير 1/0 ،
تتطلب مطابقة أوزان الفئة جمع الاحتمالات.
بالإضافة إلى ذلك ، هناك مسألة اكتمال EM (تعظيم التوقعات)
التقارب. تتناوب EM بين تقدير معلمات الفئة وتقدير الفئة
احتمالات العضوية. تتقارب هذه التقديرات مع بعضها البعض ، لكن ليس في الواقع أبدًا
يجتمع. تصنيف تلقائي تنفذ العديد من خوارزميات التقارب مع التوقف البديل
المعايير باستخدام المعلمات المناسبة في ملف .s-params. الإعداد المناسب لهذه
المعلمات ، للحصول على تقارب كامل وفعال بشكل معقول قد يتطلب
التجريب.
لبديل التصنيفات
باختصار ، تمنحك التقارير المختلفة التي يمكن إنشاؤها طريقة لعرض ملف
التصنيف الحالي. من الجيد عادة النظر إلى التصنيفات البديلة
حتى لو لم يكن لديهم الحد الأدنى من قيم احتمالية السجل. هؤلاء الآخرين
عادةً ما تحتوي التصنيفات على فئات تتوافق بشكل وثيق مع فئات قوية في أخرى
التصنيفات ، ولكن يمكن أن تختلف في الطبقات الضعيفة. "قوة" فئة داخل
يمكن عادة الحكم على التصنيف من خلال مدى تأثير القيمة الأعلى بشكل كبير
الصفات في الفئة تختلف عن السمات العامة المقابلة. إذا لم يكن أي من
تبدو التصنيفات مرضية تمامًا ، فمن الممكن دائمًا تشغيلها تصنيف تلقائي مرة أخرى ل
إنشاء تصنيفات جديدة.
ما التالي؟
أخيرًا ، السؤال عما يجب فعله بعد العثور على تصنيف ثاقب
ينشأ. عادةً ما يكون التصنيف خطوة أولية لتحليل البيانات لفحص المجموعة
من الحالات (أشياء ، أمثلة ، إلخ) لمعرفة ما إذا كان يمكن تجميعها بحيث يمكن لأعضاء
المجموعة "متشابهة" مع بعضها البعض. تصنيف تلقائي يعطي مثل هذا التجمع بدون المستخدم
الاضطرار إلى تحديد مقياس التشابه. مقياس "التشابه" الداخلي هو المقياس المتبادل
التنبؤ بالحالات. الخطوة التالية هي محاولة "شرح" سبب وجود بعض الكائنات
أشبه بالآخرين أكثر من أولئك الموجودين في مجموعة مختلفة. عادة ، تشير معرفة المجال إلى
إجابة. على سبيل المثال ، تصنيف الأشخاص على أساس الدخل ، وعادات الشراء ، والموقع ،
العمر ، وما إلى ذلك ، قد تكشف عن طبقات اجتماعية معينة لم تكن واضحة قبل
تحليل التصنيف. للحصول على مزيد من المعلومات حول هذه الفئات ، أبعد من ذلك
المعلومات ، مثل عدد السيارات والبرامج التلفزيونية التي تتم مشاهدتها وما إلى ذلك ، ستكشف عنها حتى
معلومات اكثر. ستعطي الدراسات الطولية معلومات حول كيفية الطبقات الاجتماعية
تنشأ وما يؤثر في مواقفهم - وكلها تذهب إلى ما هو أبعد من البداية
تصنيف.
PREDICTIONS
يمكن استخدام التصنيفات للتنبؤ بعضوية الفصل للحالات الجديدة. ذلك بالإضافة إلى
ربما يمنحك نظرة ثاقبة للبنية وراء بياناتك ، يمكنك الآن استخدامها
تصنيف تلقائي مباشرة لعمل تنبؤات ، والمقارنة تصنيف تلقائي لأنظمة التعلم الأخرى.
هذه التقنية للتنبؤ باحتمالات الفئة قابلة للتطبيق على جميع السمات ،
بغض النظر عن نوع البيانات / النوع الفرعي أو نوع مصطلح نموذج الاحتمالية.
في حالة عدم تجاوز عضوية فئة حالة البيانات 0.0099999 لأي من
فصول "التدريب" ، ستظهر الرسالة التالية في شاشة الإخراج لكل منها
قضية:
xref_get_data: case_num xxx => فئة 9999
سيظهر أعضاء فئة 9999 في تقارير الإسناد الترافقي لـ "الحالة" و "الفئة" مع أ
عضوية فئة 1.0.
نقاط تحذيرية:
الطريقة المعتادة لاستخدام تصنيف تلقائي هو وضع جميع بياناتك في ملف بيانات ، قم بوصف ذلك
البيانات مع ملفات النموذج والرأس ، وتشغيل "autoclass -search". الآن ، بدلاً من واحد
data_file سيكون لديك ملفان ، ملف training_data_file و test_data_file.
من المهم جدًا أن يكون لكل من قاعدتي البيانات نفس الشيء تصنيف تلقائي التمثيل الداخلي.
ألا يجب أن يكون هذا صحيحًا ، تصنيف تلقائي سوف تخرج ، أو ربما في بعض الحالات ، تحطم.
تم تصميم وضع التنبؤ بحيث نأمل أن يوجه المستخدم إلى التوافق مع هذا
المتطلبات.
طريقة التحضير:
يتطلب التوقع وجود تصنيف تدريبي وقاعدة بيانات اختبار. التدريب
يتم إنشاء التصنيف عن طريق تشغيل "البحث التلقائي عن التصنيف" في التدريب
data_file ("data / soybean / soyc.db2") ، على سبيل المثال:
autoclass - بيانات البحث / فول الصويا / بيانات الصويا. db2 / فول الصويا / فول الصويا. hd2
البيانات / فول الصويا / بيانات نموذج فول الصويا / فول الصويا / فول الصويا المعلمات
سيؤدي ذلك إلى إنتاج "soyc.results-bin" و "soyc.search". ثم قم بإنشاء معلمة "تقارير"
ملف ، مثل "soyc.r-params" (راجع /usr/share/doc/autoclass/reports-c.text)، و اهرب
تصنيف تلقائي في وضع "التقارير" ، مثل:
autoclass - تقارير البيانات / فول الصويا / نتائج الصويا
data / فول الصويا / soyc.search data / فول الصويا / soyc.r-params
سيؤدي ذلك إلى إنشاء ملفات مرجعية تبادلية للفئة والحالة ، وملف قيم التأثير.
تستند أسماء الملفات إلى اسم الملف ".r-params":
البيانات / فول الصويا / فول الصويا فئة النص 1
البيانات / فول الصويا / soyc.case-text-1
البيانات / فول الصويا / soyc.influ-text-1
ستصف هذه الفئات الموجودة في ملف training_data. الآن هذا التصنيف
يمكن استخدامها للتنبؤ بعضوية الفئة الاحتمالية لحالات ملف_بيانات_اختبار
("data / soybean / soyc-Forecast.db2") في فئات ملف training_data_file.
تصنيف تلقائي - تنبؤ البيانات / فول الصويا / فول الصويا- توقع db2
data / soyc.results-bin data / فول الصويا / soyc.search
البيانات / فول الصويا / soyc.r-params
سيؤدي ذلك إلى إنشاء ملفات مرجعية تبادلية للفئة والحالة لحالات ملف_بيانات_اختبار
التنبؤ بعضوية الفصل الاحتمالية في فصول training_data_file. ال
تستند أسماء الملفات إلى اسم الملف ".db2":
البيانات / فول الصويا / فول الصويا التنبؤ. فئة النص 1
البيانات / فول الصويا / فول الصويا التنبؤ.حالة النص 1
استخدم autoclass عبر الإنترنت باستخدام خدمات onworks.net