英语法语西班牙文

OnWorks 网站图标

autoclass - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 autoclass

这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 autoclass,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


autoclass - 自动发现数据中的类

概要


自动分类 -搜索 数据文件 头文件 模型文件 参数文件
自动分类 -报告 结果文件 搜索文件 r_params_文件
自动分类 -预测 结果文件 搜索文件 结果文件

商品描述


自动分类 解决了数据中类的自动发现问题(有时称为
聚类,或无监督学习),不同于类的生成
来自标记示例的描述(称为监督学习)。 它旨在发现
数据中的“自然”类。 自动分类 适用于对事物的观察
由一组属性描述,不涉及其他事物。 数据值
对应于每个属性被限制为数字或元素
固定的符号集。 对于数字数据,必须提供测量误差。

自动分类 正在寻找它可以找到的数据的最佳分类。 一种
分类包括:

1) 一组类,每个类由一组类参数描述,其中
指定类如何沿各种属性分布。 例如,
“高度正态分布,平均值为 4.67 英尺,标准偏差为 32 英尺”,

2) 一组类权重,描述可能出现的案例百分比
每个班级。

3) 将数据中的案例概率分配给这些类。 即对于每个
case,它是每个类的成员的相对概率。

作为严格的贝叶斯系统(不接受替代品!),质量度量 自动分类 使用
是如果你对你的数据或其领域一无所知,你的总概率
会发现由这个底层模型生成的这组数据。 这包括
“世界”会选择这个数量的类的先验概率,这组
相对类权重,以及每个类的这组参数,以及
这样一组类会为属性中的属性生成这组值
数据案例。

这些概率通常非常小,在 e^-30000 的范围内,因此通常是
用指数符号表示。

当运行时 -搜索 命令, 自动分类 搜索分类。 所需
参数是四个输入文件的路径,它们提供数据、数据格式、
所需的分类模型和搜索参数。

默认情况下, 自动分类 将中间结果写入二进制文件。 随着 -报告
命令, 自动分类 生成 ASCII 报告。 参数是完整的路径名
.results、.search 和 .r-params 文件。

当运行时 -预测 命令, 自动分类 预测“测试”的类成员
基于在“训练”数据集中找到的类的数据集(参见下面的“预测”)。

INPUT FILES


AutoClass 数据集驻留在两个文件中。 有一个头文件(文件类型“hd2”)
描述了具体的数据格式和属性定义。 实际数据值为
在数据文件(文件类型“db2”)中。 我们使用两个文件来允许编辑数据描述
无需处理整个数据集。 这使得实验变得容易
数据库的不同描述,而不必复制数据集。
在内部,AutoClass 数据库结构由其头文件和数据文件标识,
以及加载的数据数量。

有关这些文件格式的更多详细信息,请参阅
/usr/share/doc/autoclass/preparation-c.text.

数据 文件
数据文件包含一系列数据对象(数据或案例),以
文件。 每个数据对象的值数量必须等于
头文件中定义的属性。 数据对象必须是由以下符号分隔的令牌组
“新队”。 属性的类型为 REAL、DISCRETE 或 DUMMY。 真正的属性值是
数字,整数或浮点数。 离散属性值可以是字符串,
符号或整数。 虚拟属性值可以是这些类型中的任何一种。 假人已读
in 但否则会被忽略——它们将在内部数据库中设置为零。 因此
实际值将无法用于报告输出。 拥有这些属性
可用的值,使用类型 REAL 或类型 DISCRETE,并将它们的模型类型定义为
.model 文件中的忽略。 任何属性类型的缺失值都可以表示为
“?”或头文件中指定的其他标记。 所有都被翻译成一个特殊的
读取后的唯一值,因此该符号有效地保留用于未知/缺失
值。

例如:
白色 38.991306 0.54248405 2 2 1
红色 25.254923 0.5010235 9 2 1
黄色 32.407973 ? 8 2 1
全白 28.953982 0.5267696 0 1 1

HEADER 文件
头文件指定了数据文件格式,以及数据的定义
属性。 头文件功能规范由两部分组成——数据
设置格式定义规范和属性描述符。 ";" 在第 1 列
标识评论。

头文件遵循以下通用格式:

;; num_db2_format_defs 值(格式定义行数
;; 之后),n 的范围是 1 -> 5
num_db2_format_defs n
;; 需要 number_of_attributes 令牌和值
number_of_attributes
;; 以下是可选的 - 指定了默认值
分隔符 ' '
评论字符';'
unknown_token '?'
分隔符','

;; 属性描述符
;;
;;

每个属性描述符是一行:

属性索引(从零开始,从第 1 列开始)
属性类型。 见下文。
属性子类型。 见下文
属性说明:符号(无嵌入空格)或
细绳; <= 40 个字符
特定的属性和值对。
目前可用的组合:

类型子类型属性类型
---- -------- --------------
虚拟无/无——
离散标称范围
实际位置错误
实标量 zero_point rel_error

ERROR 属性应该代表您对预期的平均误差的最佳估计
该真实属性的测量和记录。 缺乏更好的信息,
误差可取为测量值之间最小可能差异的 1/2。 它可以
争辩说真实值经常被截断,以便可以证明较小的错误是合理的,
特别是对于生成的数据。 但是 AutoClass 只能看到记录的值。 所以
需要记录值的误差,而不是实际测量误差。 环境
这个误差远小于最小可表达差异意味着可能
无法在数据中表达的值。 更糟糕的是,它意味着两个相同的值
必须代表比实际可能更接近的测量值。
这导致分类的过度拟合。

REL_ERROR 属性用于 SCALAR 实数,当误差与
测量值。 不支持 ERROR 属性。

AutoClass 使用误差作为正态分布宽度的下限。 所以
小误差估计往往会给出更窄的峰值并增加
类和分类概率。 广泛的误差估计往往会限制
班级数。

标量 ZERO_POINT 属性是测量过程可以得到的最小值
产生了。 这通常是 0.0,或者在某些误差范围内更小。 类似地,有界
real 的 min 和 max 属性是属性生成过程的唯一边界。
对于计算的百分比,这些将是 0-e 和 100+e,其中 e 是错误值。 这
离散属性的范围是属性可以采用的可能值的数量。
当出现此类值时,此范围必须包括未知作为值。

头文件示例:

!#; AutoClass C 头文件——扩展名 .hd2
!#; 第 1 列中的以下字符使该行成为注释:
!#; '!'、'#'、';'、' ' 和 '\n'(空行)

;#! num_db2_format_defs
num_db2_format_defs 2
;; 必需的
属性数 7
;; 可选 - 指定默认值
;; 分隔符 ' '
;; 评论字符';'
;; unknown_token '?'
分隔符','

;;

0 dummy nil "True class, range = 1 - 3"
1 个真实位置“X 位置,米在 25.0 - 40.0 范围内”错误 25
2 实际位置“Y 位置,米在 0.5 - 0.7 范围内”错误 05
3 实标量“重量,公斤。在 5.0 - 10.0 的范围内” zero_point 0.0
相对错误.001
4 离散标称“真值,范围 = 1 - 2”范围 2
5 离散标称“foobar 的颜色,10 个值”范围 10
6 离散标称 Spectral_color_group 范围 6

型号 文件
数据集的分类是根据指定形式的模型进行的
该数据集中类别的概率分布函数。 通常型号
结构在模型文件(文件类型“模型”)中定义,包含一个或多个模型。
在内部,模型是相对于特定数据库定义的。 因此被识别
通过相应的数据库,模型的模型文件及其在
文件中。

每个模型由一个或多个模型组定义行指定。 每个模型组
line 将属性索引与模型项类型相关联。

这是一个示例模型文件:

# AutoClass C 模型文件——扩展名为 .model
模型索引 0 7
忽略 0
single_normal_cn 3
single_normal_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
single_multinomial 默认

在这里,第一行是注释。 第 1 列中的以下字符使行 a
注释:`!'、`#'、`'、`;'和`\n'(空行)。

令牌“model_index n m" 必须出现在第一个非注释行,并在
模型术语定义行。 n 是从零开始的模型索引,通常为 0
只有一种模式——大多数搜索情况。 m 是模型项的数量
后面的定义行。

最后七行是模型组行。 每个模型组线包括:

模型项类型(其中之一 单多项式, 单正常厘米, single_normal_cn,
多正常_cn忽略).

属性索引列表(属性集列表),或符号 默认. 属性
索引是从零开始的。 单个模型项可能有一个或多个属性索引
每行,而多模型项每行需要两个或多个属性索引。 一个
属性索引不能在模型列表中出现多次。

笔记:

1) 至少需要一个模型定义(model_index token)。

2) 对于任何模型项类型,模型中可能有多个条目。

3) 模型术语类型目前包括:

单多项式
将离散属性建模为多项式,并带有缺失值。

single_normal_cn
将实值属性建模为法线; 没有缺失值。

单正常厘米
对具有缺失值的实值属性进行建模。

多正常_cn
是一个没有缺失值的协变正态模型。

忽略 允许模型忽略一个或多个属性。 忽略 不是有效的
默认模型项类型。

有关特定模型的更多信息,请参阅 models-c.text 中的文档
条款。

4) 单身_normal_cn, 单正常厘米多正常_cn 建模数据,其子类型
is 纯量 (值分布远离 0.0,因此不是“正态”
分布)将被对数转换并用对数正态模型建模。 为了
其子类型为 地址 (值分布在 0.0 左右),没有变换是
完成,并使用正常模型。

正在搜索


AutoClass,在“搜索”模式下调用时会检查数据集的有效性,
头文件、模型文件和搜索参数文件。 错误将停止搜索,并且
警告将询问用户是否继续。 错误和警告的历史记录
默认情况下,消息保存在日志文件中。

一旦你成功地用头文件和模型文件描述了你的数据,
通过 AUTOCLASS -SEARCH <...> 输入检查,您将进入搜索域
哪里 自动分类 对您的数据进行分类。 (最后!)

用于找到数据的良好分类的主要功能是 AUTOCLASS
-SEARCH,使用它会占用大部分计算时间。 搜索是通过以下方式调用的:

autoclass -search <.db2 文件路径> <.hd2 文件路径>
<.model 文件路径> <.s-params 文件路径>

所有文件都必须指定为完全限定的相对或绝对路径名。 文档名称
所有文件的扩展名(文件类型)都被强制为
自动课堂计划:

数据文件(“ascii”)db2
数据文件(“二进制”)db2-bin
头文件hd2
模型文件模型
搜索参数文件 s-params

样品运行(/usr/share/doc/autoclass/示例/) 附带 自动分类 显示一些
示例搜索,浏览这些可能是熟悉如何使用的最快方式
进行搜索。 测试数据集位于 /usr/share/doc/autoclass/示例/
向您展示一些其他头文件 (.hd2)、模型 (.model) 和搜索参数 (.s-params) 文件
设置。 本节的其余部分描述了如何进行更多的搜索
详情。

这款 无所畏惧 面临 下面的标记通常是搜索参数文件参数。 更多
有关 s-params 文件的信息,请参阅 搜索 有无库存 下面,或
/usr/share/doc/autoclass/search-c.text.gz.

什么是 成果 保健
自动分类 正在寻找它可以找到的数据的最佳分类。 一种
分类包括:

1) 一组类,每个类由一组类参数描述,其中
指定类如何沿各种属性分布。 例如,
“高度正态分布,平均值为 4.67 英尺,标准偏差为 32 英尺”,

2) 一组类权重,描述可能出现的案例百分比
每个班级。

3) 将数据中的案例概率分配给这些类。 即对于每个
case,它是每个类的成员的相对概率。

作为严格的贝叶斯系统(不接受替代品!),质量度量 自动分类 使用
是如果你对你的数据或其领域一无所知,你的总概率
会发现由这个底层模型生成的这组数据。 这包括
“世界”会选择这个数量的类的先验概率,这组
相对类权重,以及每个类的这组参数,以及
这样一组类会为属性中的属性生成这组值
数据案例。

这些概率通常非常小,在 e^-30000 的范围内,因此通常是
用指数符号表示。

什么是 成果 意思
重要的是要记住,所有这些概率都是给定的,真实模型
在模范家庭中 自动分类 已经限制了它的注意力。 如果 自动分类 is
寻找高斯类和真正的类是泊松,那么事实是
自动分类 found 5 Gaussian classes 可能不会说太多关于那里有多少泊松类
到底是什么。

发现的不同分类之间的相对概率可能非常大,例如
e^1000,所以找到的最好的分类通常比
其余的(并且远远低于迄今为止任何更好的分类的可能性
未发现)。 如果 自动分类 应该设法找到两个类别
大约 exp(5-10) 彼此(即在 100 到 10,000 倍的可能性内)然后你
应该认为它们的可能性大致相同,因为我们的计算通常不会更多
比这更准确(有时要少得多)。

如何 IT 工作
自动分类 反复创建一个随机分类,然后尝试将其转化为
通过局部变化的高概率分类,直到它收敛到一些“局部
最大值”。然后它会记住它找到的内容并重新开始,直到您
告诉它停止。 每一次努力都被称为“尝试”,计算出的概率是
在这个最大值附近的参数空间中覆盖整个体积,而不仅仅是
峰。

按摩的标准方法是

1) 使用类参数计算案例的概率类成员资格和
隐含的相对可能性。

2) 使用新的类成员,计算类统计数据(如均值)并修改
类参数。

并重复直到它们停止变化。 共有三种可用的收敛算法:
“converge_search_3”(默认值)、“converge_search_4”和“converge”。 他们的
规范由搜索参数文件参数控制 尝试_fn_类型.

WHEN TO STOP
你可以告诉 AUTOCLASS -SEARCH 停止:1) 给出一个 最大持续时间 (以秒为单位)参数
一开始; 2) 给一个 最大次数 (一个整数)参数在开头; 或 3) 通过
输入“q”和在你看过足够多的尝试之后。 这 最大持续时间
最大次数 如果您希望以批处理模式运行 AUTOCLASS -SEARCH,则参数很有用。 如果
您正在从先前的搜索中重新启动 AUTOCLASS -SEARCH,值 最大次数
提供,例如 3,将告诉程序除了计算 3 次尝试之外
不管它已经做了多少。 相同的增量行为表现在
最大持续时间.

决定何时停止是一种判断力,这取决于您。 由于搜索包括
随机组件,如果你让它继续运行,它总是有可能找到
更好的东西。 所以你需要权衡它可能会好多少与多长时间
可能需要找到它。 当一个新的最佳时打印的搜索状态报告
发现分类旨在为您提供信息以帮助您实现此目的
权衡。

您可能应该停止的一个明显迹象是,如果找到的大多数分类都是
以前的重复(在找到时用“dup”标记)。 这应该只发生
用于非常小的数据集或修复非常少的类时,例如两个。

我们的经验是,对于中等大到极大的数据集(~200 到 ~10,000
数据),有必要运行 自动分类 至少进行 50 次试验。

什么是 盖茨 回来
在返回之前,AUTOCLASS -SEARCH 将给出最好的简短描述
发现分类。 可以控制多少将被描述 n_final_summary.

默认情况下 AUTOCLASS -SEARCH 将写出许多文件,在末尾和
在搜索期间定期(以防您的系统在完成之前崩溃)。 这些
文件都将具有相同的名称(取自搜索参数路径名 [ .s-
params]),仅在文件扩展名上有所不同。 如果您的搜索运行时间很长并且
您的机器可能会崩溃,您可以得到中间的“结果”
写出的文件。 这些可用于以最小的损失重新启动您的搜索运行
搜索努力。 查看文档文件 /usr/share/doc/autoclass/checkpoint-c.text.

一个“.log”文件将包含大部分打印在屏幕上的列表。
运行,除非你设置 日志文件_p 假说你不想要这样的愚蠢。 除非
结果文件_p 为 false,二进制“.results-bin”文件(默认)或 ASCII“.results”
文本文件,将保存返回的最佳分类,除非 搜索文件p
为 false,“.search”文件将保存搜索尝试的记录。 保存紧凑_p
控制“结果”文件是保存为二进制还是 ASCII 文本。

如果 C 全局变量“G_safe_file_writing_p”在“autoclass-
c/prog/globals.c”,“结果”文件的名称(包含保存的
分类)在内部进行修改以解决冗余文件写入。 如果
搜索参数文件名是“my_saved_clsfs”你会看到下面的“结果”文件
名称(在此示例中忽略目录和路径名)

保存紧凑_p = 真--
“my_saved_clsfs.results-bin” - 完全写入的文件
“my_saved_clsfs.results-tmp-bin” - 部分写入的文件,重命名
完成时

保存紧凑_p = 假--
“my_saved_clsfs.results” - 完全写入的文件
“my_saved_clsfs.results-tmp” - 部分写入的文件,重命名
完成时

如果正在执行检查点,则会出现这些附加名称

保存紧凑_p = 真--
“my_saved_clsfs.chkpt-bin” - 完全写入的检查点文件
“my_saved_clsfs.chkpt-tmp-bin”——部分写入的检查点文件,
完成后重命名
保存紧凑_p = 假--
“my_saved_clsfs.chkpt” - 完全写入的检查点文件
“my_saved_clsfs.chkpt-tmp”——部分写入的检查点文件,
完成后重命名

如何 TO 的GET 已开始
调用 AUTOCLASS -SEARCH 的方法是:

autoclass -search <.db2 文件路径> <.hd2 文件路径>
<.model 文件路径> <.s-params 文件路径>

要重新开始之前的搜索,请指定 强制新搜索p 中的值为 false
搜索 params 文件,因为它的默认值为 true。 指定 false 告诉 AUTOCLASS -SEARCH
尝试查找以前的兼容搜索 (<...>.results[-bin] & <...>.search) 以
继续,如果找到,将重新开始使用它。 强制执行新搜索而不是
重新启动一个旧的,给参数 强制新搜索p true 的值,或使用
默认。 如果存在现有搜索 (<...>.results[-bin] & <...>.search),则用户
将被要求确认继续,因为继续将放弃现有的搜索。

如果继续之前的搜索,则会显示“重新启动搜索”消息
通常的“开始搜索”。 通常最好继续之前的搜索
而不是开始一个新的,除非你正在尝试一种截然不同的搜索方法,在
上次搜索的统计数据可能会误导当前搜索。

状态 报告
关于搜索的正在运行的评论将打印到屏幕和日志文件中
(除非 日志文件_p 是假的)。 请注意,“.log”文件将包含所有
默认搜索参数值,以及所有被覆盖的参数值。

每次尝试后都会给出一个非常简短的报告(只有几个字符长)。 每次新的后
最好的分类,给出更长的报告,但不超过 最短报告周期
(默认为 30 秒)。

搜索 变化
AUTOCLASS -SEARCH 默认使用某种标准的搜索方法或“尝试功能”
(尝试_fn_类型 =“converge_search_3”)。 另外两个也可用:“converge_search_4”
和“收敛”)。 提供这些信息是为了防止您的问题可能对您有益
从他们。 通常,默认方法将导致在以下位置找到更好的分类
以较长的搜索时间为代价。 选择默认值是为了健壮,给出
甚至在许多问题上的表现。 默认值的替代方案可能在以下方面做得更好
一些问题,但在其他方面可能会变得更糟。

“converge_search_3”使用绝对停止标准(相对增量范围, 默认值
0.0025) 测试对数近似值的每一类增量的变化 -
类统计的边际似然相对于类假设
(class->log_a_w_s_h_j) 除以连续的类权重 (class->w_j)
收敛周期。 增加这个值会放松收敛并减少数量
的周期。 减小该值会收紧收敛并增加
周期。 n_平均值 (默认值为 3)指定必须满足的连续循环数
试验终止前的停止标准。

“converge_search_4”使用绝对停止标准(cs4_delta_range, 默认值
0.0025) 测试每类对数斜率的变化
类统计的近似边际似然
假设(class->log_a_w_s_h_j)除以类权重(class->w_j)超过
sigma_beta_n_值 (默认值 6)收敛周期。 增加价值
cs4_delta_range 放松收敛并减少循环次数。 减少这个
value 收紧收敛并增加循环数。 在计算上,这
try 函数比“converge_search_3”更昂贵,但如果
与计算值的变化相比,计算“噪声”是显着的。
关键计算以双精度浮点数完成,对于最大的数据
到目前为止我们测试的基础(5,420 个属性的 93 个案例),计算噪声没有
一直是个问题,虽然价值 最大周期数 需要增加到400。

“收敛”使用两个绝对停止标准之一来测试
分类 (clsf) log_marginal (clsf->log_a_x_h) 连续收敛之间的增量
循环。 最大的 停止范围 (默认值 0.5)和 停止因子 *
当前_clsf_log_marginal) 被使用(默认值为 停止因子 是 0.0001)。 增加
这些值会放松收敛并减少循环次数。 减少这些
values 收紧收敛并增加循环数。 n_平均值 (默认
3) 的值指定在试验前必须满足停止标准的循环数
终止。 这是一个非常近似的停止标准,但会给你一些感觉
对于期望的分类类型。 这对“探索性”搜索很有用
的一个数据库。

在我们看来, 重新收敛类型 = "chkpt" 是通过中断分类完成
从最后一个检查点继续。 的目的 重新收敛类型 =“结果”是
尝试使用不同的值进一步细化最佳完成的分类
尝试_fn_类型 (“converge_search_3”、“converge_search_4”、“converge”)。 如果 最大次数 is
大于 1,则在每种情况下,在重新收敛完成后, 自动分类
根据 <...>.s-params 文件中的参数值执行进一步的搜索试验。

随着使用 重新收敛类型 (默认值“”),您可以申请多次尝试
功能进行分类。 假设您使用以下方法生成了几个探索性试验
尝试_fn_类型 = "converge",然后退出搜索保存 .search 和 .results[-bin] 文件。
然后你可以开始另一个搜索 尝试_fn_类型 = "converge_search_3", 重新收敛类型
=“结果”,和 最大次数 = 1. 这将导致最好的进一步收敛
生成的分类 尝试_fn_类型 = "收敛", 与 尝试_fn_类型 =
“converge_search_3”。 什么时候 自动分类 完成此搜索尝试,您将拥有一个
附加细化分类。

一个很好的方法来验证任何替代 尝试乐趣类型 正在打井
收敛分类是运行 自动分类 在用于相同数据的预测模式下
生成分类。 然后生成并比较对应的case或class
原始分类和预测的交叉参考文件。 小的
这些文件之间的差异是可以预料的,而较大的差异表明
不完全收敛。 这些文件对之间的差异应该平均和取模
类删除,随着进一步收敛而单调减少。

创建随机分类以开始尝试的标准方法是使用默认值
“随机”的值 开始_fn_类型. 在这一点上,没有其他选择。 指定
“阻止”为 开始_fn_类型 产生可重复的非随机搜索。 就是这样
指定了 autoclass-c/data/.. 子目录中的 <..>.s-params 文件。 这是如何
开发测试完成。

最大周期数 控制将在任何情况下执行的最大收敛周期数
收敛函数的一次试验。 它的默认值是 200。屏幕输出
为每个完成的周期显示一个句点(“.”)。 如果您的搜索试验运行 200 个循环,
那么要么您的数据库非常复杂(增加值),要么 尝试_fn_类型 是不是
适合情况(尝试另一个可用的,并使用 收敛_打印_p 要得到
有关正在发生的事情的更多信息)。

指定 收敛_打印_p 为 true 将为每个周期生成一个简短的打印输出
这将提供信息,以便您可以修改默认值
相对增量范围 & n_平均值 对于“converge_search_3”; cs4_delta_range & sigma_beta_n_值
对于“converge_search_4”; 和 停止范围, 停止因子n_平均值 为“收敛”。 他们的
默认值在 autoclass-c/data/.. 子目录中的 <..>.s-params 文件中给出
目录。

如何 许多 班级?
每次新尝试都从一定数量的类开始,最终可能会减少一些,
因为有些类可能会退出收敛。 一般来说,你要开始尝试
以前的尝试表明有一些课程看起来很有希望,而且你
想确保你在别处钓鱼,以防你之前错过了什么。

n_classes_fn_type = "random_ln_normal" 是进行此选择的默认方式。 它适合一个
对 10 个最好的类的数量(通常简称为“j”)的对数正态分布
到目前为止找到的分类,并从中随机选择。 目前没有
替代品。

游戏开始关,默认是往下走 开始_j_列表 对于最初的几次尝试,以及
然后切换到 n_classes_fn_type. 如果您认为可能的班级数
您的数据库是说 75,然后而不是使用默认值 开始_j_列表 (2、3、
5, 7, 10, 15, 25),指定诸如 50, 60, 70, 80, 90, 100 之类的东西。

如果一个人想总是寻找,比如说,三个类,一个可以使用 固定_j 并覆盖
以上。 搜索状态报告将描述当前选择 j 的方法。

DO I 足够 记忆 AND DISK 空间?
在内部,当前系统中的存储需求为 n_classes_per_clsf
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values)。 这取决于
案例数、属性数、每个属性的值(如果是实数,则使用 2
值),以及存储的分类数量以供比较以查看其他分类是否为
重复——由控制 最大n个商店 (默认值 = 10)。 搜索过程不
本身消耗大量内存,但存储结果可能会这样做。

自动分类 C 配置为最多处理 999 个属性。 如果您尝试运行
不仅如此,您还会遇到数组绑定违规。 在这种情况下,更改这些
prog/autoclass.h 中的配置参数并重新编译 自动分类 C:

#定义所有属性 999
#定义VERY_LONG_STRING_LENGTH 20000
#定义VERY_LONG_TOKEN_LENGTH 500

例如,这些值将处理数千个属性:

#定义所有属性 9999
#定义VERY_LONG_STRING_LENGTH 50000
#定义VERY_LONG_TOKEN_LENGTH 50000

“日志”文件占用的磁盘空间当然取决于搜索的持续时间。
n_保存 (默认值 = 2)确定有多少最佳分类被保存到
“.results[-bin]”文件。 保存紧凑_p 控制“结果”和“检查点”是否
文件保存为二进制文件。 二进制文件更快更紧凑,但不是
便携的。 默认值为 保存紧凑_p 为真,这会导致二进制文件
书面。

如果保存“结果”文件所花费的时间有问题,请考虑增加
最短保存周期 (默认值 = 1800 秒或 30 分钟)。 文件保存到磁盘
如果有任何不同的报告,这经常发生。

只是 如何 车辆慢行 IS 它?
计算时间为 n_data * n_attributes * n_classes * n_tries *
收敛_周期_per_try。 这其中的主要不确定因素是基本回退的数量和
第四次循环直到每次尝试收敛,当然还有尝试次数。 号码
每次试验的周期数通常为 10-100 尝试_fn_类型 “收敛”,10-200+
“converge_search_3”和“converge_search-4”。 最大数量由
最大次数 (默认值 = 200)。 试用次数取决于您和您的可用时间
计算资源。

非常大的数据集的运行时间将是相当不确定的。 我们建议一些
在您的系统上进行小规模测试以确定基线。 指定 n_数据
限制读取的数据向量数量。 鉴于大量的数据, 自动分类 五月
在一百多个类别中找到最可能的分类,这将
要求 开始_j_列表 被适当地指定(见上一节 如何 许多
班级?)。 如果你很确定你只想要几个类,你可以强制
自动分类 使用由指定的固定数量的类进行搜索 固定_j. 然后你会
需要对每个不同的固定数量的类运行单独的搜索。

改变 文件名 IN A 已保存 分类 文件
自动分类 在保存的分类中缓存数据、标题和模型文件路径名
二进制(“.results-bin”)或 ASCII(“.results”)“results”文件的结构。 如果
“结果”和“搜索”文件被移动到不同的目录位置,搜索
如果您使用了绝对路径名,则无法成功重新启动。 因此它是
有利于运行调用 自动分类 在数据、标题和模型的父目录中
文件,以便可以使用相对路径名。 由于缓存的路径名将是
相对,文件可以移动到不同的主机或文件系统并重新启动——
提供相同的相对路径名层次结构存在。

然而,由于“.results”文件是 ASCII 文本,这些路径名可以用
文本编辑器 (保存紧凑_p 必须指定为 false)。

搜索 有无库存
搜索由“.s-params”文件控制。 在这个文件中,一个空行或一行
以这些字符之一开头被视为注释:“#”、“!”或“;”。 这
参数名称及其值可以用等号、空格或制表符分隔:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

如果“=”或“”,空格将被忽略" 用作分隔符。注意没有尾随
分号。

搜索参数及其默认值如下:

相对错误 = 0.01
指定 clsf-DS-%= 使用的相对差异度量,当决定一个
新 clsf 是旧 clsf 的副本。

开始_j_列表 = 2、3、5、7、10、15、25
最初尝试这些数量的类,以免过快缩小搜索范围。
此列表的状态保存在 <..>.search 文件中并在重新启动时使用,
除非覆盖规范 开始_j_列表 是在 .s-params 文件中制作的
重启运行。 此列表应包含您预期的类数,并通过
差距很大! “start_j_list = -999”指定一个空列表(仅允许在
重新启动)

n_classes_fn_type = "random_ln_normal"
一旦 开始_j_列表 筋疲力尽, 自动分类 将调用此函数来决定如何
基于 10 个最佳分类,在下一次尝试时要开始的许多类
到目前为止发现。 目前只有“random_ln_normal”可用。

固定_j = 0
什么时候 固定_j > 0,覆盖 开始_j_列表n_classes_fn_type,自动分类
始终将此值用于初始类数。

最短报告周期 = 30
自上次报告以来至少等待这个时间(以秒为单位),直到详细报告
再次。 检查时应设置得比预期的运行时间长
结果的可重复性。 有关可重复的结果,另请参阅 force_new_search_p,
开始_fn_类型随机化_随机_p. 注意:至少一个“interactive_p”,
“max_duration”和“max_n_tries”必须处于活动状态。 除此以外 自动分类 会跑
无限期地。 见下文。

互动_p =真
当为 false 时,允许运行继续,直到否则停止。 当为真时,标准
输入在每个循环中查询退出字符“q”,当检测到时,
触发立即停止。

最大持续时间 = 0
当 = 0 时,允许运行继续直到否则停止。 当 > 0 时,指定
运行的最大秒数。

最大次数 = 0
当 = 0 时,允许运行继续直到否则停止。 当 > 0 时,指定
尝试的最大次数。

n_保存 = 2
将这么多 clsfs 保存到磁盘的 .results[-bin] 和 .search 文件中。 如果为 0,则不要
保存任何内容(没有 .search 和 .results[-bin] 文件)。

日志文件_p =真
如果为 false,则不写入日志文件。

搜索文件p =真
如果为 false,则不写入搜索文件。

结果文件_p =真
如果为 false,则不写入结果文件。

最短保存周期 = 1800
CPU 崩溃保护。 这指定了最长时间,以秒为单位, 自动分类
将在将当前结果保存到磁盘之前运行。 默认时间为 30
分钟。

最大n个商店 = 10
指定内部存储的最大分类数。

n_final_summary = 10
指定搜索结束后要打印的试验次数。

开始_fn_类型 =“随机”
{"random", "block"} 之一。 这指定了类初始化的类型。 为了
正常搜索,使用“随机”,随机选择实例作为初始类
意味着,并添加适当的差异。 要使用可重复搜索进行测试,请使用
“块”,它将数据库划分为大小几乎相等的连续块。
有关可重复的结果,另请参阅 强制新搜索p, 最短报告周期
随机化_随机_p.

尝试_fn_类型 = "converge_search_3"
{"converge_search_3"、"converge_search_4"、"converge"} 之一。 这些指定
备用搜索停止条件。 “收敛”只是测试变化率
log_marginal 分类概率 (clsf->log_a_x_h),不检查
个别类别的变化率(见 停止范围停止因子).
“converge_search_3”和“converge_search_4”分别监控比率
class->log_a_w_s_h_j/class->w_j 对所有类,继续收敛直到所有
通过静止标准 n_平均值 循环。 “converge_search_3”测试
连续收敛周期之间的差异(见 相对增量范围)。 这
提供了一个合理的、通用的停止标准。 “converge_search_4”
平均“sigma_beta_n_values”周期的比率(见 cs4_delta_range)。 这
当converge_search_3 产生许多相似的类时是首选。

初始周期p =真
如果为 true,则在 initialize_parameters 中执行 base_cycle。 false 仅用于
测试。

保存紧凑_p =真
true 将分类保存为机器相关的二进制文件(.results-bin 和 .chkpt-bin)。
false 保存为 ascii 文本 (.results & .chkpt)

读紧凑_p =真
true 将分类读取为机器相关的二进制文件(.results-bin 和 .chkpt-bin)。
false 读取为 ascii 文本(.results 和 .chkpt)。

随机化_随机_p =真
假种子 lrand48,伪随机数函数用 1 给出可重复
测试用例。 true 使用通用时钟作为种子,给出半随机
搜索。 有关可重复的结果,另请参阅 强制新搜索p, 最短报告周期
开始_fn_类型.

n_数据 = 0
当 n_data = 0 时,从 .db2 读取整个数据库。 当 n_data > 0 时,只有这个
读取的数据数量。

停止范围 = 0.5
传递给 try_fn_type “收敛”。 使用“收敛”try_fn_type,收敛是
当halt_range 和(halt_factor * current_log_marginal) 中的较大者时停止
超过分类的连续循环值之间的差异
log_marginal (clsf->log_a_x_h)。 降低这个值可能会收紧收敛
并增加循环次数。

停止因子 = 0.0001
传递给 try_fn_type “收敛”。 使用“收敛”try_fn_type,收敛是
当halt_range 和(halt_factor * current_log_marginal) 中的较大者时停止
超过分类的连续循环值之间的差异
log_marginal (clsf->log_a_x_h)。 降低这个值可能会收紧收敛
并增加循环次数。

相对增量范围 = 0.0025
传递给 try 函数“converge_search_3”,该函数监视对数近似值的比率
相对于类假设的类统计的边际似然
(class->log_a_w_s_h_j) 除以类权重 (class->w_j),对于每个类。
“converge_search_3”在周期之间的差异时停止收敛,其中
对于每个类别,“n_average”的“rel_delta_range”已超过比率
循环。 减少“rel_delta_range”会收紧收敛并增加
循环次数。

cs4_delta_range = 0.0025
传递给 try 函数“converge_search_4”,该函数监控
(class->log_a_w_s_h_j)/(class->w_j),对于每个类,平均
“sigma_beta_n_values”收敛周期。 “converge_search_4”停止收敛
当该比率平均值的最大差异低于
“cs4_delta_range”。 减少“cs4_delta_range”会收紧收敛并
增加循环次数。

n_平均值 = 3
通过尝试函数“converge_search_3”和“converge”。 循环次数
必须满足收敛标准才能终止试验。

sigma_beta_n_值 = 6
传递给 try_fn_type "conerge_search_4"。 要使用的过去值的数量
计算 sigma^2(噪声)和 beta^2(信号)。

最大周期数 = 200
这是任何一次收敛所允许的最大循环数
分类,不管任何其他停止标准。 这个非常依赖
根据您的数据库以及模型和收敛参数的选择,但应该
大约是屏幕转储和 .log 文件中报告的平均周期数的两倍

收敛_打印_p =错误
如果为 true,则选定的 try 函数将打印到屏幕上有用的值
指定非默认值 停止范围, 停止因子, 相对增量范围,
n_平均值, sigma_beta_n_值范围因子.

强制新搜索p =真
如果为 true,将忽略任何先前的搜索结果,丢弃现有的 .search
和 .results[-bin] 文件,经用户确认; 如果为假,将继续
使用现有的 .search 和 .results[-bin] 文件进行搜索。 对于可重复
结果,另见 最短报告周期, 开始_fn_类型随机化_随机_p.

检查点_p =错误
如果为真,当前分类的检查点将被写入每个
"min_checkpoint_period" 秒,文件扩展名为 .chkpt[-bin]。 这只是
对非常大的分类很有用

最短检查点周期 = 10800
如果 checkpoint_p = true,checkpointed 的分类会经常这样写
- 以秒为单位(默认 = 3 小时)

重新收敛类型 =“
可以是“chkpt”或“结果”。 如果“checkpoint_p”=true 和“reconverge_type”
= "chkpt",然后继续收敛包含的分类
<...>.chkpt[-bin]。 如果“checkpoint_p”=false 并且“reconverge_type”=“results”,
继续收敛 <...>.results[-bin] 中包含的最佳分类。

屏幕输出p =真
如果为 false,则没有输出定向到屏幕。 假设 log_file_p = true,输出
将仅定向到日志文件。

警告时中断_p =真
默认值询问用户是否继续,当数据定义
发现警告。 如果指定为 false,则 自动分类 将继续,尽管
warnings -- 警告会继续输出到终端和日志
文件中。

空闲存储_p =真
默认值告诉 自动分类 释放其分配的大部分存储空间。
这不是必需的,在 DEC Alpha 的情况下会导致核心转储 [是这个
尚真?]。 如果指定为 false, 自动分类 不会尝试释放存储空间。

如何 TO 的GET 汽车类 C TO PRODUCE 可重复 成果
在某些情况下,需要可重复的分类:比较基本的 自动分类 C
不同平台上的完整性,移植 自动分类 C 到新平台等。为了
完成这两件事是必须的:1)必须是同一个随机数生成器
使用,以及 2) 必须正确指定搜索参数。

随机数生成器。 这种实现 自动分类 C 使用 Unix srand48/lrand48
随机数生成器,它使用众所周知的线性生成伪随机数
同余算法和 48 位整数算法。 lrand48() 返回非负数
长整数在区间 [0, 2**31] 上均匀分布。

搜索参数。 应指定以下 .s-params 文件参数:

force_new_search_p = 真
start_fn_type "块"
randomize_random_p = false
;; 指定您希望运行的试验次数
最大尝试次数 = 50
;; 指定一个大于运行持续时间的时间
最短报告周期 = 30000

请注意,不会生成当前的最佳分类报告。 只有决赛
将输出分类摘要。

检查点


对于非常大的数据库,在任何情况下系统崩溃的可能性都很大
一分类试试。 在这种情况下,建议花点时间
检查点计算可能的重新启动。

检查点是通过指定“检查点_p = true”在“.s-params”文件中。
这导致内部收敛步骤,将分类的副本保存到
每次更新分类时检查点文件,提供一定时间的
时间已经过去了。 文件扩展名是“.chkpt[-bin]”。

每次 AutoClass 完成一个循环时,都会出现一个“.”。 输出到屏幕为您提供
用于设置的信息 最短检查点周期 值(默认 10800 秒
或 3 小时)。 很明显,检查点的频率和
您的机器可能崩溃的可能性,因为检查点的重复写入
文件会减慢搜索过程。

重新启动 AutoClass 搜索:

重新启动和重新加载后恢复分类并继续搜索
AutoClass,指定 重新收敛类型 =“.s-params”文件中的“chkpt”(指定
强制新搜索p 为假)。

AutoClass 将重新加载适当的数据库和模型,前提是没有
自从为检查点加载它们以来,它们的文件名发生了变化
分类运行。 “.s-params”文件包含任何非默认参数
提供给原始调用。

在搜索的开始,之前 开始_j_列表 已清空,将需要
将原始列表修剪为崩溃搜索中保留的内容。 这可以
通过查看“.log”文件来确定已经使用了哪些值。 如果
开始_j_列表 已被清空,然后是空的 开始_j_列表 应在
“.s-params”文件。 这是由

开始_j_列表 =

or

开始_j_列表 = -9999

这是一组用于演示检查点的脚本:

自动分类-搜索数据/玻璃/glassc.db2 数据/玻璃/玻璃-3c.hd2 \
数据/glass/glass-mnc.model 数据/glass/glassc-chkpt.s-params

运行 1)
## glassc-chkpt.s-参数
最大尝试次数 = 2
force_new_search_p = 真
## -----
;; 运行到完成

运行 2)
## glassc-chkpt.s-参数
force_new_search_p = 假
最大尝试次数 = 10
checkpoint_p = 真
最短检查点周期 = 2
## -----
;; 1个检查点后,ctrl-C模拟cpu崩溃

运行 3)
## glassc-chkpt.s-参数
force_new_search_p = 假
最大尝试次数 = 1
checkpoint_p = 真
最短检查点周期 = 1
reconverge_type = "chkpt"
## -----
;; 检查点试验应该完成

OUTPUT FILES


标准报告是

1) 属性影响值:表示属性的相对影响或显着性
全局(所有类的平均值)和本地数据的属性
(专门针对每个班级)。 相对类强度的启发式也是
上市;

2) 通过案例(数据)编号的交叉引用:列出了
每个数据,按案例编号排序。 当report_mode = "data" 时,附加较小
为每个数据列出类概率(大于或等于 0.001);

3)按类别编号交叉引用:对于每个类别,主要类别概率和
为每个列出任何较小的类概率(大于或等于 0.001)
类中的数据,按案例编号排序。 也可以列出,对于每个
数据,您选择的属性值。

属性影响值报告试图提供
数据属性对分类找到的类的“影响”。 这
归一化类强度,归一化属性影响值总和
类和个体影响值 (I[jkl]) 都只是相对度量和
应该比排名排序更有意义,但不喜欢任何东西
接近绝对值。

报告输出到名称和路径名取自“.r-params”的文件中
文件路径名。 报告文件类型(扩展名)是:

影响 价值观 报告
“influ-o-text-n”或“流感-无文字-n"

交叉参照 by 案件
“案例-文本-n"

交叉参照 by
“课文-n"

或者,如果 report_mode 被覆盖为“数据”:

影响 价值观 报告
“流感-o-数据-n”或“流感-无数据-n"

交叉参照 by 案件
“案例数据-n"

交叉参照 by
“类-数据-n"

哪里 n 是“结果”文件中的分类号。 第一个或最好的
分类编号为 1,次佳为 2,以此类推。默认为生成报告
仅用于“结果”文件中的最佳分类。 您可以为其他人生成报告
使用报告参数关键字保存分类 n_clsfsclsf_n_列表。 该
“influ-o-text-n" 文件类型是默认的 (order_attributes_by_influence_p = 真),和
按属性影响值的降序列出每个类的属性。 如果
价值 order_attributes_by_influence_p 在 <...>.r-params 中被覆盖为 false
文件,然后每个类的属性将按属性编号升序列出。
生成的文件的扩展名将是“influ-no-text-n”。这种上市方式
便于类之间属性值的可视化比较。

例如,这个命令:

autoclass -reports 样本/imports-85c.results-bin
样本/imports-85c.search 样本/imports-85c.r-params

在“.r-params”文件中使用这一行:

xref_class_report_att_list = 2、5、6

将生成这些输出文件:

import-85.influ-o-text-1
进口-85.case-text-1
进口-85.class-text-1

这款 自动分类 C 报告提供了计算 sigma 类轮廓值的能力
生成影响值报告时指定的实值属性对
使用数据选项(report_mode = "data")。 请注意,sigma 类轮廓不是
从离散类型属性生成。

sigma 轮廓是 n-sigma 误差线的二维等价物
尺寸。 具体来说,对于两个独立的属性,n-sigma 轮廓定义为
椭圆在哪里

((x - xMean) / xSigma)^2 + ((y - yMean) / ySigma)^2 == n

使用协变属性,n-sigma 轮廓的定义相同,在旋转
分布主轴的坐标系。 因此独立的属性给出
椭圆与属性轴平行,而 sigma 轮廓的轴
协变属性围绕由均值确定的中心旋转。 在任一情况下
sigma 轮廓代表一条线,其中类概率是恒定的,与
任何其他类别的概率。

具有三个或更多属性的 n-sigma 轮廓变为 k 维椭圆体
表面。 此代码利用了一个事实,即 n-
维度椭球,在任何二维平面上,以椭圆为界。 在这个简化
将单个 sigma 椭球投影到坐标平面上的情况也是如此
该椭圆的二维协方差等于
n-dim 椭球的协方差。 二维协方差的特征系统然后给出
日食的主要组成部分的差异,以及对齐它的旋转
与数据。 这代表了在边缘显示分布的最佳方式
平面。

要获取轮廓值,请设置关键字 sigma_contours_att_list 到真正有价值的列表
属性索引(来自 .hd2 文件),并使用数据请求影响值报告
选项。 例如,

报告模式=“数据”
sigma_contours_att_list = 3、4、5、8、15

OUTPUT 报告 有无库存
输出报告的内容由“.r-params”文件控制。 在这个文件中,
空行或以这些字符之一开头的行被视为注释:
“#“, “!“, 或者 ”;”。 参数名和它的值可以用等号隔开,a
空格或制表符:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

如果“=”或“”,空格将被忽略" 用作分隔符。注意没有尾随
分号。

以下是允许的参数及其默认值:

n_clsfs = 1
.results 文件中要为其生成报告的 clsfs 的数量,从
第一个或“最好的”。

clsf_n_列表 =
如果指定,这是 clsf 序列中读取的 clsfs 的基于 XNUMX 的索引列表
来自 .results 文件。 它覆盖“n_clsfs”。 例如:

clsf_n_列表 = 1, 2

将产生相同的输出

n_clsfs = 2

但是

clsf_n_列表 = 2

只会输出“次优”分类报告。

报告类型 =
要生成的报告类型:“all”、“influence_values”、“xref_case”或
“外部参照类”。

报告模式 =
要生成的报告模式。 “text”是格式化的文本布局。 “数据”是数字
——适合进一步加工。

评论数据标题p =错误
默认值不会在大多数 report_mode = "data" 标题的第 1 列中插入 #
线。 如果指定为true,则注释字符将插入到大多数标题中
线。

列表中的 num_atts_to_list =
如果指定,则在影响值报告中列出的属性数。 如果不
指定的, 所有 将列出属性。 (例如“num_atts_to_list = 5”)

外部参照类报告_att_list =
如果指定,属性编号列表(从零开始),其值将被输出
在“xref_class”报告以及案例概率中。 如果没有指定,没有
将输出属性值。 (例如“xref_class_report_att_list = 1, 2, 3”)

order_attributes_by_influence_p =真
默认值按属性降序列出每个类的属性
影响值,并使用“.influ-o-text-n”作为影响值报告文件
类型。 如果指定为 false,则每个类的属性将列在
按属性编号升序。 生成的文件的扩展名将是
“influ-no-text-n”。

警告时中断_p =真
默认值在数据定义时询问用户是否继续
发现警告。 如果指定为 false,则 自动分类 将继续,尽管
警告——警告将继续输出到终端。

空闲存储_p =真
默认值告诉 自动分类 释放其分配的大部分存储空间。
这不是必需的,并且在 DEC Alpha 的情况下会导致核心转储 [这是
尚真?]。 如果指定为 false, 自动分类 不会尝试释放存储空间。

max_num_xref_class_probs = 5
确定将为案例打印多少出租人类别概率和
班级交叉参考报告。 默认是打印最可能的类
概率值和最多 4 个出租人类别概率。 注意这是真的
“文本”和“数据”类交叉引用报告,但仅适用于
“数据”案例交叉参考报告。 仅“文本”案例交叉引用报告
具有最可能的类别概率。

sigma_contours_att_list =
如果指定,实值属性索引列表(来自 .hd2 文件)将是
在生成影响值报告时计算 sigma 类轮廓值
数据选项(report_mode = "data")。 如果未指定,则不会有 sigma
类轮廓输出。 (例如“sigma_contours_att_list = 3、4、5、8、15”)

解释 OF 汽车类 成果


什么是 得到了?
现在你已经跑了 自动分类 在你的数据集上——你有什么? 通常情况下,
自动分类 搜索过程会找到很多分类,但只保存少数最好的。 这些
现在可供检查和解释。 最重要的指标
这些替代分类的相对优点是对数总后验概率
价值。 请注意,由于概率介于 1 和 0 之间,因此对应的 Log
概率为负,范围从 0 到负无穷大。 和...之间的不同
这些对数概率值的 e 次幂给出了
替代品分类。 因此,例如 100 的差异意味着一种分类是
e^100 ~= 10^43 比另一个更有可能。 然而,这些数字可能非常具有误导性,
因为它们给出了替代分类的相对概率
自动分类 假设.

的假设
具体来说,最重要的 自动分类 假设是使用正态模型
真实变量,以及类内属性独立的假设。 自从
这些假设在实践中经常被违反,后验概率的差异
替代分类的部分原因可能是一种分类更接近于
满足假设而不是真正的差异
分类质量。 Log 效用的另一个不确定性来源
概率值是他们不考虑任何特定的先验知识
用户可能有关于域。 这意味着通常值得寻找替代方案
分类,看看你是否可以解释它们,但值得从最开始
可能第一。 请注意,如果对数概率值远大于
一个类案件,它说有压倒性的证据 一些 结构在
数据,并且该结构的一部分已被捕获 自动分类 分类。

影响 报告
所以你现在已经选择了一个你想要检查的分类,基于它的对数概率
价值; 你如何检查它? 首先要做的是生成一份“影响力”报告
关于使用报告生成工具的分类
/usr/share/doc/autoclass/reports-c.text. 影响力报告旨在总结
埋藏在其中的重要信息 自动分类 数据结构。

本报告的第一部分给出了启发式类的“优势”。 班级“实力”是
这里定义为任何实例“属于”类的几何平均概率,
将是从类概率模型中生成的。 因此,它提供了一个启发式
衡量每个类预测“它的”实例的强度。

第二部分是列表中使用的每个属性的整体“影响”
分类。 这些给出了一个粗略的启发式测量的相对重要性
分类中的每个属性。 属性“影响值”是一个类
类中每个属性的“影响”的概率加权平均值,如
如下所述。

报告的下一部分是每个类的摘要描述。 班级
从 0 到 n 任意编号,按类别权重降序排列。 一类
说 34.1 的权重意味着类的成员概率的加权和是
34.1. 请注意,类权重为 34 并不一定意味着 34 个案例属于
那个类,因为许多情况可能只有该类的部分成员资格。 在每个
类、属性或属性集按其模型项的“影响”排序。

CROSS
两个概率分布之间散度的常用度量是
交叉熵:P(x|c...)*log[P(x|c...)/P(x|g...)] 的所有可能值 x 的总和,
其中 c... 和 g... 定义分布。 它的范围从零开始,对于相同的
分布,对于将概率 1 置于不同值的分布,到无穷大
一个属性。 对于概率分布中的条件独立项,
交叉熵可以分解为这些项的总和。 这些因素提供了一个衡量标准
相应的建模属性对区分两者的影响
分布。

我们将建模项对类的“影响”定义为
类分布与单个类的全局类分布
分类。 因此,“影响”是衡量模型项帮助的强度
将类与整个数据集区分开来。 具有独立建模的属性,
这种影响可以合理地归因于属性本身。 与相关或
协变属性集,交叉熵因子是整个集的函数,并且
我们将影响值平均分配到建模属性上。

属性 影响 王斌金璟閣的價值觀
在每个类的“影响”报告中,给出了该类的属性参数
按模型项属性集的最高影响值排序。 只有前几个
属性集通常具有显着的影响值。 如果影响值下降
低于最高值的 20% 左右,那么它可能不显着,但所有
列出属性集是为了完整性。 除了每个的影响值
属性集,该类中的属性集参数的值与
具有相应的“全局”值。 全局值直接从
与分类无关的数据。 例如,如果属性的类均值
“温度”为 90,标准差为 2.5,但全局平均值为 68,
标准差为 16.3,则该类选择了远高于
平均温度,在这个高范围内的传播相当小。 同样,对于
离散属性集,给出该类中每个结果的概率,以及
与相应的全局概率 - 按其重要性排序:绝对
(日志{ / })。 意义的标志
value 显示了从全局类变化的方向。 该信息给出了一个
概述每个类别与所有数据的平均值有何不同,按最大顺序排列
显着差异。

CLASS AND CASE 报告
从“影响”报告中获得类的描述后,您可能想要
跟进以查看您最喜欢的案例最终进入了哪些课程。相反,您可能想要
查看哪些案例属于特定类别。 对于这种交叉引用
信息 可以生成两个互补的报告。 这些有更完整的记录
in /usr/share/doc/autoclass/reports-c.text. “班级”报告,列出了所有
在每个类别中都有重要的成员资格以及每个此类案例所属的程度
到那个班级。 班级成员在当前班级中低于 90% 的案例有
他们的其他班级成员也列出。 类中的案例按顺序排列
增加病例数。 另一种“案例”报告说明了哪个(或多个)类
case 属于,以及在最可能的类中的成员概率。 这两个
报告使您可以找到哪些案例属于哪些类,反之亦然。 如果
几乎每个案例都有接近 99% 的成员属于一个类,那么这意味着
类被很好地分开,而高度的交叉成员关系表明
类严重重叠。 高度重叠的类表明这个想法
分类正在崩溃,相互高度重叠的类组,
一种元类,可能是更好的理解数据的方式。

比较 CLASS WEIGHTS AND 班级/案例 报告 作业
作为类概率参数给出的类权重,本质上是所有
数据实例,该实例是该类的成员的归一化概率。
我们将此数字格式化为整数可能是我们的错误
报告,而不是强调其真实性。 你会发现真正的真正价值
在任何 .results[-bin] 文件的 class_DS 结构中记录为 w_j 参数。

.case 和 .class 报告给出了案例是类成员的概率。 任何
将案例分配给类需要一些决策规则。 最大概率
赋值规则通常是隐含假设的,但不能期望结果
除非几乎所有的类成员,否则分区大小将等于类权重
概率实际上是一或零。 对于非 1/0 的成员概率,
匹配类权重需要对概率求和。

此外,还有 EM(期望最大化)的完整性问题
收敛。 EM 在估计类参数和估计类之间交替
成员概率。 这些估计相互收敛,但实际上从未
遇到。 自动分类 实现几种具有交替停止的收敛算法
.s-params 文件中使用适当参数的标准。 正确设置这些
参数,以获得合理完整和有效的收敛可能需要
实验。

备选 分类
总之,可以生成的各种报告为您提供了一种查看
当前分类。 查看替代分类通常是个好主意
即使它们没有最小对数概率值。 这些其他
分类通常具有与其他类别中的强类别密切对应的类别
分类,但可以在弱类中有所不同。 一个班级的“实力”
分类通常可以通过最高影响值的剧烈程度来判断
类中的属性不同于相应的全局属性。 如果没有
分类似乎中规中矩,总能跑起来 自动分类 再到
产生新的分类。

什么是 下一个?
最后,找到有洞察力的分类后要做什么的问题
出现。 通常,分类是检查集合的初步数据分析步骤
案例(事物、例子等),看看它们是否可以分组,以便成员
组彼此“相似”。 自动分类 在没有用户的情况下给出这样的分组
必须定义相似性度量。 内置的“相似性”度量是相互的
案件的可预见性。 下一步是尝试“解释”为什么有些对象是
比不同组的人更像其他人。 通常,领域知识表明
回答。 例如,根据收入、购买习惯、位置、
年龄等,可能会揭示特定的社会阶层,这些社会阶层在
分类分析。 要获取有关此类类的更多信息,请进一步
诸如汽车数量、观看的电视节目等信息,甚至会显示
更多信息。 纵向研究将提供有关社会阶层如何
出现以及是什么影响了他们的态度——所有这些都远远超出了最初的
分类。

预测


分类可用于预测新案例的类别成员资格。 所以除了
可能会让您深入了解数据背后的结构,您现在可以使用
自动分类 直接进行预测和比较 自动分类 到其他学习系统。

这种预测类别概率的技术适用于所有属性,
无论数据类型/sub_type 或似然模型项类型如何。

如果数据案例的类成员不超过 0.0099999
“培训”课程,以下消息将出现在每个课程的屏幕输出中
案件:

外部参照获取数据:case_num xxx => 类 9999

9999 类成员将出现在“案例”和“类”交叉引用报告中,并带有
1.0 的班级成员资格。

注意事项:

通常的使用方式 自动分类 是把你所有的数据放在一个 data_file 中,描述一下
带有模型和头文件的数据,然后运行“autoclass -search”。 现在,而不是一个
data_file 你将有两个,一个 training_data_file 和一个 test_data_file。

最重要的是两个数据库具有相同的 自动分类 内部代表。
如果这不是真的, 自动分类 会退出,或者在某些情况下可能会崩溃。
预测模式旨在引导用户遵守此规则
需求。

做法:

预测需要有一个训练分类和一个测试数据库。 培训
分类是通过在训练中运行“autoclass -search”生成的
data_file ("data/soybean/soyc.db2"),例如:

自动分类 - 搜索数据/soybean/soyc.db2 数据/soybean/soyc.hd2
数据/大豆/soyc.model 数据/大豆/soyc.s-params

这将产生“soyc.results-bin”和“soyc.search”。 然后创建一个“报告”参数
文件,例如“soyc.r-params”(参见 /usr/share/doc/autoclass/reports-c.text),然后运行
自动分类 在“报告”模式下,例如:

自动分类 - 报告数据/大豆/soyc.results-bin
数据/大豆/soyc.search 数据/大豆/soyc.r-params

这将生成类和案例交叉引用文件以及影响值文件。
文件名基于“.r-params”文件名:

数据/大豆/soyc.class-text-1
数据/大豆/soyc.case-text-1
数据/大豆/soyc.influ-text-1

这些将描述在 training_data_file 中找到的类。 现在这个分类
可用于预测 test_data_file 案例的概率类成员
(“data/soybean/soyc-predict.db2”)在 training_data_file 类中。

自动分类-预测数据/大豆/soyc-predict.db2
数据/大豆/soyc.results-bin 数据/大豆/soyc.search
数据/大豆/soyc.r-params

这将为 test_data_file 案例生成类和案例交叉引用文件
预测它们在 training_data_file 类中的概率类成员。 这
文件名基于“.db2”文件名:

数据/大豆/soyc-predict.class-text-1
数据/大豆/soyc-predict.case-text-1

使用 onworks.net 服务在线使用自动分类


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad