이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 명령 자동 클래스입니다.
프로그램:
이름
autoclass - 데이터에서 클래스를 자동으로 검색
개요
자동 클래스 -수색 데이터 파일 헤더_파일 모델_파일 s_param_file
자동 클래스 -보고서 결과_파일 검색_파일 r_params_file
자동 클래스 -예측하다 결과_파일 검색_파일 결과_파일
기술
자동 클래스 데이터에서 클래스의 자동 검색 문제를 해결합니다(때로는
클러스터링 또는 비지도 학습) 클래스 생성과는 별개로
레이블이 지정된 예제의 설명(지도 학습이라고 함). 발견하는 것을 목표로 합니다.
데이터의 "자연" 클래스. 자동 클래스 관찰할 수 있는 것들에 적용할 수 있습니다.
다른 것을 참조하지 않고 일련의 속성으로 설명됩니다. 데이터 값
각 속성에 해당하는 것은 숫자 또는 a의 요소로 제한됩니다.
고정된 기호 집합입니다. 숫자 데이터의 경우 측정 오류를 제공해야 합니다.
자동 클래스 찾을 수 있는 데이터의 최상의 분류를 찾고 있습니다. ㅏ
분류는 다음으로 구성됩니다.
1) 일련의 클래스, 각 클래스는 일련의 클래스 매개변수로 설명됩니다.
클래스가 다양한 속성에 따라 배포되는 방식을 지정합니다. 예를 들어,
"평균 4.67피트 및 표준 편차 32피트로 정규 분포된 높이",
2) 케이스의 몇 퍼센트가 속할 가능성이 있는지 설명하는 일련의 클래스 가중치
각 수업.
3) 이러한 클래스에 데이터의 사례를 확률적으로 할당합니다. 즉 각각
경우, 각 클래스의 구성원일 상대 확률입니다.
엄격한 베이지안 시스템(대체물을 허용하지 않음!)으로서 품질 측정 자동 클래스 사용
데이터 또는 해당 도메인에 대해 전혀 알지 못했다면 다음과 같은 총 확률입니다.
이 기본 모델에 의해 생성된 이 데이터 집합을 찾았을 것입니다. 여기에는
"세계"가 이 수의 클래스, 이 집합을 선택했을 사전 확률
상대적 클래스 가중치, 각 클래스에 대한 이 매개변수 세트,
이러한 클래스 세트는
데이터 사례.
이러한 확률은 일반적으로 e^-30000 범위에서 매우 작으므로 일반적으로 다음과 같습니다.
지수 표기법으로 표현.
로 실행할 때 -수색 명령, 자동 클래스 분류를 검색합니다. 필요한
인수는 데이터, 데이터 형식,
원하는 분류 모델과 검색 매개변수를 각각 지정합니다.
기본적으로, 자동 클래스 바이너리 파일에 중간 결과를 기록합니다. 와 더불어 -보고서
명령, 자동 클래스 ASCII 보고서를 생성합니다. 인수는 다음의 전체 경로 이름입니다.
.results, .search 및 .r-params 파일.
로 실행할 때 -예측하다 명령, 자동 클래스 "테스트"의 클래스 멤버십을 예측합니다.
"학습" 데이터 세트에서 발견된 클래스를 기반으로 하는 데이터 세트(아래 "예측" 참조).
입력 파일
AutoClass 데이터 세트는 두 개의 파일에 있습니다. 헤더 파일(파일 유형 "hd2")이 있습니다.
특정 데이터 형식 및 속성 정의를 설명합니다. 실제 데이터 값은
데이터 파일(파일 유형 "db2")에서. 데이터 설명을 편집할 수 있도록 두 개의 파일을 사용합니다.
전체 데이터 세트를 다룰 필요 없이. 이렇게 하면 쉽게 실험할 수 있습니다.
데이터 세트를 재생성하지 않고도 데이터베이스에 대한 다른 설명.
내부적으로 AutoClass 데이터베이스 구조는 헤더와 데이터 파일로 식별됩니다.
그리고 로드된 데이터의 수.
이러한 파일의 형식에 대한 자세한 내용은 다음을 참조하십시오.
/usr/share/doc/autoclass/preparation-c.text.
데이터 FILE
데이터 파일에는 데이터 객체(데이텀 또는 케이스)의 시퀀스가 포함되어 있습니다.
파일. 각 데이터 개체에 대한 값의 수는
헤더 파일에 정의된 속성. 데이터 개체는 다음으로 구분되는 토큰 그룹이어야 합니다.
"개행". 속성은 REAL, DISCRETE 또는 DUMMY로 유형이 지정됩니다. 실제 속성 값은
숫자, 정수 또는 부동 소수점. 개별 속성 값은 문자열일 수 있습니다.
기호 또는 정수. 더미 속성 값은 이러한 유형 중 하나일 수 있습니다. 더미 읽기
그렇지 않으면 무시됩니다. 내부 데이터베이스에서 XNUMX으로 설정됩니다. 따라서
실제 값은 보고서 출력에 사용할 수 없습니다. 이러한 속성을 가지려면
값을 사용할 수 있는 경우 유형 REAL 또는 유형 DISCRETE를 사용하고 해당 모델 유형을 다음과 같이 정의하십시오.
.model 파일에서 무시하십시오. 모든 속성 유형에 대한 누락된 값은 다음과 같이 나타낼 수 있습니다.
"?" 또는 헤더 파일에 지정된 다른 토큰. 모두 특수문자로 번역됩니다.
읽은 후 고유한 값이므로 이 기호는 알 수 없음/누락을 위해 효과적으로 예약됩니다.
values.
예 :
흰색 38.991306 0.54248405 2 2 1
빨간색 25.254923 0.5010235 9 2 1
노란색 32.407973 ? 8 2 1
올_화이트 28.953982 0.5267696 0 1 1
머리글 FILE
헤더 파일은 데이터 파일 형식과 데이터 정의를 지정합니다.
속성. 헤더 파일 기능 사양은 두 부분으로 구성됩니다.
형식 정의 사양 및 속성 설명자를 설정합니다. ";" 열 1
주석을 식별합니다.
헤더 파일은 다음 일반 형식을 따릅니다.
;; num_db2_format_defs 값(포맷 정의 행 수
;; 다음), n의 범위는 1 -> 5입니다.
num_db2_format_defs n
;; number_of_attributes 토큰 및 값 필요
number_of_attributes
;; 다음은 선택 사항입니다. 기본값이 지정됩니다.
구분자_문자 ' '
comment_char ';'
unknown_token '?'
구분자_문자 ','
;; 속성 설명자
;;
;;
각 속성 설명자는 다음 행입니다.
속성 색인(1부터 시작, 열 XNUMX부터 시작)
속성 유형. 아래를 참조하십시오.
속성 하위 유형. 아래 참조
속성 설명: 기호(포함된 공백 없음) 또는
끈; <= 40자
특정 속성 및 값 쌍.
현재 사용 가능한 조합:
유형 하위 유형 속성 유형
---- -------- ---------------
더미 없음/없음 --
불연속 공칭 범위
실제 위치 오류
실수 스칼라 zero_point rel_error
ERROR 속성은 다음에서 예상되는 평균 오류의 최상의 추정치를 나타내야 합니다.
실제 속성의 측정 및 기록. 더 나은 정보가 부족하여
오류는 측정된 값 사이의 가능한 최소 차이의 1/2로 간주될 수 있습니다. 할 수 있습니다
실제 값은 종종 잘려서 더 작은 오류가 정당화될 수 있다고 주장할 수 있습니다.
특히 생성된 데이터의 경우. 그러나 AutoClass는 기록된 값만 볼 수 있습니다. 그래서
실제 측정 오류가 아닌 기록된 값의 오류가 필요합니다. 환경
표현 가능한 최소 차이보다 훨씬 작은 이 오류는 다음의 가능성을 의미합니다.
데이터로 표현할 수 없는 값. 더 나쁜 것은 두 개의 동일한 값이
실제보다 훨씬 가까운 측정값을 나타내야 합니다.
이는 분류의 과적합으로 이어집니다.
REL_ERROR 속성은 오류가 다음 값에 비례할 때 SCALAR 실수에 사용됩니다.
측정 된 가치. ERROR 속성은 지원되지 않습니다.
AutoClass는 오류를 정규 분포 너비의 하한으로 사용합니다. 그래서
작은 오류 추정치는 더 좁은 피크를 제공하고
클래스 및 분류 확률. 광범위한 오류 추정치는 다음을 제한하는 경향이 있습니다.
수업 수.
스칼라 ZERO_POINT 속성은 측정 프로세스에서 가능한 가장 작은 값입니다.
생산했습니다. 이것은 종종 0.0 또는 일부 오류 범위에 따라 그 이하입니다. 마찬가지로, 경계
real의 최소 및 최대 속성은 속성 생성 프로세스에 대한 배타적 범위입니다.
계산된 백분율의 경우 이들은 0-e 및 100+e이며 여기서 e는 오류 값입니다. 그만큼
불연속 속성의 범위는 속성이 취할 수 있는 가능한 값의 수입니다.
이 범위는 이러한 값이 발생할 때 값으로 unknown을 포함해야 합니다.
헤더 파일 예:
!#; AutoClass C 헤더 파일 -- 확장자 .hd2
!#; 열 1의 다음 문자는 줄을 주석으로 만듭니다.
!#; '!', '#', ';', '' 및 '\n'(빈 줄)
;#! num_db2_format_defs
num_db2_format_defs 2
;; 필수의
number_of_attributes 7
;; 선택 사항 - 기본값이 지정됩니다.
;; 구분자_문자 ' '
;; comment_char ';'
;; unknown_token '?'
구분자_문자 ','
;;
0 dummy nil "트루 클래스, 범위 = 1 - 3"
1 실제 위치 "X 위치, m. 범위 25.0 - 40.0" 오류 .25
2 실제 위치 "Y 위치, m. 범위 0.5 - 0.7" 오류 .05
3 실수 스칼라 "무게, kg. 범위 5.0 - 10.0" zero_point 0.0
rel_error .001
4 개별 공칭 "진실값, 범위 = 1 - 2" 범위 2
5개의 개별 공칭 "푸바 색상, 10개 값" 범위 10
6 개별 공칭 Spectral_color_group 범위 6
모델 FILE
데이터 세트의 분류는 형식을 지정하는 모델과 관련하여 이루어집니다.
해당 데이터 세트의 클래스에 대한 확률 분포 함수. 일반적으로 모델
구조는 하나 이상의 모델을 포함하는 모델 파일(파일 유형 "모델")에서 정의됩니다.
내부적으로 모델은 특정 데이터베이스를 기준으로 정의됩니다. 따라서 식별됩니다
해당 데이터베이스, 모델의 모델 파일 및 순차적 위치
파일.
각 모델은 하나 이상의 모델 그룹 정의 라인으로 지정됩니다. 각 모델 그룹
라인은 속성 인덱스를 모델 용어 유형과 연결합니다.
다음은 예제 모델 파일입니다.
# AutoClass C 모델 파일 -- 확장자 .model
모델_인덱스 0 7
무시 0
Single_normal_cn 3
싱글_노멀_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
single_multinomial 기본값
여기서 첫 줄은 주석입니다. 열 1의 다음 문자는 행을 a로 만듭니다.
주석: `!', `#', ` ', `;' 및 `\n' (빈 줄).
토큰 "model_index n m"는 주석이 아닌 첫 번째 행에 나타나야 하며
모델 용어 정의 라인. n 0 기반 모델 인덱스이며 일반적으로 XNUMX입니다.
단 하나의 모델 - 대부분의 검색 상황. m 는 모델 항의 수입니다.
따라오는 정의 라인.
마지막 XNUMX개 라인은 모델 그룹 라인입니다. 각 모델 그룹 라인은 다음으로 구성됩니다.
모델 용어 유형(다음 중 하나 단일_다항, 싱글_노멀_cm, 싱글_노멀_cn,
multi_normal_cn및 무시).
속성 색인 목록(속성 세트 목록) 또는 기호 디폴트 값. 기인하다
인덱스는 XNUMX부터 시작합니다. 단일 모델 용어는 다음에 대한 하나 이상의 속성 인덱스를 가질 수 있습니다.
다중 모델 용어는 한 줄에 두 개 이상의 속성 인덱스가 필요합니다. 안
속성 색인은 모델 목록에 두 번 이상 나타나지 않아야 합니다.
배송 시 요청 사항:
1) 하나 이상의 모델 정의가 필요합니다(model_index 토큰).
2) 모델 용어 유형에 대해 모델에 여러 항목이 있을 수 있습니다.
3) 모델 용어 유형은 현재 다음으로 구성됩니다.
단일_다항
이산 속성을 누락된 값이 있는 다항식으로 모델링합니다.
싱글_노멀_cn
실제 값 속성을 법선으로 모델링합니다. 누락된 값이 없습니다.
싱글_노멀_cm
누락된 값이 있는 실제 값 속성을 모델링합니다.
multi_normal_cn
누락된 값이 없는 공변 정규 모델입니다.
무시 모델이 하나 이상의 속성을 무시할 수 있습니다. 무시 유효하지 않다
기본 모델 용어 유형.
특정 모델에 대한 자세한 내용은 models-c.text의 문서를 참조하십시오.
자귀.
4) Single_normal_cn, 싱글_노멀_cm및 multi_normal_cn 하위 유형이 있는 모델링된 데이터
is 스칼라 (값 분포는 0.0에서 벗어나 있으므로 "정상"이 아닙니다.
분포)는 로그 변환되고 로그 정규 모델로 모델링됩니다. 을 위한
하위 유형이 다음인 데이터 위치 (값 분포는 약 0.0임) 변환이 없습니다.
완료되고 일반 모델이 사용됩니다.
수색
AutoClass는 "검색" 모드에서 호출될 때 데이터 집합의 유효성을 확인합니다.
헤더, 모델 및 검색 매개변수 파일. 오류는 검색 시작을 중지하고
경고는 사용자에게 계속할지 여부를 묻습니다. 오류 및 경고 기록
메시지는 기본적으로 로그 파일에 저장됩니다.
헤더 파일과 모델 파일로 데이터를 설명하는 데 성공하면
AUTOCLASS -SEARCH <...> 입력 검사를 통과하면 검색 도메인을 입력하게 됩니다.
어디에 자동 클래스 데이터를 분류합니다. (드디어!)
데이터의 좋은 분류를 찾는 데 사용하는 주요 기능은 AUTOCLASS입니다.
-SEARCH, 그리고 그것을 사용하면 대부분의 계산 시간이 걸립니다. 검색은 다음과 같이 호출됩니다.
autoclass -search <.db2 파일 경로> <.hd2 파일 경로>
<.모델 파일 경로> <.s-params 파일 경로>
모든 파일은 완전한 상대 또는 절대 경로 이름으로 지정되어야 합니다. 파일 이름
모든 파일의 확장자(파일 유형)는
자동 클래스 프로그램:
데이터 파일("ascii") db2
데이터 파일("바이너리") db2-bin
헤더 파일 hd2
모델 파일 모델
검색 매개변수 파일 s-params
샘플 실행(/usr/share/doc/autoclass/examples/) 함께 제공 자동 클래스 일부를 보여줍니다
샘플 검색이며 이러한 탐색은 방법에 익숙해지는 가장 빠른 방법일 것입니다.
검색을 할 수 있습니다. 아래에 위치한 테스트 데이터 세트 /usr/share/doc/autoclass/examples/ 의지
다른 헤더(.hd2), 모델(.model) 및 검색 매개변수(.s-params) 파일을 보여주세요.
설정. 이 섹션의 나머지 부분에서는 좀 더 자세히 검색을 수행하는 방법에 대해 설명합니다.
세부 묘사.
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 일시: XNUMX년 XNUMX월 XNUMX일 화요일 XNUMX:XNUMXpm - XNUMX:XNUMXpm 장소: 여의도 페어몬트 앰배서더 서울 호텔 XNUMXF 아잘레아스 룸 [약도] 행사 문의: [email protected] 직면 아래 토큰은 일반적으로 검색 매개변수 파일 매개변수입니다. 이상
s-params 파일에 대한 정보는 다음을 참조하십시오. 검색 선택 매개 변수 아래 또는
/usr/share/doc/autoclass/search-c.text.gz.
WHAT 결과 저희는 부동산
자동 클래스 찾을 수 있는 데이터의 최상의 분류를 찾고 있습니다. ㅏ
분류는 다음으로 구성됩니다.
1) 일련의 클래스, 각 클래스는 일련의 클래스 매개변수에 의해 설명되며,
클래스가 다양한 속성에 따라 배포되는 방식을 지정합니다. 예를 들어,
"평균 4.67피트 및 표준 편차 32피트로 정규 분포된 높이",
2) 케이스의 몇 퍼센트가 속할 가능성이 있는지 설명하는 일련의 클래스 가중치
각 수업.
3) 데이터의 사례를 이러한 클래스에 확률적으로 할당합니다. 즉 각각
경우, 각 클래스의 구성원일 상대 확률입니다.
엄격한 베이지안 시스템(대체물을 허용하지 않음!)으로서 품질 측정 자동 클래스 사용
데이터 또는 해당 도메인에 대해 전혀 알지 못했다면 다음과 같은 총 확률입니다.
이 기본 모델에 의해 생성된 이 데이터 집합을 찾았을 것입니다. 여기에는
"세계"가 이 수의 클래스, 이 집합을 선택했을 사전 확률
상대적 클래스 가중치, 각 클래스에 대한 이 매개변수 세트,
이러한 클래스 세트는
데이터 사례.
이러한 확률은 일반적으로 e^-30000 범위에서 매우 작으므로 일반적으로 다음과 같습니다.
지수 표기법으로 표현.
WHAT 결과 MEAN
이러한 모든 확률은 실제 모델이
모델 패밀리에 있습니다. 자동 클래스 에 대한 관심을 제한했습니다. 만약에 자동 클래스 is
가우시안 클래스를 찾고 실제 클래스는 포아송입니다.
자동 클래스 5개의 가우스 클래스를 찾았는데 거기에 얼마나 많은 푸아송 클래스가 있는지에 대해 많이 말하지 않을 수 있습니다.
정말로 있습니다.
발견된 서로 다른 분류 사이의 상대적 확률은 다음과 같이 매우 클 수 있습니다.
e^1000이므로 발견된 최상의 분류는 일반적으로 다음보다 압도적으로 확률이 높습니다.
나머지는 (그리고 아직 더 나은 분류보다 압도적으로 덜 가능성이 있습니다.
발견되지 않은). 만약에 자동 클래스 내에 있는 두 개의 분류를 찾아야 합니다.
서로의 약 exp(5-10)(즉, 100배에서 10,000배 더 가능성 있는) 다음
우리의 계산은 일반적으로 더 이상 되지 않기 때문에 그것들이 거의 동등하게 가능성이 있다고 생각해야 합니다.
이보다 정확합니다(때로는 훨씬 적음).
주문 제작 IT WORKS
자동 클래스 반복적으로 무작위 분류를 생성한 다음 이를
일부 "로컬"로 수렴될 때까지 로컬 변경을 통해 높은 확률로 분류
그런 다음 찾은 내용을 기억하고 다시 시작하여 사용자가 찾을 때까지 계속합니다.
그만하라고 말해. 각 노력을 "시도"라고 하며 계산된 확률은
이 최대값 주변의 매개변수 공간에서 전체 볼륨을 커버합니다.
피크.
마사지에 대한 표준 접근 방식은 다음과 같습니다.
1) 클래스 매개변수를 사용하여 사례의 확률적 클래스 구성원을 계산하고
묵시적 상대적 우도.
2) 새로운 클래스 구성원을 사용하여 클래스 통계(평균과 같은)를 계산하고
클래스 매개변수.
그리고 변화가 멈출 때까지 반복합니다. 다음 세 가지 수렴 알고리즘을 사용할 수 있습니다.
"converge_search_3"(기본값), "converge_search_4" 및 "converge". 그들의
사양은 검색 매개변수 파일 매개변수에 의해 제어됩니다. try_fn_type.
WHEN ~까지 STOP
AUTOCLASS -SEARCH에 중지하도록 지시할 수 있습니다. 최대 기간 (초 단위) 인수
처음에; 2) 주는 max_n_tries (정수) 처음에 인수; 또는 3)
"q"를 입력하고 충분한 시도를 본 후. 그만큼 최대 기간 and
max_n_tries 인수는 배치 모드에서 AUTOCLASS -SEARCH를 실행하려는 경우에 유용합니다. 만약에
이전 검색에서 AUTOCLASS -SEARCH를 다시 시작하고 있습니다. max_n_tries 의견을 듣고 싶습니다.
예를 들어 3을 제공하면 프로그램에 추가로 3번 더 시도하도록 지시합니다.
그러나 이미 많은 일을 했습니다. 동일한 증분 동작이 다음에 의해 나타납니다.
최대 기간.
중지할 시기를 결정하는 것은 판단이며 귀하에게 달려 있습니다. 검색에는
임의의 구성 요소를 계속 사용하면 찾을 가능성이 항상 있습니다.
더 나은 뭔가. 따라서 얼마나 오래 사용할 수 있는지에 따라
그것을 찾는 데 걸릴 수 있습니다. 새로운 최고가 나올 때 인쇄되는 검색 상태 보고서
분류를 찾을 수 있도록 도와주는 정보를 제공하기 위한 것입니다.
거래.
중지해야 할 분명한 징후 중 하나는 발견된 대부분의 분류가 다음과 같은 경우입니다.
이전 항목의 중복 항목(발견 시 "dup" 플래그 지정). 이런 일이 일어나야만
매우 작은 데이터 세트 또는 XNUMX개와 같은 매우 적은 수의 클래스를 수정하는 경우.
우리의 경험에 따르면 적당히 큰 데이터 세트에서 매우 큰 데이터 세트(~200~~10,000
데이텀) 실행해야 합니다. 자동 클래스 최소 50번의 시도 동안.
WHAT 가져오기 반환
돌아오기 직전에 AUTOCLASS -SEARCH는 최고의 제품에 대한 간략한 설명을 제공합니다.
분류가 발견되었습니다. 설명할 수 있는 수는 다음과 같이 제어할 수 있습니다. n_최종_요약.
기본적으로 AUTOCLASS -SEARCH는 끝에 여러 파일을 작성합니다.
검색 중에 주기적으로(시스템이 완료되기 전에 충돌하는 경우). 이것들
파일은 모두 동일한 이름을 갖습니다(검색 매개변수 경로 이름 [ .에스-
params]) 파일 확장자만 다릅니다. 검색 실행이 매우 길고
기계가 충돌할 가능성이 있으며 중간 "결과"가 있을 수 있습니다.
작성된 파일. 최소 손실로 검색 실행을 다시 시작하는 데 사용할 수 있습니다.
수색 노력. 설명서 파일 참조 /usr/share/doc/autoclass/checkpoint-c.text.
".log" 파일은 작업 중에 화면에 인쇄된 대부분의 목록을 포함합니다.
설정하지 않는 한 실행 log_file_p 당신이 그런 어리석음을 원하지 않는다고 말하는 것은 거짓입니다. 하지 않는 한
결과_파일_p false, 이진 ".results-bin" 파일(기본값) 또는 ASCII ".results"
텍스트 파일은 반환된 최상의 분류를 보유하며, search_file_p
false인 경우 ".search" 파일에 검색 시도 기록이 저장됩니다. save_compact_p
"결과" 파일이 바이너리 또는 ASCII 텍스트로 저장되는지 여부를 제어합니다.
C 전역 변수 "G_safe_file_writing_p"가 "autoclass-
c/prog/globals.c", "results" 파일의 이름(저장된
분류)는 중복 파일 쓰기를 설명하기 위해 내부적으로 수정됩니다. 만약
검색 매개변수 파일 이름은 "my_saved_clsfs"입니다. 다음 "결과" 파일이 표시됩니다.
이름(이 예에서는 디렉토리 및 경로 이름 무시)
save_compact_p = 참 --
"my_saved_clsfs.results-bin" - 완전히 작성된 파일
"my_saved_clsfs.results-tmp-bin" - 부분적으로 작성된 파일, 이름이 변경됨
완료되면
save_compact_p = 거짓 --
"my_saved_clsfs.results" - 완전히 작성된 파일
"my_saved_clsfs.results-tmp" - 부분적으로 작성된 파일, 이름 변경
완료되면
체크 포인팅이 완료되면 이러한 추가 이름이 나타납니다.
save_compact_p = 참 --
"my_saved_clsfs.chkpt-bin" - 완전히 작성된 체크포인트 파일
"my_saved_clsfs.chkpt-tmp-bin" - 부분적으로 작성된 체크포인트 파일,
완료되면 이름이 변경됨
save_compact_p = 거짓 --
"my_saved_clsfs.chkpt" - 완전히 작성된 체크포인트 파일
"my_saved_clsfs.chkpt-tmp" - 부분적으로 작성된 체크포인트 파일,
완료되면 이름이 변경됨
주문 제작 ~까지 바로 시작하십시오
AUTOCLASS -SEARCH를 호출하는 방법은 다음과 같습니다.
autoclass -search <.db2 파일 경로> <.hd2 파일 경로>
<.모델 파일 경로> <.s-params 파일 경로>
이전 검색을 다시 시작하려면 다음을 지정하십시오. force_new_search_p 에서 false 값을 가집니다.
기본값이 true이므로 매개변수 파일을 검색합니다. false를 지정하면 AUTOCLASS -SEARCH에 알립니다.
이전 호환 검색(<...>.results[-bin] & <...>.search)을 찾으려면
에서 계속하고 찾으면 사용을 다시 시작합니다. 대신 새 검색을 강제하려면
이전 것을 다시 시작하려면 매개 변수를 지정하십시오. force_new_search_p true 값을 사용하거나
기본. 기존 검색(<...>.results[-bin] & <...>.search)이 있는 경우 사용자는
계속하면 기존 검색이 삭제되므로 계속할 것인지 확인하라는 메시지가 표시됩니다.
이전 검색이 계속되면 "RESTARTING SEARCH" 메시지가 대신 표시됩니다.
일반적인 "BEGINNING SEARCH"의. 일반적으로 이전 검색을 계속하는 것이 좋습니다.
상당히 다른 검색 방법을 시도하지 않는 한 새 검색을 시작하는 것보다
어떤 경우 이전 검색의 통계가 현재 검색을 오도할 수 있습니다.
지위 보고서
검색에 대한 실행 설명이 화면과 로그 파일에 인쇄됩니다.
( log_file_p 거짓입니다). ".log" 파일에는 모든 목록이 포함됩니다.
기본 검색 매개변수 값 및 재정의된 모든 매개변수의 값.
각 시도 후 매우 짧은 보고서(단지 몇 자 길이)가 제공됩니다. 각각의 새로운 후
최상의 분류, 더 긴 보고서가 제공되지만 min_report_기간
(기본값은 30초입니다).
검색 선택 변이
AUTOCLASS -SEARCH는 기본적으로 특정 표준 검색 방법 또는 "시도 기능"을 사용합니다.
(try_fn_type = "converge_search_3"). 다른 두 가지도 사용할 수 있습니다: "converge_search_4"
및 "수렴"). 귀하의 문제가 이익을 얻을 수 있는 경우에 제공됩니다.
그들로부터. 일반적으로 기본 방법은 다음 위치에서 더 나은 분류를 찾습니다.
더 긴 검색 시간의 비용. 견고하도록 기본값이 선택되었습니다.
많은 문제에서 균일한 성능. 기본값에 대한 대안은
일부 문제는 있지만 다른 문제에서는 상당히 악화될 수 있습니다.
"converge_search_3"은 절대 중지 기준(rel_delta_range, 기본값
0.0025) 로그 근사 델타의 각 클래스의 변동을 테스트합니다.
클래스 가설에 대한 클래스 통계의 한계 가능성
(class->log_a_w_s_h_j)를 연속적인 클래스 가중치(class->w_j)로 나눈 값
수렴주기. 이 값을 늘리면 수렴이 느슨해지고 숫자가 줄어듭니다.
사이클의. 이 값을 줄이면 수렴이 강화되고
사이클. n_평균 (기본값 3)은 다음을 충족해야 하는 연속 사이클 수를 지정합니다.
재판이 종료되기 전에 중지 기준.
"converge_search_4"은 절대 중지 기준(cs4_delta_range, 기본값
0.0025) 로그의 각 클래스에 대한 기울기의 각 클래스의 변화를 테스트합니다.
클래스에 대한 클래스 통계의 대략적인 한계 가능성
가설(class->log_a_w_s_h_j)을 클래스 가중치(class->w_j)로 나눈 값
sigma_beta_n_values (기본값 6) 수렴 주기. 가치 증가
cs4_delta_range 수렴을 완화하고 사이클 수를 줄입니다. 이 감소
값은 수렴을 강화하고 주기 수를 증가시킵니다. 계산적으로 이것은
try 함수는 "converge_search_3"보다 비용이 많이 들지만 다음과 같은 경우 유용할 수 있습니다.
계산 "노이즈"는 계산된 값의 변동에 비해 중요합니다.
주요 계산은 배정도 부동 소수점에서 수행되며 가장 큰 데이터에 대해
지금까지 테스트한 기반(5,420개 속성의 93개 사례), 계산 노이즈는
문제가 되었지만, 최대 주기 400으로 늘려야 합니다.
"converge"는 두 가지 절대 중지 기준 중 하나를 사용합니다.
분류(clsf) log_marginal(clsf->log_a_x_h) 연속 수렴 간의 델타
주기. 가장 큰 정지 범위 (기본값 0.5) 및 정지 인자 *
current_clsf_log_marginal)가 사용됩니다(기본값: 정지 인자 0.0001입니다). 증가
이러한 값은 수렴을 완화하고 주기 수를 줄입니다. 이것들을 줄이는
값은 수렴을 강화하고 주기 수를 증가시킵니다. n_평균 (기본
값 3)은 시도 전에 중단 기준을 충족해야 하는 주기 수를 지정합니다.
종료합니다. 이것은 매우 근사한 중지 기준이지만 약간의 느낌을 줄 것입니다.
예상되는 종류의 분류를 위해. "탐색" 검색에 유용합니다.
데이터베이스의.
의 목적 reconverge_type = "chkpt"는 다음에 의해 중단된 분류를 완료하는 것입니다.
마지막 체크포인트에서 계속됩니다. 목적 reconverge_type = "결과"는
의 다른 값을 사용하여 가장 잘 완료된 분류의 추가 세분화를 시도합니다.
try_fn_type ("converge_search_3", "converge_search_4", "수렴"). 만약에 max_n_tries is
1보다 큰 경우 각 경우에 재수렴이 완료된 후 자동 클래스 의지
<...>.s-params 파일의 매개변수 값을 기반으로 추가 검색 시도를 수행합니다.
의 사용으로 reconverge_type (기본값 ""), 한 번 이상 시도할 수 있습니다.
기능을 분류합니다. 다음을 사용하여 여러 탐색적 시도를 생성한다고 가정합니다.
try_fn_type = "converge", 검색을 종료하고 .search 및 .results[-bin] 파일을 저장합니다.
그런 다음 다른 검색을 시작할 수 있습니다. try_fn_type = "converge_search_3", reconverge_type
= "결과" 및 max_n_tries = 1. 이것은 최고 수준의 추가 수렴을 초래할 것입니다.
로 생성된 분류 try_fn_type = "수렴", 와 try_fn_type =
"converge_search_3". 언제 자동 클래스 이 검색 시도를 완료하면
추가 정제 분류.
대체 항목이 있는지 확인하는 좋은 방법 try_fun_type 우물을 만들고 있다
수렴된 분류가 실행됩니다. 자동 클래스 에 사용된 동일한 데이터에 대한 예측 모드에서
분류를 생성합니다. 그런 다음 해당 케이스 또는 클래스를 생성하고 비교합니다.
원래 분류 및 예측에 대한 교차 참조 파일. 작은
이러한 파일 간의 차이는 예상되지만 큰 차이는 다음을 나타냅니다.
불완전한 수렴. 이러한 파일 쌍 간의 차이점은 평균적으로 모듈로
클래스 삭제, 추가 수렴에 따라 단조롭게 감소합니다.
시도를 시작하기 위해 무작위 분류를 생성하는 표준 방법은 기본값을 사용하는 것입니다.
에 대한 "무작위" 값 시작_fn_유형. 이 시점에서 대안이 없습니다. 지정
에 대한 "차단" 시작_fn_유형 반복 가능한 비무작위 검색을 생성합니다. 그것이 어떻게
<..> autoclass-c/data/.. 하위 디렉토리의 .s-params 파일이 지정됩니다. 이것이 방법입니다
개발 테스트가 완료되었습니다.
최대 주기 모든 모드에서 수행될 수렴 주기의 최대 수를 제어합니다.
수렴 기능에 의한 하나의 시도. 기본값은 200입니다. 화면 출력
완료된 각 주기에 대해 마침표(".")를 표시합니다. 검색 시도가 200주기 동안 실행되는 경우
데이터베이스가 매우 복잡하거나(값을 높임) try_fn_type 하지 않습니다
상황에 적합(사용 가능한 다른 것을 시도하고 수렴_인쇄_p 도착
무슨 일이 일어나고 있는지에 대한 자세한 정보).
지정 수렴_인쇄_p 참이면 각 주기에 대한 간략한 출력물을 생성합니다.
기본값을 수정할 수 있도록 정보를 제공합니다.
rel_delta_range & n_평균 "converge_search_3"에 대해; cs4_delta_range & sigma_beta_n_values
"converge_search_4"에 대해; 그리고 정지 범위, 정지 인자및 n_평균 "수렴"을 위해. 그들의
기본값은 autoclass-c/data/.. 하위의 <..>.s-params 파일에 제공됩니다.
디렉토리.
주문 제작 많은 클래스?
각각의 새로운 시도는 특정 수의 클래스로 시작하여 더 적은 수로 끝날 수 있습니다.
일부 클래스가 수렴에서 벗어날 수 있기 때문입니다. 일반적으로 시도를 시작하고 싶습니다.
이전 시도에서 유망해 보이는 몇 가지 수업이 있으며,
이전에 무언가를 놓친 경우를 대비하여 다른 곳에서 낚시하고 있는지 확인하고 싶습니다.
n_classes_fn_type = "random_ln_normal"이 이 선택을 수행하는 기본 방법입니다. 그것은 맞는
최고 10개의 클래스(일반적으로 줄여서 "j"라고 함) 수에 정규 로그
지금까지 찾은 분류 중에서 무작위로 선택합니다. 현재 없음
대안.
게임을 시작하려면 기본값은 아래로 내려가는 것입니다. 시작_j_목록 처음 몇 번의 시도 동안
다음으로 전환 n_classes_fn_type. 가능한 클래스 수가 있다고 생각하는 경우
데이터베이스가 75라고 하면 기본값인 시작_j_목록 (2, 3,
5, 7, 10, 15, 25), 50, 60, 70, 80, 90, 100과 같이 지정합니다.
예를 들어 항상 세 개의 클래스를 찾고 싶다면 다음을 사용할 수 있습니다. 고정_j 그리고 재정의
위에. 검색 상태 보고서는 j를 선택하는 현재 방법이 무엇인지 설명합니다.
DO I 있다 충분히 메모리 및 디스크 공간?
내부적으로 현재 시스템의 스토리지 요구 사항은 n_classes_per_clsf 순서입니다.
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values). 이것은 다음에 달려 있습니다.
경우 수, 속성 수, 속성당 값(실수인 경우 2 사용)
값) 및 다른 항목이 있는지 확인하기 위해 비교를 위해 저장된 분류 수
중복 -- 제어 max_n_store (기본값 = 10). 검색 프로세스는
자체적으로 상당한 메모리를 소비하지만 결과 저장은 그렇게 할 수 있습니다.
자동 클래스 C 최대 999개의 속성을 처리하도록 구성됩니다. 실행을 시도하면
그 이상을 사용하면 배열 바인딩 위반이 발생합니다. 그런 경우에는 다음을 변경하십시오.
prog/autoclass.h의 구성 매개변수 및 재컴파일 자동 클래스 C:
#define ALL_ATTRIBUTES 999
#define VERY_LONG_STRING_LENGTH 20000
#define VERY_LONG_TOKEN_LENGTH 500
예를 들어 다음 값은 수천 개의 속성을 처리합니다.
#define ALL_ATTRIBUTES 9999
#define VERY_LONG_STRING_LENGTH 50000
#define VERY_LONG_TOKEN_LENGTH 50000
"로그" 파일이 차지하는 디스크 공간은 물론 검색 기간에 따라 달라집니다.
n_save (기본값 = 2) 얼마나 많은 최상의 분류가
".results[-bin]" 파일. save_compact_p "결과" 및 "체크포인트" 여부를 제어합니다.
파일은 바이너리로 저장됩니다. 바이너리 파일은 더 빠르고 더 컴팩트하지만 그렇지 않습니다.
가지고 다닐 수 있는. 기본값 save_compact_p 가 true이면 이진 파일이
쓴.
"결과" 파일을 저장하는 데 걸리는 시간이 문제라면 시간을 늘리는 것을 고려하십시오.
min_save_기간 (기본값 = 1800초 또는 30분). 파일이 디스크에 저장됨
보고할 내용이 다른 경우 자주 사용합니다.
JUST 주문 제작 느린 IS 그것?
컴퓨팅 시간은 n_data * n_attributes * n_classes * n_tries * 순서입니다.
수렴_주기_당_시도. 이것의 주요 불확실성은 기본 백의 수와
네 번째 주기는 각 시도에서 수렴될 때까지, 물론 시도 횟수입니다. 수
시험당 사이클 수는 일반적으로 10-100입니다. try_fn_type "수렴" 및 10-200+
"converge_search_3" 및 "converge_search-4". 최대 수는 다음과 같이 지정됩니다.
max_n_tries (기본값 = 200). 시험 횟수는 귀하와 사용 가능한 귀하에게 달려 있습니다.
컴퓨팅 자원.
매우 큰 데이터 세트의 실행 시간은 매우 불확실합니다. 우리는 몇 가지
시스템에서 소규모 테스트 실행을 수행하여 기준선을 결정합니다. 지정 n_data 에
얼마나 많은 데이터 벡터를 읽을지 제한합니다. 매우 많은 양의 데이터가 주어졌을 때, 자동 클래스 5월
XNUMX개 이상의 클래스에서 가장 가능성 있는 분류를 찾으면
~을 요구한다 시작_j_목록 적절하게 지정해야 합니다(위 섹션 참조). 주문 제작 많은
클래스?). 몇 개의 클래스만 원한다고 확신하는 경우
자동 클래스 에 의해 지정된 고정된 수의 클래스로 검색하려면 고정_j. 그러면 당신은
서로 다른 고정된 수의 클래스로 별도의 검색을 실행해야 합니다.
바꾸다 파일 이름 IN A 저장 분류 FILE
자동 클래스 저장된 분류의 데이터, 헤더 및 모델 파일 경로 이름을 캐시합니다.
바이너리(".results-bin") 또는 ASCII(".results") "results" 파일의 구조. 만약
"results" 및 "search" 파일은 다른 디렉토리 위치로 이동되며 검색
절대 경로 이름을 사용한 경우 성공적으로 다시 시작할 수 없습니다. 따라서 그것은
호출을 실행하는 데 유리 자동 클래스 데이터, 헤더 및 모델의 상위 디렉토리에서
상대 경로 이름을 사용할 수 있습니다. 그러면 캐시된 경로 이름이
상대, 파일을 다른 호스트 또는 파일 시스템으로 이동하고 다시 시작할 수 있습니다 --
동일한 상대 경로 이름 계층을 제공하는 것이 존재합니다.
그러나 ".results" 파일은 ASCII 텍스트이므로 이러한 경로 이름은
텍스트 에디터 (save_compact_p false로 지정해야 합니다).
검색 선택 매개 변수
검색은 ".s-params" 파일에 의해 제어됩니다. 이 파일에서 빈 줄 또는 줄
"#", "!" 또는 ";" 문자 중 하나로 시작하는 문자는 주석으로 처리됩니다. 그만큼
매개변수 이름과 해당 값은 등호, 공백 또는 탭으로 구분할 수 있습니다.
n_clsfs 1
n_clsfs = 1
n_clsfs 1
"=" 또는 "인 경우 공백이 무시됩니다. "는 구분 기호로 사용됩니다. 후행이 없음에 유의하십시오.
세미콜론.
기본값이 있는 검색 매개변수는 다음과 같습니다.
rel_error = 0.01
다음을 결정할 때 clsf-DS-%=에서 사용하는 상대적 차이 측정을 지정합니다.
새 clsf는 이전 항목의 복제본입니다.
시작_j_목록 = 2, 3, 5, 7, 10, 15, 25
너무 빨리 검색 범위를 좁히지 않도록 처음에는 이러한 수의 클래스를 시도하십시오.
이 목록의 상태는 <..>.search 파일에 저장되고 다시 시작할 때 사용됩니다.
재정의 사양이 아닌 한 시작_j_목록 .s-params 파일에서 만들어집니다.
재시작 실행. 이 목록은 예상 수업 수를 괄호로 묶어야 합니다.
넓은 마진! "start_j_list = -999"는 빈 목록을 지정합니다(다음에만 허용됨).
재시작)
n_classes_fn_type = "random_ln_normal"
일단 시작_j_목록 지쳤다, 자동 클래스 이 함수를 호출하여 방법을 결정합니다.
10개의 최고의 분류를 기반으로 다음 시도에서 시작할 수 있는 많은 클래스
지금까지 찾았습니다. 현재 "random_ln_normal"만 사용할 수 있습니다.
고정_j = 0
인셀덤 공식 판매점인 고정_j > 0, 재정의 시작_j_목록 and n_classes_fn_type, and 자동 클래스 의지
항상 초기 클래스 수에 대해 이 값을 사용하십시오.
min_report_기간 = 30
자세한 보고가 완료될 때까지 마지막 보고 이후 최소 이 시간(초) 동안 기다립니다.
다시. 확인 시 예상 실행 시간보다 길게 설정해야 합니다.
결과의 반복성. 반복 가능한 결과는 다음을 참조하십시오. force_new_search_p,
시작_fn_유형 and randomize_random_p. 주의사항: "interactive_p" 중 적어도 하나,
"max_duration" 및 "max_n_tries"가 활성화되어야 합니다. 그렇지 않으면 자동 클래스 달릴거야
무기한. 아래를 참조하십시오.
Interactive_p = 참
false이면 중지될 때까지 실행을 계속할 수 있습니다. true인 경우 표준
종료 문자 "q"에 대해 각 사이클에서 입력이 쿼리되며, 감지되면
즉시 중단을 유발합니다.
최대 기간 = 0
= 0인 경우 달리 중지될 때까지 실행을 계속할 수 있습니다. > 0인 경우 다음을 지정합니다.
실행할 최대 시간(초)입니다.
max_n_tries = 0
= 0인 경우 달리 중지될 때까지 실행을 계속할 수 있습니다. > 0인 경우 다음을 지정합니다.
최대 시도 횟수.
n_save = 2
이 많은 clsf를 .results[-bin] 및 .search 파일의 디스크에 저장합니다. 0이면 안함
아무것도 저장하지 마십시오(.search 및 .results[-bin] 파일 없음).
log_file_p = 참
false인 경우 로그 파일을 작성하지 않습니다.
search_file_p = 참
false인 경우 검색 파일을 작성하지 않습니다.
결과_파일_p = 참
false인 경우 결과 파일을 작성하지 마십시오.
min_save_기간 = 1800
CPU 충돌 보호. 최대 시간(초)을 지정합니다. 자동 클래스
현재 결과를 디스크에 저장하기 전에 실행됩니다. 기본 시간은 30입니다.
분 거리에 있습니다.
max_n_store = 10
내부에 저장되는 최대 분류 수를 지정합니다.
n_최종_요약 = 10
검색 종료 후 출력할 시행 횟수를 지정합니다.
시작_fn_유형 = "무작위"
{"무작위", "차단"} 중 하나입니다. 클래스 초기화 유형을 지정합니다. 을 위한
일반 검색, 초기 클래스가 될 인스턴스를 무작위로 선택하는 "random" 사용
적절한 분산을 의미하고 추가합니다. 반복 가능한 검색으로 테스트하려면 다음을 사용하십시오.
데이터베이스를 거의 동일한 크기의 연속 블록으로 분할하는 "블록".
반복 가능한 결과는 다음을 참조하십시오. force_new_search_p, min_report_기간및
randomize_random_p.
try_fn_type = "converge_search_3"
{"converge_search_3", "converge_search_4", "converge"} 중 하나입니다. 이들은 지정합니다
대체 검색 중지 기준. "converge"는 단순히
log_marginal 분류 확률(clsf->log_a_x_h), 확인하지 않음
개별 클래스의 변화율(참조 정지 범위 and 정지 인자).
"converge_search_3" 및 "converge_search_4"는 각각 비율을 모니터링합니다.
모든 클래스에 대해 class->log_a_w_s_h_j/class->w_j, 모든 클래스에 대해 수렴을 계속합니다.
정지 기준을 통과하다 n_평균 주기. "converge_search_3" 테스트
연속적인 수렴 주기 간의 차이(참조 rel_delta_range). 이
합리적이고 일반적인 목적의 중지 기준을 제공합니다. "converge_search_4"
"sigma_beta_n_values" 주기에 대한 비율을 평균화합니다(참조 cs4_delta_range). 이
수렴_검색_3이 유사한 클래스를 많이 생성할 때 선호됩니다.
초기_사이클_p = 참
true인 경우 initialize_parameters에서 base_cycle을 수행합니다. false는 다음에만 사용됩니다.
테스트.
save_compact_p = 참
true는 분류를 시스템 종속 바이너리(.results-bin & .chkpt-bin)로 저장합니다.
false ascii 텍스트로 저장(.results & .chkpt)
read_compact_p = 참
true는 기계 종속 이진수(.results-bin & .chkpt-bin)로 분류를 읽습니다.
false는 ascii 텍스트(.results & .chkpt)로 읽습니다.
randomize_random_p = 참
거짓 시드 lrand48, 반복 가능한 1을 제공하는 의사 난수 함수
테스트 케이스. true는 보편적인 시간 시계를 시드로 사용하여 준무작위를 제공합니다.
검색합니다. 반복 가능한 결과는 다음을 참조하십시오. force_new_search_p, min_report_기간
and 시작_fn_유형.
n_data = 0
n_data = 0이면 전체 데이터베이스를 .db2에서 읽습니다. n_data > 0인 경우 이만
읽은 데이터 수.
정지 범위 = 0.5
try_fn_type "수렴"에 전달되었습니다. "수렴" try_fn_type을 사용하면 수렴이
halt_range 및 (halt_factor * current_log_marginal) 중 더 큰 값일 때 정지됨
분류의 연속 주기 값 간의 차이를 초과합니다.
log_marginal(clsf->log_a_x_h). 이 값을 줄이면 수렴이 강화될 수 있습니다.
그리고 사이클 수를 늘립니다.
정지 인자 = 0.0001
try_fn_type "수렴"에 전달되었습니다. "수렴" try_fn_type을 사용하면 수렴이
halt_range 및 (halt_factor * current_log_marginal) 중 더 큰 값일 때 정지됨
분류의 연속 주기 값 간의 차이를 초과합니다.
log_marginal(clsf->log_a_x_h). 이 값을 줄이면 수렴이 강화될 수 있습니다.
그리고 사이클 수를 늘립니다.
rel_delta_range = 0.0025
log approx-
클래스 가설에 대한 클래스 통계의 한계 가능성
(class->log_a_w_s_h_j)를 각 클래스에 대한 클래스 가중치(class->w_j)로 나눕니다.
"converge_search_3"은 주기 간의 차이가 있을 때 수렴을 중단합니다.
모든 클래스에 대한 비율이 "n_average"에 대한 "rel_delta_range"를 초과했습니다.
주기. "rel_delta_range"를 줄이면 수렴이 강화되고
사이클 수.
cs4_delta_range = 0.0025
비율을 모니터링하는 "converge_search_4" 기능을 시도하기 위해 전달되었습니다.
(class->log_a_w_s_h_j)/(class->w_j), 각 클래스에 대해 평균
"sigma_beta_n_values" 수렴 주기. "converge_search_4"는 수렴을 중지합니다.
이 비율의 평균값의 최대 차이가 아래로 떨어질 때
"cs4_delta_range". "cs4_delta_range"를 줄이면 수렴이 강화되고
사이클 수를 증가시킵니다.
n_평균 = 3
함수 "converge_search_3" 및 "converge"를 시도하도록 전달되었습니다. 주기의 수
시험이 종료되기 위해서는 수렴 기준이 충족되어야 합니다.
sigma_beta_n_values = 6
try_fn_type "converge_search_4"에 전달되었습니다. 사용할 과거 값의 수
sigma^2(노이즈) 및 beta^2(신호)를 계산합니다.
최대 주기 = 200
이것은 하나의 수렴에 대해 허용되는 최대 사이클 수입니다.
다른 정지 기준에 관계없이 분류. 이것은 매우 의존적입니다
데이터베이스와 모델 및 수렴 매개변수의 선택에 따라 달라집니다.
화면 덤프 및 .log 파일에 보고된 평균 주기 수의 약 두 배
수렴_인쇄_p = 거짓
참이면 선택한 시도 기능이 유용한 화면 값을 인쇄합니다.
기본값이 아닌 값 지정 정지 범위, 정지 인자, rel_delta_range,
n_평균, sigma_beta_n_values및 범위_인자.
force_new_search_p = 참
true인 경우 이전 검색 결과를 무시하고 기존 .search를 삭제합니다.
및 .results[-bin] 파일은 사용자 확인 후; 거짓이면 계속
기존 .search 및 .results[-bin] 파일을 사용한 검색. 반복 가능
결과도 참조 min_report_기간, 시작_fn_유형 and randomize_random_p.
checkpoint_p = 거짓
true인 경우 현재 분류의 체크포인트가 매 시간 기록됩니다.
"min_checkpoint_period"초, 파일 확장자는 .chkpt[-bin]입니다. 이것은 단지
매우 큰 분류에 유용
min_checkpoint_기간 = 10800
checkpoint_p = true인 경우 체크포인트 분류가 자주 작성됩니다.
- 초 단위(기본값 = 3시간)
reconverge_type = "
"chkpt" 또는 "결과"일 수 있습니다. "checkpoint_p" = true이고 "reconverge_type"인 경우
= "chkpt", 다음에 포함된 분류의 수렴을 계속합니다.
<...>.chkpt[-bin]. "checkpoint_p" = false이고 "reconverge_type" = "results"인 경우,
<...>.results[-bin]에 포함된 최상의 분류의 수렴을 계속합니다.
screen_output_p = 참
false인 경우 출력이 화면으로 전달되지 않습니다. log_file_p = true라고 가정하면 출력
로그 파일로만 지정됩니다.
break_on_warnings_p = 참
기본값은 데이터 정의 시 계속할지 여부를 사용자에게 묻습니다.
경고가 발견되었습니다. false로 지정하면 자동 클래스 불구하고 계속됩니다
warnings -- 경고는 터미널과 로그에 계속 출력됩니다.
파일.
free_storage_p = 참
기본값이 알려줍니다. 자동 클래스 할당된 스토리지의 대부분을 해제합니다.
이는 필수가 아니며 DEC Alpha의 경우 코어 덤프를 유발합니다.
아직도 사실입니까?]. 거짓으로 지정된 경우, 자동 클래스 저장 공간 확보를 시도하지 않습니다.
주문 제작 ~까지 바로 오토클래스 C ~까지 생기게 하다 반복 가능 결과
경우에 따라 반복 가능한 분류가 필요합니다. 자동 클래스 C
다른 플랫폼의 무결성, 포팅 자동 클래스 C 새로운 플랫폼 등에
이 두 가지가 필요합니다. 1) 동일한 난수 생성기가 있어야 합니다.
2) 검색 매개변수를 올바르게 지정해야 합니다.
난수 생성기. 이 구현의 자동 클래스 C 유닉스 srand48/lrand48 사용
잘 알려진 선형을 사용하여 의사 난수를 생성하는 난수 생성기
합동 알고리즘 및 48비트 정수 산술. lrand48()은 음수가 아닌 값을 반환합니다.
간격 [0, 2**31]에 걸쳐 균일하게 분포된 긴 정수.
검색 매개변수. 다음 .s-params 파일 매개변수를 지정해야 합니다.
force_new_search_p = 참
start_fn_type "블록"
randomize_random_p = 거짓
;; 실행하려는 시험 횟수를 지정하십시오.
max_n_tries = 50
;; 실행 기간보다 긴 시간을 지정하십시오.
min_report_기간 = 30000
현재 최상의 분류 보고서는 생성되지 않습니다. 결승전만
분류 요약이 출력됩니다.
체크포인트
매우 큰 데이터베이스를 사용하는 동안 시스템 충돌의 상당한 가능성이 있습니다.
한 분류 시도. 이러한 상황에서 시간을 할애하는 것이 좋습니다.
다시 시작할 수 있는 계산을 체크포인트합니다.
체크포인트는 "checkpoint_p = true"를 ".s-params" 파일에 포함합니다.
이로 인해 내부 수렴 단계가 분류 사본을
체크포인트 파일은 분류가 업데이트될 때마다 일정 기간을 제공합니다.
시간이 경과했습니다. 파일 확장자는 ".chkpt[-bin]"입니다.
AutoClass가 주기를 완료할 때마다 "." 제공하기 위해 화면에 출력됩니다.
설정에 사용되는 정보 min_checkpoint_기간 값(기본값 10800초
또는 3시간). 체크포인팅 빈도와
체크포인트를 반복적으로 쓰기 때문에 시스템이 충돌할 가능성이 있습니다.
파일은 검색 프로세스를 느리게 합니다.
자동 클래스 검색 다시 시작:
재부팅 및 다시 로드 후 분류를 복구하고 검색을 계속하려면
자동 분류, 지정 reconverge_type = ".s-params" 파일의 "chkpt"(지정
force_new_search_p 거짓으로).
AutoClass는 적절한 데이터베이스와 모델을 다시 로드합니다.
체크포인트에 대해 로드된 이후 파일 이름 변경
분류 실행. ".s-params" 파일에는 기본 인수가 아닌 인수가 포함되어 있습니다.
원래 통화에 제공됩니다.
검색을 시작하기 전에 시작_j_목록 비워졌다, 그것은 필요할 것이다
충돌이 발생한 검색에 남아 있는 항목으로 원래 목록을 다듬습니다. 이것은 될 수있다
어떤 값이 이미 사용되었는지 확인하기 위해 ".log" 파일을 살펴봄으로써 결정됩니다. 만약에
전에, 시작_j_목록 비워진 다음 빈 시작_j_목록 에 지정해야 합니다.
".s-params" 파일. 이것은 다음 중 하나에 의해 수행됩니다.
시작_j_목록 =
or
시작_j_목록 = -9999
다음은 체크포인트를 보여주는 일련의 스크립트입니다.
autoclass - 검색 데이터/유리/glassc.db2 데이터/유리/유리-3c.hd2 \
데이터/유리/유리-mnc.모델 데이터/유리/유리c-chkpt.s-params
실행 1)
## glassc-chkpt.s-params
max_n_tries = 2
force_new_search_p = 참
## -------
;; 완료까지 실행
실행 2)
## glassc-chkpt.s-params
force_new_search_p = 거짓
max_n_tries = 10
checkpoint_p = 참
min_checkpoint_기간 = 2
## -------
;; 체크포인트 1개 후, Ctrl-C를 눌러 CPU 충돌 시뮬레이션
실행 3)
## glassc-chkpt.s-params
force_new_search_p = 거짓
max_n_tries = 1
checkpoint_p = 참
min_checkpoint_기간 = 1
reconverge_type = "chkpt"
## -------
;; 체크포인트 재판은 끝나야 한다
출력 파일
표준 보고서는
1) 속성 영향 값: 속성의 상대적 영향 또는 중요성을 나타냅니다.
전역적으로(모든 클래스에 대해 평균화됨) 및 로컬로 데이터의 속성
(특히 각 클래스에 대해). 상대적 클래스 강도에 대한 휴리스틱도
나열;
2) 사례(데이텀) 번호에 의한 상호 참조: 에 대한 XNUMX차 클래스 확률을 나열합니다.
케이스 번호로 정렬된 각 데이텀. report_mode = "데이터"인 경우 추가로 적은
클래스 확률(0.001 이상)이 각 데이텀에 대해 나열됩니다.
3) 클래스 번호에 의한 상호 참조: 각 클래스에 대한 기본 클래스 확률 및
더 작은 클래스 확률(0.001보다 크거나 같음)은 각각에 대해 나열됩니다.
케이스 번호로 정렬된 클래스의 데이텀. 각각에 대해 나열하는 것도 가능합니다.
datum, 선택한 속성 값.
속성 영향 값 보고서는
분류에 의해 발견된 클래스에 대한 데이터 속성의 "영향". 그만큼
정규화된 클래스 강도, 정규화된 속성 영향 값은 모두 합산됩니다.
클래스 및 개별 영향 값(I[jkl])은 모두 상대적 측정치일 뿐이며
순위 순서보다 더 많은 의미로 해석되어야 하지만 다른 것과는 다릅니다.
절대값에 접근합니다.
보고서는 이름과 경로 이름이 ".r-params"에서 가져온 파일로 출력됩니다.
파일 경로명. 보고서 파일 유형(확장자)은 다음과 같습니다.
영향 값 신고
"influ-o-text-n" 또는 "influ-no-text-n"
상호 참조 by 케이스
"케이스 텍스트-n"
상호 참조 by 수업
"클래스 텍스트-n"
또는 report_mode가 "data"로 재정의된 경우:
영향 값 신고
"influ-o-data-n" 또는 "influ-no-data-n"
상호 참조 by 케이스
"사례 데이터-n"
상호 참조 by 수업
"클래스 데이터-n"
어디에 n "결과" 파일의 분류 번호입니다. 최초 또는 최고
분류는 1, 다음으로 가장 좋은 2 등으로 번호가 매겨집니다. 기본값은 보고서를 생성하는 것입니다.
"결과" 파일에서 최상의 분류에 대해서만. 다른 보고서를 생성할 수 있습니다.
보고서 매개변수 키워드를 사용하여 저장된 분류 n_clsfs and clsf_n_list. 그만큼
"influ-o-text-n" 파일 형식이 기본값(order_attributes_by_influence_p = 참),
속성 영향 값의 내림차순으로 각 클래스의 속성을 나열합니다. 만약
의 가치 order_attributes_by_influence_p <...>.r-params에서 false로 재정의됨
파일을 열면 각 클래스의 속성이 속성 번호별로 오름차순으로 나열됩니다.
생성된 파일의 확장자는 "influ-no-text-n". 이 나열 방법
클래스 간 속성 값의 시각적 비교를 용이하게 합니다.
예를 들어 다음 명령은 다음과 같습니다.
autoclass -reports 샘플/imports-85c.results-bin
sample/imports-85c.search 샘플/imports-85c.r-params
".r-params" 파일의 다음 줄:
xref_class_report_att_list = 2, 5, 6
다음 출력 파일을 생성합니다.
수입-85.influ-o-text-1
imports-85.케이스-텍스트-1
imports-85.class-텍스트-1
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 자동 클래스 C 보고서는 다음에 대한 시그마 클래스 윤곽 값을 계산하는 기능을 제공합니다.
영향 값 보고서를 생성할 때 지정된 실제 값 속성 쌍
데이터 옵션 사용(report_mode = "data"). 시그마 클래스 윤곽선은 그렇지 않습니다.
개별 유형 속성에서 생성됩니다.
시그마 등고선은 하나의 n-시그마 오류 막대에 해당하는 XNUMX차원입니다.
치수. 특히 두 개의 독립적인 특성에 대해 n-시그마 윤곽선은 다음과 같이 정의됩니다.
타원
((x - x평균) / x시그마)^2 + ((y - y평균) / y시그마)^2 == n
공변 속성을 사용하면 n-시그마 윤곽선이 동일하게 정의됩니다.
분포의 기본 축의 좌표계. 따라서 독립 속성은 다음을 제공합니다.
타원은 속성 축과 평행한 반면 시그마 축은
공변 속성은 평균에 의해 결정된 중심을 기준으로 회전합니다. 두 경우 모두
시그마 윤곽선은 상관없이 클래스 확률이 일정한 선을 나타냅니다.
다른 클래스 확률의
XNUMX개 이상의 속성을 사용하면 n-시그마 윤곽선이 k차원 타원체가 됩니다.
표면. 이 코드는 n-
차원 타원체는 임의의 2차원 평면에서 타원으로 경계가 지정됩니다. 이 단순화된
단일 시그마 타원체를 좌표 평면에 투영하는 경우에도 마찬가지입니다.
이 타원의 2차원 공분산은
n-dim 타원체의 공분산. 2차원 공분산의 고유 시스템은 다음을 제공합니다.
분산 wrt 일식의 주요 구성 요소 및 정렬 회전
데이터와 함께. 이것은 한계에 분포를 표시하는 가장 좋은 방법을 나타냅니다.
비행기.
등고선 값을 얻으려면 키워드를 설정하십시오. sigma_contours_att_list 실제 가치 목록에
속성 색인(.hd2 파일에서), 데이터와 함께 영향 값 보고서 요청
선택권. 예를 들면
report_mode = "데이터"
sigma_contours_att_list = 3, 4, 5, 8, 15
출력 REPORT 매개 변수
출력 보고서의 내용은 ".r-params" 파일에 의해 제어됩니다. 이 파일에서
빈 줄이나 다음 문자 중 하나로 시작하는 줄은 주석으로 처리됩니다.
"#", "!", 또는 ";". 매개변수 이름과 해당 값은 등호(a)로 구분할 수 있습니다.
공백 또는 탭:
n_clsfs 1
n_clsfs = 1
n_clsfs 1
"=" 또는 "인 경우 공백이 무시됩니다. "는 구분 기호로 사용됩니다. 후행이 없음에 유의하십시오.
세미콜론.
다음은 허용되는 매개변수와 해당 기본값입니다.
n_clsfs = 1
보고서를 생성할 .results 파일의 clsfs 수(다음으로 시작)
첫 번째 또는 "최고".
clsf_n_list =
지정된 경우 이것은 clsf 시퀀스 읽기에서 clsfs의 XNUMX기반 인덱스 목록입니다.
.results 파일에서. "n_clsfs"를 재정의합니다. 예를 들어:
clsf_n_list = 1, 2
와 동일한 출력을 생성합니다.
n_clsfs = 2
비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
clsf_n_list = 2
"두 번째로 좋은" 분류 보고서만 출력합니다.
보고서 유형 =
생성할 보고서 유형: "all", "influence_values", "xref_case" 또는
"xref_class".
보고서_모드 =
생성할 보고서 모드. "텍스트"는 형식이 지정된 텍스트 레이아웃입니다. "데이터"는 숫자입니다
-- 추가 처리에 적합합니다.
comment_data_headers_p = 거짓
기본값은 대부분의 report_mode = "data" 헤더의 열 1에 #을 삽입하지 않습니다.
윤곽. true로 지정하면 주석 문자가 대부분의 헤더에 삽입됩니다.
윤곽.
num_atts_to_list =
지정된 경우 영향 값 보고서에 나열할 속성의 수입니다. 그렇지 않다면
지정된, 모든 속성이 나열됩니다. (예: "num_atts_to_list = 5")
외부 참조_클래스_보고서_att_list =
지정된 경우 값이 출력될 속성 번호 목록(XNUMX부터 시작)
사례 확률과 함께 "xref_class" 보고서에서. 지정되지 않은 경우, 아니오
속성 값이 출력됩니다. (예: "xref_class_report_att_list = 1, 2, 3")
order_attributes_by_influence_p = 참
기본값은 속성의 내림차순으로 각 클래스의 속성을 나열합니다.
영향 값, 영향 값 보고서 파일로 ".influ-o-text-n" 사용
유형. false로 지정하면 각 클래스의 속성이 다음에 나열됩니다.
속성 번호를 기준으로 오름차순. 생성된 파일의 확장자는
"influ-no-text-n".
break_on_warnings_p = 참
기본값은 데이터 정의 시 계속할지 여부를 사용자에게 묻습니다.
경고가 발견되었습니다. false로 지정하면 자동 클래스 불구하고 계속됩니다
warnings -- 경고는 터미널에 계속 출력됩니다.
free_storage_p = 참
기본값이 알려줍니다. 자동 클래스 할당된 스토리지의 대부분을 해제합니다.
이는 필수가 아니며 DEC Alpha의 경우 코어 덤프를 유발합니다.
아직도 사실입니까?]. 거짓으로 지정된 경우, 자동 클래스 저장 공간 확보를 시도하지 않습니다.
max_num_xref_class_probs = 5
사례에 대해 얼마나 많은 임대인 클래스 확률을 인쇄할지 결정하고
클래스 교차 참조 보고서. 기본값은 가장 가능성이 높은 클래스를 인쇄하는 것입니다.
확률 값과 최대 4개의 임대인 클래스 확률. 이것은 사실입니다.
"텍스트" 및 "데이터" 클래스 교차 참조 보고서 모두
"데이터" 사례 교차 참조 보고서. "텍스트" 사례 교차 참조 보고서만
클래스 확률이 가장 높습니다.
sigma_contours_att_list =
지정된 경우 실제 값 속성 인덱스 목록(.hd2 파일에서)은 다음과 같습니다.
영향 값 보고서를 생성할 때 시그마 클래스 윤곽 값을 계산합니다.
데이터 옵션(report_mode = "data"). 지정하지 않으면 시그마가 없습니다.
클래스 윤곽 출력. (예: "sigma_contours_att_list = 3, 4, 5, 8, 15")
해석 OF 오토클래스 결과
WHAT 있다 여러분 갖다?
이제 당신은 실행 자동 클래스 데이터 세트에 대해 -- 무엇을 가지고 있습니까? 일반적으로
자동 클래스 검색 절차는 많은 분류를 찾지만 가장 좋은 몇 가지만 저장합니다. 이것들
이제 검사 및 해석이 가능합니다. 의 가장 중요한 지표는
이러한 대체 분류의 상대적 장점은 로그 총 사후 확률입니다.
값. 확률이 1과 0 사이에 있기 때문에 해당 로그
확률은 음수이며 범위는 0에서 음의 무한대입니다. 차이점
e의 거듭제곱으로 증가된 이러한 로그 확률 값은 다음의 상대 확률을 제공합니다.
대안 분류. 예를 들어 100의 차이는 하나의 분류가
e^100 ~= 10^43 다른 것보다 가능성이 높습니다. 그러나 이러한 수치는 매우 오해의 소지가 있습니다.
그들은 다음과 같은 대안 분류의 상대적 확률을 제공하기 때문입니다.
자동 클래스 가정.
가정
구체적으로 가장 중요한 자동 클래스 가정은 정규 모델을 사용하는 것입니다.
실제 변수 및 클래스 내 속성의 독립성 가정. 부터
이러한 가정은 실제로 종종 위반되며 사후 확률의 차이
대체 분류의 일부는 하나의 분류가 다음에 더 가깝기 때문일 수 있습니다.
실제 차이보다는 다른 가정보다 가정을 만족
분류 품질. Log의 유용성에 대한 또 다른 불확실성의 원인
확률 값은 특정 사전 지식을 고려하지 않는다는 것입니다.
사용자는 도메인에 대해 가질 수 있습니다. 이는 종종 대안을 살펴볼 가치가 있음을 의미합니다.
해석할 수 있는지 확인하기 위해 분류하지만 가장 많은 것부터 시작할 가치가 있습니다.
먼저 가능합니다. 로그 확률 값이
하나의 클래스 사례에 대해 압도적인 증거가 있다고 말하고 있습니다. 일부 의 구조
데이터이며 이 구조의 일부는 자동 클래스 분류.
영향 REPORT
이제 로그 확률을 기반으로 검사할 분류를 선택했습니다.
값; 어떻게 조사합니까? 가장 먼저 할 일은 "영향력" 보고서를 생성하는 것입니다.
에 문서화 된 보고서 생성 기능을 사용하여 분류에
/usr/share/doc/autoclass/reports-c.text. 영향력 보고서는 다음을 요약하도록 설계되었습니다.
중요한 정보가 묻혀있다. 자동 클래스 데이터 구조.
이 보고서의 첫 번째 부분은 휴리스틱 클래스에 "강점"을 제공합니다. 클래스 "힘"은
여기서 어떤 인스턴스가 클래스 "에 속하는" 기하 평균 확률로 정의됩니다.
클래스 확률 모델에서 생성되었을 것입니다. 따라서 휴리스틱을 제공합니다.
각 클래스가 "자신의" 인스턴스를 얼마나 강력하게 예측하는지 측정합니다.
두 번째 부분은 다음에서 사용된 각 속성의 전반적인 "영향" 목록입니다.
분류. 이것들은 다음의 상대적 중요성에 대한 대략적인 휴리스틱 척도를 제공합니다.
분류의 각 속성. 속성 "영향 값"은 클래스입니다.
클래스의 각 속성에 대한 "영향력"의 확률 가중 평균
아래에서 묘사 되어진.
보고서의 다음 부분은 각 클래스에 대한 요약 설명입니다. 수업
내림차순 클래스 가중치 순서대로 0에서 n까지 임의로 번호가 매겨집니다. 클래스
예를 들어 34.1의 가중치는 클래스에 대한 소속 확률의 가중 합이 다음임을 의미합니다.
34.1. 클래스 가중치 34가 반드시 34개의 케이스가 다음에 속하는 것을 의미하지는 않습니다.
많은 경우에 해당 클래스에 부분적으로만 속할 수 있기 때문입니다. 각 내에서
클래스, 속성 또는 속성 세트는 해당 모델 용어의 "영향"에 따라 정렬됩니다.
횡단하다 엔트로피
일반적으로 사용되는 두 확률 분포 사이의 발산 측정은 다음과 같습니다.
교차 엔트로피: P(x|c...)*log[P(x|c...)/P(x|g...)]의 모든 가능한 값 x에 대한 합계,
여기서 c... 및 g...는 분포를 정의합니다. 범위는 XNUMX부터 동일합니다.
의 다른 값에 확률 1을 배치하는 분포의 경우 무한대
속성. 확률 분포에서 조건부 독립 항을 사용하면
교차 엔트로피는 이러한 항에 대한 합으로 분해될 수 있습니다. 이러한 요소는 척도를 제공합니다.
두 가지를 구별하는 해당 모델링 속성의 영향
분포.
클래스에 대한 모델링된 용어의 "영향력"을 다음에 대한 교차 엔트로피 용어로 정의합니다.
클래스 분포 wrt 단일 클래스의 글로벌 클래스 분포
분류. 따라서 "영향력"은 모델 용어가 얼마나 강력하게 도움이 되는지에 대한 척도입니다.
전체 데이터 세트에서 클래스를 구별하십시오. 독립적으로 모델링된 속성으로,
영향력은 정당하게 속성 자체에 기인할 수 있습니다. 상관 또는
공변 속성 세트, 교차 엔트로피 인자는 전체 세트의 함수이며,
영향 값을 모델링된 속성에 균등하게 분배합니다.
속성 영향 Values
각 클래스에 대한 "영향력" 보고서에서 해당 클래스의 속성 매개변수가 제공됩니다.
모델 용어 속성 세트에 대한 영향력 값이 가장 높은 순서대로. 처음 몇 개만
특성 집합에는 일반적으로 중요한 영향 값이 있습니다. 영향력 값이 떨어지면
가장 높은 값의 약 20% 미만이면 중요하지 않을 수 있지만 모든
완전성을 위해 속성 세트가 나열됩니다. 각각의 영향력 값 외에도
속성 세트, 해당 클래스의 속성 세트 매개변수 값이 함께 제공됩니다.
해당 "전역" 값으로. 전역 값은
분류와 독립적인 데이터. 예를 들어 클래스가 속성의 평균인 경우
"온도"는 90이고 표준 편차는 2.5이지만 전체 평균은 68이며
표준 편차가 16.3이면 이 클래스는 다음보다 훨씬 높은 사례를 선택했습니다.
평균 온도, 그리고 이 높은 범위에서 다소 작은 확산. 마찬가지로,
이산 속성 세트, 해당 클래스의 각 결과에 대한 확률이 함께 제공됩니다.
해당 전역 확률로 -- 중요성에 따라 정렬됨: 절대값
(로그 { / }). 의미의 표시
값은 전역 클래스에서 변경 방향을 나타냅니다. 이 정보는
가장 많은 순서대로 각 클래스가 모든 데이터의 평균과 어떻게 다른지에 대한 개요
중요한 차이점.
수업 및 CASE 보고서
"영향력" 보고서에서 클래스에 대한 설명을 얻었으면 다음을 수행할 수 있습니다.
좋아하는 케이스가 어떤 클래스에 속하는지 확인하기 위해 후속 조치를 취하십시오. 반대로,
어떤 케이스가 특정 클래스에 속하는지 확인합니다. 이런 종류의 상호 참조를 위해
정보 두 개의 보완 보고서를 생성할 수 있습니다. 이것들은 더 완벽하게 문서화되어 있습니다.
in /usr/share/doc/autoclass/reports-c.text. "클래스" 보고서에는 다음과 같은 모든 사례가 나열됩니다.
각 클래스에 상당한 회원 자격이 있으며 각 사례가 속한 정도
그 수업에. 현재 클래스에서 클래스 소속이 90% 미만인 케이스는
다른 클래스 멤버십도 나열됩니다. 클래스 내의 케이스는 다음과 같이 정렬됩니다.
사건 수 증가. 대체 "사례" 보고서에는 어떤 클래스(또는 클래스)가
사례가 속하고 가장 가능성이 높은 클래스의 구성원 확률입니다. 이 둘
보고서를 사용하면 어떤 사례가 어떤 클래스에 속하는지 또는 그 반대인지 확인할 수 있습니다. 만약에
거의 모든 케이스가 단일 클래스에 거의 99%의 멤버쉽을 가지고 있습니다.
학급은 잘 분리되어 있으며 높은 수준의 교차 구성원은
수업이 많이 겹칩니다. 많이 겹치는 클래스는 아이디어가
분류의 틀이 무너지고 상호 고도로 중첩된 클래스의 그룹,
일종의 메타 클래스가 아마도 데이터를 이해하는 더 좋은 방법일 것입니다.
비교 수업 무게 및 클래스/케이스 REPORT 과제
클래스 확률 매개변수로 주어진 클래스 가중치는 본질적으로 모든 것의 합계입니다.
인스턴스가 클래스의 구성원인 정규화된 확률의 데이터 인스턴스.
이 숫자를
보고서의 본질을 강조하기보다. 당신은 실제 실제 값을 찾을 수 있습니다
.results[-bin] 파일의 class_DS 구조에 w_j 매개변수로 기록됩니다.
.case 및 .class 보고서는 사례가 클래스의 구성원일 확률을 제공합니다. 어느
사례를 클래스에 할당하려면 몇 가지 결정 규칙이 필요합니다. 최대 확률
할당 규칙은 종종 암묵적으로 가정되지만 결과가
파티션 크기는 거의 모든 클래스 구성원이 아닌 한 클래스 가중치와 동일합니다.
확률은 사실상 1 또는 0입니다. XNUMX/XNUMX이 아닌 멤버십 확률로,
클래스 가중치를 일치시키려면 확률을 합산해야 합니다.
또한 EM(기대 극대화)의 완성도에 대한 질문이 있습니다.
수렴. EM은 클래스 매개변수 추정과 클래스 추정 사이를 번갈아 가며 사용합니다.
소속 확률. 이러한 추정치는 서로 수렴하지만 실제로는
만나다. 자동 클래스 교대 중지로 여러 수렴 알고리즘을 구현합니다.
.s-params 파일에서 적절한 매개변수를 사용하는 기준. 이들의 적절한 설정
합리적으로 완전하고 효율적인 수렴을 얻으려면 매개변수가 필요할 수 있습니다.
실험.
대체 분류
요약하면 생성할 수 있는 다양한 보고서를 통해
현재 분류. 일반적으로 대체 분류를 살펴보는 것이 좋습니다.
최소 로그 확률 값이 없더라도. 이들 다른
분류에는 일반적으로 다른 강력한 클래스와 밀접하게 일치하는 클래스가 있습니다.
분류하지만 약한 클래스에서는 다를 수 있습니다. 클래스 내 클래스의 "강도"
분류는 일반적으로 가장 높은 영향 값이 얼마나 극적으로 영향을 미치는지에 따라 판단할 수 있습니다.
클래스의 속성은 해당 전역 속성과 다릅니다. 다음 중 어느 것도
분류는 상당히 만족스러운 것 같습니다. 항상 실행할 수 있습니다. 자동 클래스 다시
새로운 분류를 생성합니다.
WHAT 다음?
마지막으로 통찰력 있는 분류를 찾은 후 무엇을 해야 하는지에 대한 질문입니다.
발생합니다. 일반적으로 분류는 집합을 검사하기 위한 예비 데이터 분석 단계입니다.
사례(사물, 예 등)의 구성원이 그룹화될 수 있는지 확인합니다.
그룹은 서로 "유사"합니다. 자동 클래스 사용자 없이 이러한 그룹화를 제공합니다.
유사성 척도를 정의해야 합니다. 내장된 "유사성" 척도는 상호
사례의 예측성. 다음 단계는 일부 개체가 왜 "설명"하려고 시도하는 것입니다.
다른 그룹의 사람들보다 다른 사람들과 더 비슷합니다. 일반적으로 도메인 지식은
답변. 예를 들어 소득, 구매 습관, 위치,
연령 등은 이전에는 분명하지 않았던 특정 사회 계층을 드러낼 수 있습니다.
분류 분석. 이러한 클래스에 대한 추가 정보를 얻으려면 추가로
차량 수, 시청하는 TV 프로그램 등과 같은 정보는
추가 정보. 종단 연구는 사회 계층이 어떻게
발생하고 그들의 태도에 영향을 미치는 것은 모두 초기 단계를 훨씬 뛰어넘는 것입니다.
분류.
예측
분류는 새로운 케이스에 대한 클래스 구성원을 예측하는 데 사용할 수 있습니다. 그래서 이외에
데이터 이면의 구조에 대한 통찰력을 제공할 수 있으므로 이제 다음을 사용할 수 있습니다.
자동 클래스 예측하고 비교하기 위해 직접 자동 클래스 다른 학습 시스템에.
클래스 확률을 예측하는 이 기술은 모든 속성에 적용할 수 있습니다.
데이터 유형/sub_type 또는 우도 모델 용어 유형에 관계없이.
데이터 케이스의 클래스 멤버십이 다음 중 하나라도 0.0099999를 초과하지 않는 경우
"훈련" 클래스에 대한 화면 출력에 다음 메시지가 나타납니다.
케이스:
xref_get_data: case_num xxx => 클래스 9999
클래스 9999 멤버는 "케이스" 및 "클래스" 교차 참조 보고서에
클래스 멤버십 1.0.
주의 사항:
평소 사용하는 방법 자동 클래스 모든 데이터를 data_file에 넣는 것입니다.
모델 및 헤더 파일이 있는 데이터 및 "autoclass -search"를 실행합니다. 이제 하나 대신
data_file에는 training_data_file과 test_data_file이 있습니다.
두 데이터베이스가 동일한 것을 갖는 것이 가장 중요합니다. 자동 클래스 내부 표현.
이것이 사실이 아니라면, 자동 클래스 종료되거나 경우에 따라 충돌이 발생할 수 있습니다.
예측 모드는 사용자가 이 규칙을 따르도록 유도하도록 설계되었습니다.
요구 사항.
준비 :
예측에는 훈련 분류와 테스트 데이터베이스가 필요합니다. 트레이닝
훈련에서 "autoclass -search"를 실행하면 분류가 생성됩니다.
data_file("data/soybean/soyc.db2"), 예:
autoclass - 검색 데이터/soybean/soyc.db2 데이터/soybean/soyc.hd2
데이터/대두/soyc.model 데이터/대두/soyc.s-params
이렇게 하면 "soyc.results-bin" 및 "soyc.search"가 생성됩니다. 그런 다음 "보고서" 매개변수를 생성합니다.
"soyc.r-params"와 같은 파일(참조 /usr/share/doc/autoclass/reports-c.text) 실행
자동 클래스 다음과 같은 "보고서" 모드에서:
autoclass - 보고서 데이터/soybean/soyc.results-bin
데이터/콩/soyc.search 데이터/콩/soyc.r-params
이렇게 하면 클래스 및 사례 상호 참조 파일과 영향 값 파일이 생성됩니다.
파일 이름은 ".r-params" 파일 이름을 기반으로 합니다.
데이터/대두/soyc.class-text-1
데이터/대두/soyc.case-text-1
데이터/대두/soyc.influ-text-1
이는 training_data_file에 있는 클래스를 설명합니다. 이제 이 분류
test_data_file 사례의 확률적 클래스 구성원을 예측하는 데 사용할 수 있습니다.
("data/soybean/soyc-predict.db2") training_data_file 클래스.
자동 클래스 -예측 데이터/soybean/soyc-predict.db2
데이터/대두/soyc.results-bin 데이터/대두/soyc.search
데이터/대두/soyc.r-params
이렇게 하면 test_data_file 사례에 대한 클래스 및 사례 상호 참조 파일이 생성됩니다.
training_data_file 클래스에서 확률적 클래스 구성원을 예측합니다. 그만큼
파일 이름은 ".db2" 파일 이름을 기반으로 합니다.
데이터/대두/soyc-predict.class-text-1
데이터/대두/soyc-predict.case-text-1
onworks.net 서비스를 사용하여 온라인에서 자동 클래스 사용