Il s'agit de la commande timbl qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
timbl - Apprenant basé sur la mémoire de Tilburg
SYNOPSIS
timbl [options]
timbl -f fichier-données -t fichier-test
DESCRIPTION
TiMBL est un progiciel open source mettant en œuvre plusieurs apprentissages basés sur la mémoire
algorithmes, parmi lesquels IB1-IG, une implémentation de la classification des k plus proches voisins
avec une pondération des caractéristiques adaptée aux espaces de caractéristiques symboliques, et IGTree, un arbre de décision
approximation de IB1-IG. Tous les algorithmes implémentés ont en commun de stocker certains
représentation de l'ensemble d'apprentissage explicitement en mémoire. Lors des tests, de nouveaux cas sont
classés par extrapolation à partir des cas stockés les plus similaires.
OPTIONS
-a ou -a
détermine l'algorithme de classification.
Les valeurs possibles sont :
0 or IB
l'algorithme IB1 (k-NN) (par défaut)
1 or IGTREE
une approximation basée sur un arbre de décision de IB1
2 or TRIBLÉ
un hybride de IB1 et IGTREE
3 or IB2
une version d'édition incrémentielle d'IB1
4 or TRIBL2
une version non paramétrique de TRIBL
-b n
nombre de lignes utilisées pour l'amorçage (IB2 uniquement)
-B n
nombre de groupes utilisés pour la discrétisation des valeurs de caractéristiques numériques
--Rayonner=
limiter la sortie de +v db aux n classes ayant le plus de votes
--clones=
nombre de threads à utiliser pour les tests parallèles
-c n
fréquence d'écrêtage pour le pré-stockage des matrices MVDM
+D
stocker les distributions sur tous les nœuds (nécessaire pour utiliser +v db avec IGTree, mais gaspille
mémoire sinon)
--Diversifier
redimensionner le poids (voir docs)
-d vague
peser les voisins en fonction de leur distance :
Z : poids égaux à tous (par défaut)
ID : Distance inverse
IL : Inverse Linéaire
ED:a : Décroissance exponentielle avec facteur a (pas d'espace !)
ED:a:b : Décroissance exponentielle avec facteur a et b (pas d'espace !)
-e n
estimer le temps jusqu'à n modèles testés
-f filet
lire à partir du fichier de données « fichier » OU utiliser les noms de fichiers à partir de « fichier » pour le test de validation croisée
-F le format
assumer le format d'entrée spécifié (Compact, C4.5, ARFF, Columns, Binary, Sparse )
-G normalisation
normaliser les distributions (option +v db uniquement)
Les normalisations prises en charge sont :
Probabilité or 0
normaliser entre 0 et 1
ajouterFacteur: ou 1:
ajoutez f à toutes les cibles possibles, puis normalisez entre 0 et 1 (f par défaut = 1.0).
logProbabilité or 2
Ajoutez 1 au poids cible, prenez le 10Log puis normalisez entre 0 et 1
+H or -H
écrire des arbres hachés (par défaut +H)
-i filet
lire l'InstanceBase à partir du 'fichier' (saute les phases 1 et 2)
-I filet
vider l'InstanceBase dans 'fichier'
-k n
rechercher 'n' voisins les plus proches (par défaut n = 1)
-L n
seuil de fréquence de valeur de consigne pour reculer de MVDM à Chevauchement au niveau n
-l n
longueur de valeur de caractéristique fixe (format compact uniquement)
-m un magnifique
utiliser les métriques de fonctionnalité comme spécifié dans 'string' :
Le format est : GlobalMetric:MetricRange:MetricRange
ex : mO:N3:I2,5-7
C : distance en cosinus. (Global uniquement. Fonctionnalités numériques implicites)
D : produit scalaire. (Global uniquement. Fonctionnalités numériques implicites)
DD : Coefficient de dés
O : chevauchement pondéré (par défaut)
E : distance euclidienne
L : distance de Levenshtein
M : différence de valeur modifiée
J : divergence de Jeffrey
S : divergence Jensen-Shannon
N : valeurs numériques
I : Ignorer les valeurs nommées
--matrice=fichier
lire les matrices de différence de valeur à partir du fichier 'fichier'
--matriceout=fichier
stocker les matrices ValueDifference dans 'file'
-n filet
créer un fichier de noms de style C4.5 « fichier »
-M n
taille du tableau MaxBests
-N n
nombre de fonctionnalités (par défaut 2500)
-o s
utiliser s comme nom de fichier de sortie
--occurrences=
Le fichier d'entrée contient le nombre d'occurrences (à la dernière position) la valeur peut être une
de: train , tester or tous les deux
-O chemin
enregistrer la sortie en utilisant 'path'
-p n
afficher la progression toutes les n lignes (par défaut p = 100,000 XNUMX)
-P chemin
lire les données en utilisant 'path'
-q n
régler le seuil TRIBL au niveau n
-R n
résoudre les liens au hasard avec la graine n
-s
utiliser les poids exemplaires du fichier d'entrée
-s0
ignorer les poids exemplaires du fichier d'entrée
-T n
utilisez la caractéristique n comme étiquette de classe. (par défaut : la dernière fonctionnalité)
-t filet
tester en utilisant 'fichier'
-t laisser_un_out
test avec le régime de test sans interruption (IB1 uniquement). vous pouvez ajouter --sloppy à
accélérer les tests de non-conformité (mais voir la documentation)
-t cross_valider
effectuer un test de validation croisée (IB1 uniquement)
-t @déposer
test en utilisant les fichiers et les options décrits dans 'fichier' Options prises en charge : de F kmopq
R tuvwx % -
--Arborescence =valeur n
ordre de l'arbre :
FAIRE : aucun
GRO : en utilisant GainRatio
IGO : en utilisant InformationGain
1/V : en utilisant 1/# de valeurs
G/V : en utilisant GainRatio/# of Valuess
I/V : en utilisant InfoGain/# of Valuess
X2O : en utilisant X-carré
X/V : en utilisant X-carré/nombre de valeurs
SVO : utilisation de la variance partagée
S/V : utilisation de la variance partagée/nombre de valeurs
GxE : en utilisant GainRatio * SplitInfo
IxE : en utilisant InformationGain * SplitInfo
1/S : en utilisant 1/SplitInfo
-u filet
lire les probabilités de classe de valeur à partir de « fichier »
-U filet
enregistrer les probabilités de classe de valeur dans 'fichier'
-V
Afficher VERSION
+v niveau ou -v niveau
définir ou désactiver le niveau de verbosité, où le niveau est :
s : travailler en silence
o : afficher toutes les options définies
b : afficher le nombre de nœuds/branches et le facteur de branchement
f : afficher les pondérations des caractéristiques calculées (par défaut)
p : afficher les matrices de différence de valeur
e : afficher les correspondances exactes
as : afficher des statistiques avancées (consommer de la mémoire)
cm : afficher la matrice de confusion (implique +vas)
cs : afficher les statistiques par classe (implique +vas)
cf : ajouter de la confiance au fichier de sortie (nécessite -G)
di : ajouter une distance au fichier de sortie
db : ajouter la distribution du fichier de sortie le mieux adapté
md : ajoute la profondeur correspondante au fichier de sortie.
k : ajouter un résumé pour tous les k voisins au fichier de sortie (ensembles -x)
n : ajouter les voisins les plus proches au fichier de sortie (définit -x)
Vous pouvez combiner les niveaux en utilisant '+' par exemple +v p+db ou -v o+di
-w n
pondération
0 ou nw : pas de pondération
1 ou gr : peser en utilisant le rapport de gain (par défaut)
2 ou ig : peser en utilisant le gain d'information
3 ou x2 : peser à l'aide de la statistique du chi carré
4 ou sv : peser à l'aide de la statistique de variance partagée
5 ou sd : peser en utilisant l'écart type. (toutes les caractéristiques doivent être numériques)
-w filet
lire les poids du 'fichier'
-w fichier:n
lire le poids n à partir du 'fichier'
-W filet
calculer et enregistrer tous les poids dans 'fichier'
+% or -%
enregistrer ou ne pas enregistrer le résultat du test (%) dans un fichier
+x or -x
utiliser ou ne pas utiliser le raccourci de correspondance exacte
(IB1 et IB2 uniquement, la valeur par défaut est -x)
-X filet
vider l'InstanceBase en XML dans 'fichier'
Utilisez timbl en ligne en utilisant les services onworks.net