Il s'agit de la commande SWISH-RUN qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
SWISH-RUN - Exécution de commutateurs Swish-e et de ligne de commande
APERÇU
Le programme Swish-e est contrôlé par des arguments de ligne de commande (appelés commutateurs). Souvent, il
est exécuté manuellement à partir d'un shell (invite de commande) ou d'un programme tel qu'un script CGI qui
passe les arguments de la ligne de commande à swish.
Remarque : un certain nombre de commutateurs de ligne de commande peuvent être spécifiés dans la configuration Swish-e
fichier spécifié avec l'argument de ligne de commande "-c". Veuillez consulter SWISH-CONFIG pour un
description complète des directives de fichier de configuration disponibles.
Il existe deux modes de fonctionnement de base de Swish-e : l'indexation et la recherche. Il y a des commandes
arguments de ligne qui sont uniques à chaque mode, et d'autres qui s'appliquent aux deux (mais peuvent avoir
sens différent selon le mode de fonctionnement). Ces arguments de ligne de commande sont
énumérés ci-dessous, regroupés par :
INDEXATION -- décrit les arguments de ligne de commande utilisés lors de l'indexation.
RECHERCHE -- répertorie les arguments de ligne de commande utilisés lors de la recherche.
AUTRES COMMUTATEURS -- répertorie les commutateurs qui ne s'appliquent pas à la recherche ou à l'indexation.
À partir de Swish-e version 2.1, vous pouvez intégrer son moteur de recherche dans votre
applications. S'il vous plaît voir SWISH-LIBRARY.
INDEXAGE
L'indexation Swish-e est initiée en passant commander en ligne arguments bruire. La commande
arguments de ligne utilisés pour recherche sont décrits dans RECHERCHE. Voir aussi SWISH-SEARCH pour
exemples de recherche avec Swish-e.
Utilisation de Swish-e :
swish-e [-i dir fichier ... ] [-c fichier] [-f fichier] [-l] \
[-v (num)] [-S méthode(fs⎪http⎪prog)] [-N chemin]
Le commutateur "-h" (aide) listera les arguments de ligne de commande Swish-e disponibles :
swish-e -h
En règle générale, la plupart, sinon tous les paramètres d'indexation sont placés dans un fichier de configuration (spécifié
avec le commutateur "-c"). Une fois le fichier de configuration configuré, l'indexation est lancée en tant que :
swish-e -c /chemin/vers/config/fichier
Voir SWISH-CONFIG pour plus d'informations sur le fichier de configuration.
Note de sécurité : si le fichier binaire swish est nommé recherche rapide alors swish n'autorisera aucun
opération qui entraînerait l'écriture de swish dans le fichier d'index.
Lors de l'indexation, il peut être conseillé d'indexer sur un fichier temporaire, puis après l'indexation
a terminé avec succès renommer le fichier à l'emplacement final. C'est surtout
important lors du remplacement d'un index en cours d'utilisation.
swish-e -c swish.config -f index.tmp
[vérifiez le code de retour de swish ou recherchez err: output]
mv index.tmp index.swish-e
Indexage Command Gamme Arguments
-i *répertoires et/ou fichiers* (fichier d'entrée)
Ceci spécifie les répertoires et/ou fichiers à indexer. Les répertoires seront indexés
récursivement. Ceci est généralement spécifié dans le fichier de configuration avec le Répertoire d'index
directive au lieu de sur la ligne de commande. L'utilisation de ce commutateur annule le
paramètres du fichier de configuration.
-S [fs⎪http⎪prog] (source du document/mode d'accès)
Ceci spécifie la méthode à utiliser pour accéder aux documents à indexer. Peut être soit "fs"
pour l'indexation locale via le système de fichiers (par défaut), "http" pour spidering, ou "prog"
pour lire des documents à partir d'un programme externe.
Situé dans le répertoire "conf" sont des exemples de fichiers de configuration qui montrent
indexation avec les différentes méthodes de source du document.
Voir le SWISH-FAQ pour une discussion sur les différentes méthodes d'indexation, et le
différence entre spidering avec la méthode http et utiliser la méthode du système de fichiers.
fs - système de fichiers
La méthode "fs" lit simplement les fichiers à partir d'un lecteur local (ou en réseau). C'est le
méthode par défaut si le commutateur "-S" n'est pas spécifié. Voir SWISH-CONFIG pour
directives de configuration spécifiques à la méthode "fs".
http - spider un serveur web
La méthode "http" est utilisée pour les serveurs web spider. Il utilise un assistant inclus
programme appelé araignée. Voir SWISH-CONFIG pour les directives de configuration
spécifique à la méthode "http".
Note de sécurité : sous Windows, swish transmet les URL récupérées à partir de documents distants
à travers la coque (swish utilise le système() commande pour exécuter araignée sous
Windows), ce qui peut être considéré comme un risque de sécurité supplémentaire.
La méthode "http" est déconseillée (ou du moins pas très appréciée). Envisager
en utilisant la méthode "prog" décrite ci-dessous pour le spidering. Il y a un programme d'araignée
disponible dans le programme-bin répertoire à utiliser avec la méthode "prog". Voici un
nombre de limitations avec cette méthode qui sont résolues avec la méthode "prog":
* swishspider uniquement des liens standard d'araignées . Cadres et autres
les liens ne sont pas suivis.
* Par défaut, cette méthode de spidering n'indexe que les fichiers qui ont un contenu
type de "text/*" (par exemple text/plain, text/html, text/xml). Tu devrais utiliser
"DefaultContents" et "IndexContents" pour mapper les extensions de fichiers aux parseurs utilisés
par swish (par exemple "IndexContents HTML* .html .htm"), mais cela échouera lorsqu'un
le document n'a pas d'extension de fichier.
* La directive "FileFilter" de Swish-e peut être utilisée avec la méthode d'accès "http",
bien qu'il nécessite un processus séparé (en plus du swsihspider
processus) pour chaque document filtré.
* Les modules SWISH::Filter peuvent être utilisés avec le programme swishspider.
SWISH::Filter fournit un système de filtrage à usage général (voir SWISH::Filter
Documentation). Pour utiliser SWISH::Filter, définissez PERL5LIB pour qu'il pointe vers l'emplacement de
l'espace de nom du module SWISH (typiquement /usr/local/lib/swish-e sous Unix).
Par exemple :
export PERL5LIB=/usr/local/lib/swish-e # bash, shells bourne
setenv PERL5LIB /usr/local/lib/swish-e # csh, tcsh
ou sous Windows
définir PERL5LIB=c:\program files\swish-e2.4\lib\swish-e
SWISH::Filter n'est pas activé par défaut en raison de la surcharge de chargement du
modules pour chaque document récupéré.
La distribution Swish-e inclut des modules perl dans SWISH::Filters::*
espace de noms pour convertir des documents non textuels dans un format que Swish-e peut
analyser facilement. Comme mentionné ci-dessus, le script d'aide araignée utilisera ces
modules si peut être trouvé via PERL5LIB. Ces modules ne fournissent qu'une interface
aux programmes qui font la conversion. Par exemple, vous devrez télécharger
et installez le programme "catdoc" pour convertir les documents MSWord en texte pour
indexage. S'il te plait regarde filtres/LISEZMOI pour voir comment utiliser ce système de filtrage.
prog - méthode d'accès à usage général
La méthode "prog" est une nouveauté de Swish-e version 2.2. Il est conçu comme un général
méthode de but pour alimenter des documents à swish à partir d'un programme externe.
Par exemple, le programme externe peut lire une base de données (par exemple MySQL), spider un web
serveur, ou convertir des documents d'un format à un autre (par exemple pdf en html). Ou,
vous pouvez simplement l'utiliser pour lire les fichiers du système de fichiers (comme "-S fs"), mais
vous offrent un contrôle total sur les fichiers indexés.
Le nom du programme externe à exécuter est transmis à swish soit par IndexDir
directive, ou via l'option "-i".
Le programme spécifié doit être un chemin absolu car swish-e tentera de stat ()
le programme pour s'assurer qu'il existe. Swish fait cela pour aider à signaler les erreurs.
Si le programme spécifié avec -i ou IndexDir n'est pas un chemin absolu (c'est-à-dire
n'incluez pas "/" ) alors swish-e ajoutera le répertoire "libexecdir" défini
lors de la configuration. En règle générale, libexecdir est défini sur "$prefix/lib/swish-e"
(/usr/local/lib/swish-e), mais dépend de la plate-forme et de l'installation. Fonctionnement
swish-e -h signalera le répertoire.
Par exemple, le programme -S prog "spider.pl" est un programme d'assistance Perl à utiliser avec
-S prog et est installé dans libexecdir.
IndexDir spider.pl
SwishProgParameters par défaut http://localhost/index.html
et swish-e trouvera spider.pl dans libexecdir.
Des paramètres supplémentaires peuvent être transmis au programme externe via le
Directive SwishProgParameters. Dans l'exemple ci-dessus, swish-e passera deux
paramètres à spider.pl, "default" et "http://localhost/index.html".
Un nom spécial "stdin" peut être utilisé avec "-i" ou IndexDir qui indique à swish de lire
à partir d'une entrée standard au lieu d'un programme externe. Voir exemple ci-dessous.
Le programme externe imprime sur la sortie standard (qui capture par swish) un ensemble de
en-têtes suivis du contenu du fichier à indexer. La sortie ressemble à
un message électronique ou un document HTTP renvoyé par un serveur Web en ce qu'il comprend
paires nom/valeur d'en-têtes, une ligne vide et le contenu.
La longueur du contenu est déterminée par un en-tête de longueur de contenu fourni à swish par
le programme; il n'y a pas de caractère ou d'indicateur de « fin d'enregistrement » envoyé entre les documents.
Par conséquent, il est essentiel que l'en-tête de longueur de contenu soit correct. C'est un
source commune d'erreurs.
Un avantage de cette méthode (par rapport à l'utilisation de filtres, par exemple) est que le
programme externe est exécuté une seule fois pour l'ensemble du travail d'indexation, au lieu d'une fois pour
chaque document. Cela évite de bifurquer et de créer un nouveau processus pour chaque
document, et fait une énorme différence lorsque votre programme externe est quelque chose comme
perl qui a un coût de démarrage important.
Voici un exemple simple écrit en Perl :
#!/usr/local/bin/perl-w
utiliser strict;
# Construire un document
mon $doc = <
Titre du document
C'est le texte.
EOF
# Préparez les en-têtes pour swish
my $path = 'Example.file';
ma $taille = longueur $doc;
mon $mtime = heure;
# Sortir le document (à swish)
imprimer <
Nom du chemin : $path
Contenu-Longueur : $taille
Dernière-Mtime : $mtime
Type de document : HTML*
EOF
imprimer $doc ;
Le programme externe passe à swish un en-tête. L'en-tête est séparé du
corps du document avec une ligne vierge. Les en-têtes disponibles sont :
Nom du chemin :
Il s'agit du nom du fichier que vous indexez. Cela peut être n'importe quelle chaîne, donc pour
par exemple, il peut s'agir d'un identifiant d'enregistrement dans une base de données, d'une URL ou d'un simple fichier
nom.
Cet en-tête est obligatoire.
Contenu Longueur:
Cet en-tête spécifie la longueur en octets du document qui suit le
entête. Cette longueur doit être exactement la longueur du document -- ne faites pas
l'erreur d'ajouter un saut de ligne supplémentaire à la fin du document.
Cet en-tête est obligatoire.
Dernière-Mtime :
Ce paramètre est l'heure de la dernière modification du fichier, et doit être une heure
tampon (secondes depuis l'époque sur votre plate-forme).
Cet en-tête n'est pas obligatoire.
Type de document:
Vous pouvez outrepasser la détermination de swish du type de document ("Indexcontents") en
en utilisant l'en-tête « Type de document : ». Le type de document est utilisé pour sélectionner
analyseur que Swish-e utilise pour analyser le contenu du document.
Par exemple, un programme spider peut mapper le type de contenu renvoyé par un site Web.
serveur à l'un des types que Swish-e comprend. Par exemple,
my $doc_type = 'HTML*' if $response->content_type =~ m!text/html!'
Cet en-tête n'est pas obligatoire.
Mode de mise à jour :
Lors de la mise à jour d'un index incrémentiel, cet en-tête peut être utilisé pour sélectionner le mode
pour mettre à jour l'index. Il y a trois valeurs possibles :
Mises à jour
Effacer
Sommaire
"Update" mettra à jour l'index avec le fichier donné si la date de la donnée
fichier est plus récent que la date du fichier déjà dans l'index. Réglage sur
"Mettre à jour" revient à utiliser -u sur la ligne de commande.
Le mode "Supprimer" supprimera le fichier spécifié par l'en-tête Path-Name. Réglage
"Supprimer" revient à utiliser -r sur la ligne de commande.
"Index" ajoutera le fichier à l'index. REMARQUE : swish-e ne vérifiera pas si
le fichier existe déjà.
Si cet en-tête n'est pas spécifié, la valeur par défaut est le mode spécifié sur le
ligne de commande (-u, -r ou aucun).
Cette option est encore expérimentale et est susceptible d'être modifiée à l'avenir. Interroger
sur la liste Swish-e avant utilisation.
L'exemple de programme ci-dessus ne renvoie qu'un seul document et se termine, ce qui n'est pas très
utile. Normalement, votre programme lirait des données à partir d'une source, telle que des fichiers ou
une base de données, au format XML, HTML ou texte, et transmettez-les à swish, un après
un autre. L'en-tête "Content-Length:" indique à swish où se termine chaque document --
il n'y a pas de caractère ou de marqueur spécial de "fin d'enregistrement".
Pour indexer avec l'exemple ci-dessus, vous devez vous assurer que le programme est
exécutable (et que le chemin vers perl est correct), puis appelez swish en disant à
exécuté en mode "prog", et le nom du programme à utiliser en entrée.
% chmod 755 exemple.pl
% ./swish-e -S prog -i ./example.pl
Les programmes peuvent et doivent être testés avant d'exécuter swish. Par exemple:
% ./exemple.pl > test.out
Quelques exemples de programmes plus utiles sont fournis dans la distribution swish-e
situé dans le programme-bin annuaire. Certains incluent de la documentation :
% cd prog-bin
% perldoc spider.pl
D'autres sont de petits exemples qui incluent des commentaires :
% cd prog-bin
% moins DirTree.pl
Votre araignée.pl programme peut être utilisé en remplacement du -S http méthode. Il est
beaucoup plus riche en fonctionnalités et offre beaucoup plus de contrôle sur l'indexation.
Si vous utilisez le nom de programme spécial "stdin" avec "-i" ou IndexDir alors swish-e
lira à partir d'une entrée standard au lieu d'un programme. Par exemple:
% ./example.pl --count=1000 /chemin/vers/données ./swish-e -S prog -i stdin
C'est fondamentalement la même chose que d'utiliser un fichier de configuration swish-e de :
SwishProgParameters --count=1000 /chemin/vers/données
IndexDir ./exemple.pl
dans un fichier de configuration et en cours d'exécution
% ./swish-e -S prog -c swish.conf
Cela donne un moyen facile d'exécuter swish sans fichier de configuration avec un "-S prog"
programme qui nécessite des paramètres. Cela signifie également que vous pouvez capturer des données dans un fichier
puis indexer plusieurs fois avec les mêmes données :
% ./example.pl /chemin/vers/données --count=1000 > docs.txt
% cat docs.txt ⎪ ./swish-e -S prog -i stdin -c normal_index
% cat docs.txt ⎪ ./swish-e -S prog -i stdin -c fuzzy_index
L'utilisation de "stdin" peut également être utile pour les programmes qui appellent swish (au lieu de swish
appeler le programme).
(La raison pour laquelle "stdin" est utilisé au lieu du tiret "-" plus courant est due au
Rotten way swish analyse la ligne de commande. Cela devrait être corrigé à l'avenir.)
La méthode "prog" contourne certains des paramètres de configuration disponibles pour le
méthode du système de fichiers -- paramètres tels que "IndexOnly", "FileRules", "FileMatch" et
Les "FollowSymLinks" sont ignorés lors de l'utilisation de la méthode "prog". On s'attend à ce que
ces opérations sont mieux accomplies dans le programme externe avant de passer
le document sur swish. En d'autres termes, lors de l'utilisation de la méthode "prog", n'envoyez que
les documents à swish que vous souhaitez indexer.
Vous pouvez utiliser la fonction de filtrage de swish avec la méthode "prog", mais les performances seront
mieux si vous exécutez des programmes de filtrage à partir de votre programme externe. Voir également
filtres/LISEZMOI pour un exemple comment ajouter facilement la conversion et le filtrage de documents
dans vos programmes basés sur Perl.
Remarques quand en utilisant -S prog on MS Windows
Windows n'utilise pas la ligne shebang (#!) d'un programme pour déterminer le programme
courir. Ainsi, lors de l'exécution, par exemple, d'un programme perl, vous devrez peut-être spécifier le
binaire perl.exe en tant que programme, et utilisez les "SwishProgParameters" pour nommer le
fichier.
IndexDir e:/perl/bin/perl.exe
SwishProgParameters read_database.pl
Swish remplacera les barres obliques par des barres obliques inverses avant d'exécuter la commande
spécifié avec "IndexDir". Swish utilise le pope(3) commande qui passe le
commande via le shell.
-f *fichier index* (fichier index)
Si vous indexez, cela spécifie le fichier dans lequel enregistrer l'index généré, et vous
ne peut spécifier qu'un seul fichier. Voir également Fichier d'index dans le fichier de configuration.
Si vous effectuez une recherche, cela spécifie les fichiers d'index (un ou plusieurs) à partir desquels rechercher. Les
le fichier d'index par défaut est index.swish-e dans le répertoire courant.
-c *fichier ...* (fichiers de configuration)
Spécifiez le(s) fichier(s) de configuration à utiliser pour l'indexation. Ce fichier contient plusieurs
directives qui contrôlent la façon dont Swish-e procède. Voir SWISH-CONFIG pour une liste complète
des directives du fichier de configuration.
Mise en situation :
swish-e -c docs.conf
Si vous spécifiez un répertoire à indexer, un fichier d'index ou l'option détaillée sur le
ligne de commande, ces valeurs remplaceront celles spécifiées dans le fichier de configuration.
Vous pouvez spécifier plusieurs fichiers de configuration. Par exemple, vous pouvez en avoir un
fichier de configuration qui a des paramètres communs à l'ensemble du site, et un autre pour un
indice.
Exemples :
1) swish-e -c swish-e.conf
2) swish-e -i /usr/local/www -f index.swish-e -v -c swish-e.conf
3) swish-e -c swish-e.conf stopwords.conf
1 Les paramètres du fichier de configuration seront utilisés pour indexer un site.
2 Ces options de ligne de commande remplaceront tout élément du fichier de configuration.
3 Les variables dans swish-e.conf seront lues, puis la variable dans stopwords.conf
sera lu. Notez que si les mêmes variables apparaissent dans les deux fichiers, les anciennes valeurs
peut être écrasé.
-e (mode économique)
Pour les grands sites, l'indexation peut nécessiter plus de RAM que ce qui est disponible. Le commutateur "-e"
indique à swish d'utiliser l'espace disque pour stocker les structures de données lors de l'indexation, économisant ainsi de la mémoire.
Cette option est recommandée si swish utilise tellement de RAM que l'ordinateur commence à échanger
excessivement et vous ne pouvez pas augmenter la mémoire disponible. Le compromis est légèrement
des temps d'indexation plus longs et un lecteur de disque occupé.
-l (liens symboliques)
Spécifier cette option indique à swish de suivre les liens symboliques lors de l'indexation. Les
valeur du fichier de configuration SuivreSymLinks remplacera la valeur de la ligne de commande.
La valeur par défaut est de ne pas suivre les liens symboliques. Une petite amélioration du temps d'indexation de mon résultat
d'activer FollowSymLinks car swish n'a pas besoin de déclarer chaque répertoire et
fichier traité pour déterminer s'il s'agit d'un lien symbolique.
-N chemin (indexer uniquement les fichiers les plus récents)
L'option "-N" prend un chemin vers un fichier, et seuls les fichiers Plus récent que le fichier spécifié
sera indexé. Ceci est utile pour créer des index incrémentiels, c'est-à-dire des index
qui contiennent uniquement les fichiers ajoutés depuis la création du dernier index complet de tous les fichiers.
Exemple (mauvais exemple)
swish-e -c config.file -N index.swish-e -f index.new
Cela indexera normalement, mais uniquement les fichiers dont la date de modification est plus récente que
index.swish-e sera indexé.
C'est un mauvais exemple car il utilise index.swish-e que l'on pourrait supposer était le
date de la dernière indexation. Le problème est que des fichiers ont peut-être été ajoutés entre le
indexation de temps lire le répertoire et quand le index.swish-e fichier a été créé -- qui
peut prendre beaucoup de temps pour les très gros travaux d'indexation.
La seule solution est d'empêcher tout nouvel ajout de fichier pendant l'exécution de l'indexation complète.
Si cela est impossible, il vaudra légèrement mieux faire ceci :
Indexation complète :
toucher indexing_time.file
swish-e -c fichier de configuration -f index.tmp
mv index.tmp index.full
Indexation incrémentale :
swish-e -c config.file -N indexing_time.file -f index.tmp
index mv.index tmp.incrémental
Ensuite, recherchez avec
swish-e -w foo -f index.full index.incremental
ou fusionner les index
swish-e -M index.full index.incremental index.tmp
mv index.tmp index.swish-e
swish-e -w foo
-r **incrémentale indice le format seul** L'option "-r" met swish-e en mode "suppression".
Tous les fichiers d'entrée (donnés avec "-i" ou le paramètre "IndexDir") sont supprimés d'un
indice existant.
Mise en situation :
swish-e -r -i fichier.html
supprimerait fichier.html de l'index existant.
-u **incrémentale indice le format seul** L'option "-u" met swish-e en mode "mise à jour". Les
l'horodatage de chaque fichier d'entrée est comparé au fichier correspondant dans le
indice existant. Si swish-e rencontre un fichier d'entrée qui n'existe pas encore dans
l'index ou existe avec un horodatage plus ancien que le fichier d'entrée, le fichier d'entrée est
mis à jour dans l'index. Tous les mots du fichier d'entrée qui ont été ajoutés ou supprimés sont
reflétée comme telle dans l'indice.
Mise en situation :
swish-e -i fichier.html -u
mettrait à jour l'index index.swish-e avec le contenu de file.html. Si fichier.html était
nouveau, il serait ajouté. Si file.html existait déjà dans l'index, son contenu serait
être mis à jour dans l'index.
-v [0⎪1⎪2⎪3] (niveau de verbosité)
L'option "-v" peut prendre une valeur numérique de 0 à 3. Spécifiez 0 pour complètement
fonctionnement silencieux et 3 pour les rapports détaillés.
Si aucune valeur n'est donnée, alors 1 est supposé. Voir également IndexRapport dans la configuration
fichier.
Les avertissements et les erreurs sont signalés quel que soit le niveau de verbosité. De plus, tout
les erreurs et les avertissements sont écrits sur la sortie standard. C'est pour des raisons historiques (beaucoup
il existe des scripts qui analysent les messages d'erreur standard).
-W (0⎪1⎪2⎪3) (niveau d'avertissement de l'analyseur)
Si vous utilisez l'analyseur libxml2, le niveau d'avertissement par défaut de l'analyseur est défini sur 2. Utilisez le
Option "-W" pour remplacer cette valeur par défaut. Le plus souvent, vous voudrez peut-être le désactiver
tout à fait:
swish-e -W0 -i chemin/vers/fichiers
échouerait silencieusement si l'analyseur rencontrait des erreurs.
RECHERCHE
Les arguments de ligne de commande suivants sont disponibles lors de la recherche avec Swish-e. Ces
les commutateurs sont utilisés pour sélectionner l'index à rechercher, les champs à rechercher, et comment et quoi
à imprimer comme résultats.
Cette section répertorie simplement les arguments de ligne de commande disponibles et leur utilisation. S'il te plait regarde
SWISH-SEARCH pour des instructions de recherche détaillées.
Avertissement: Si vous utilisez Swish-e via une interface CGI, veuillez consulter CGI Danger!
Note de sécurité : si le fichier binaire swish est nommé recherche rapide alors swish n'autorisera aucun
opération qui entraînerait l'écriture de swish dans le fichier d'index.
Recherche Command Gamme Arguments
-w *mot1 mot2 ...* (mots de requête)
Ceci effectue une recherche insensible à la casse en utilisant un certain nombre de mots-clés. Si aucun fichier d'index
rechercher est spécifié (via le commutateur "-f"), swish-e essaiera de rechercher un fichier appelé
index.swish-e dans le répertoire courant.
swish-e -w mot
La recherche d'expression s'effectue en plaçant le délimiteur de guillemets (un guillemet double par
par défaut) autour de la phrase de recherche.
swish-e -w 'mot ou "cette phrase"'
La recherche devrait être protégée du shell par des guillemets. Typiquement, c'est simple
guillemets lors de l'exécution sous Unix.
Sous Windows command.com vous n'aurez peut-être pas besoin d'utiliser des guillemets, mais vous devrez
barre oblique inverse les guillemets utilisés pour délimiter les phrases :
swish-e -w \"une phrase\"
Le délimiteur de phrase peut être réglé avec le commutateur "-P".
La recherche peut être limitée à un Nom Meta. Par exemple:
swish-e -w meta1=(foo ou baz)
ne cherchera que dans le meta1 Étiquette.
Veuillez consulter SWISH-SEARCH pour une description des MetaNames
-f *fichier1 fichier2 ...* (fichiers d'index)
Spécifie le ou les fichiers d'index utilisés lors de la recherche. Plusieurs fichiers peuvent être répertoriés,
et chaque fichier sera recherché. Si aucun commutateur "-f" n'est spécifié, le fichier
index.swish-e dans le répertoire courant sera utilisé comme fichier d'index.
-m *nombre* (résultats max)
Lors de la recherche, cela spécifie le nombre maximum de résultats à renvoyer. Le défaut
est de retourner tous les résultats.
Ce commutateur est souvent utilisé en conjonction avec le commutateur "-b" pour renvoyer les résultats un
page à la fois (fortement recommandé pour les grands index).
-b *nombre* (résultat de début)
Définit le au début résultat de la recherche à retourner (les enregistrements sont numérotés à partir de 1). Ce commutateur
peut être utilisé avec le commutateur "-m" pour renvoyer les résultats dans des groupes ou des pages.
Mise en situation :
swish-e -w 'mot' -b 1 -m 20 # première 'page'
swish-e -w 'mot' -b 21 -m 20 # seconde 'page'
-t HBthec (recherche contextuelle)
L'option "-t" vous permet de rechercher des mots qui n'existent que dans des balises HTML spécifiques.
Chaque caractère de la chaîne que vous spécifiez dans l'argument de cette option représente un
balise différente dans laquelle rechercher le mot. H signifie toutes les balises HEAD, B signifie
Balises BODY, t est toutes les balises TITLE, h est les balises H1 à H6 (en-tête), e est les balises accentuées
(cela peut être B, I, EM ou STRONG), et c est des balises de commentaire HTML
recherche uniquement dans l'en-tête ( ) Mots clés
swish-e -w mot -th
-d *chaîne* (délimiteur)
Définissez le délimiteur utilisé lors de l'impression des résultats. Par défaut, Swish-e sépare les
champs de sortie par un espace et place des guillemets autour du titre du document. Cette
la sortie peut être difficile à analyser, il est donc recommandé d'utiliser "-d" pour spécifier un caractère
ou chaîne utilisée comme séparateur entre les champs.
La chaîne "dq" signifie "guillemets doubles".
swish-e -w mot -d , # seul caractère
swish-e -w mot -d :: # chaîne
swish-e -w word -d '"' # guillemets doubles sous Unix
swish-e -w word -d \" # guillemets doubles sous Windows
swish-e -w mot -d dq # guillemets doubles
Les caractères de contrôle suivants peuvent également être spécifiés : "\t \r \n \f".
Avertissement : Cette chaîne est transmise directement à sprintf() et expose donc une sécurité
trou. N'autorisez pas les données utilisateur à définir directement les chaînes de format -d.
-P *personnage*
Définit le délimiteur utilisé pour les recherches de phrases. La valeur par défaut est les guillemets doubles """.
Quelques exemples sous bash : (attention aux métacaractères du shell)
swish-e -P ^ -w 'title=^mots in a phrase^'
swish-e -P \' -w "title='mots in a pharse"'
-p *propriété1 propriété2 ...* (afficher les propriétés)
Cela oblige swish à imprimer la propriété répertoriée dans les résultats de la recherche. Les propriétés
sont renvoyés dans l'ordre dans lequel ils sont répertoriés dans l'argument "-p".
Les propriétés sont définies par le Noms propres directive dans le fichier de configuration (voir
SWISH-CONFIG) et les propriétés doivent également être définies dans Métanoms. Swish stocke le texte
du méta-nom en tant que propriété, puis renverra ce texte lors de la recherche si cela
option est utilisée.
Les propriétés sont très utiles pour renvoyer des données incluses dans un documnet source sans
avoir à relire le document source pendant la recherche. Par exemple, cela pourrait être
utilisé pour renvoyer une brève description du document. Voir aussi voir Documents Summers et
Noms de propriétés dans SWISH-CONFIG.
Pour renvoyer les propriétés du sujet et de la catégorie lors de l'indexation.
swish-e -w mot -p catégorie de sujet
Les propriétés sont renvoyées entre guillemets doubles. Si une propriété contient un guillemet double, elle
est HTML échappé ("). Voir le commutateur "-x" pour une méthode plus avancée de retour
une liste de propriétés.
REMARQUE : il est nécessaire d'avoir indexé avec la directive PropertyNames appropriée dans le
fichier de configuration utilisateur afin d'utiliser cette option.
-s *propriété [asc⎪desc] ...* (trier)
Normalement, les résultats de la recherche sont imprimés par ordre de pertinence, avec le plus pertinent
répertorié en premier. Le commutateur de tri "-s" vous permet de trier les résultats dans l'ordre d'un
propriété, Où une propriété a été défini à l'aide de la Métanoms et Noms de propriété
directives lors de l'indexation (voir SWISH-CONFIG).
La chaîne passée peut inclure les chaînes "asc" et "desc" pour préciser l'ordre de tri,
et plusieurs propriétés peuvent être spécifiées pour trier sur plusieurs clés.
Exemples :
trier par ordre croissant de propriété de titre
-s titre
trier par ordre décroissant par titre, par ordre croissant de nom
-s titre desc nom asc
Remarque : Swish limite les clés de tri à 100 caractères. Cette limite peut être modifiée en modifiant
MAX_SORT_STRING_LEN dans src/config.h et reconstruction de swish-e.
-L limite à une plage de valeurs de propriété (Limit)
Cette is an expérimental fonctionnalité puissante !
Le commutateur "-L" peut être utilisé pour limiter les résultats de la recherche à une plage de valeurs de propriété
Mise en situation :
swish-e -w foo -L swishtitle am
trouve tous les documents qui contiennent le mot "foo", et où se trouve le titre du document
la plage de "a" à "m", inclus. Par défaut, la casse de la propriété est ignorée,
mais cela peut être modifié en utilisant la directive de configuration PropertyNamesCompareCase.
La limitation peut également être effectuée avec des propriétés définies par l'utilisateur.
Par exemple, si vous avez indexé des documents contenant un horodatage créé dans une balise META :
Ensuite, vous dites à Swish que vous avez une propriété appelée "created_on", et que c'est un
horodatage.
PropertyNames Date de création_le
Après l'indexation, vous pourrez limiter les documents à une plage d'horodatages :
-w foo -L créé_sur 946684800 949363199
trouvera les documents contenant le mot foo et qui ont une date de création à partir du
du 1er janvier 2000 à la fin du 31 janvier 2000.
Remarque : actuellement, swish n'analyse pas les dates ; Les horodatages Unix doivent être utilisés.
Deux formats spéciaux peuvent être utilisés :
-L swishtitle <= m
-L swishtitle >= m
Trouve les titres inférieurs ou égaux, ou supérieurs ou égaux à la lettre "m".
Cette fonctionnalité ne fonctionnera pas avec les propriétés « swishrank » ou « swishdbfile ».
Cette fonctionnalité tire parti des tables pré-triées construites par swish lors de l'indexation
pour rendre cette fonctionnalité rapide lors de la recherche. Vous devriez voir dans la sortie d'indexation un
ligne telle que :
6 propriétés triées.
Cela indique que six tables pré-triées ont été créées lors de l'indexation. Par défaut, tout
les propriétés sont pré-triées lors de l'indexation. Quelles propriétés sont pré-triées peuvent être
contrôlé par le paramètre de configuration "PreSortedIndex".
L'utilisation du commutateur "-L" sur une propriété qui n'a pas été pré-triée fonctionnera toujours, mais peut
be beaucoup plus lent pendant la recherche.
Notez que le paramètre PropertyNamesSortKeyLength est utilisé pour trier les propriétés.
L'utilisation d'un PropertyNamesSortKeyLength trop petit peut entraîner la sélection par -L du mauvais
propriétés en raison d'un tri incomplet.
Il s'agit d'une fonctionnalité expérimentale, et son utilisation et son interface sont susceptibles de changer.
-x formatstring (format de sortie étendu)
Le commutateur "-x" définit la chaîne de format de sortie. La chaîne de format peut contenir plain
les noms de texte et de propriété (y compris les noms de propriété internes définis par swish) et est utilisé
pour générer la sortie pour chaque résultat. De plus, le format de sortie du
le nom de la propriété peut être contrôlé avec des chaînes de format printf de type C. Cette fonctionnalité
remplace les commutateurs de ligne de commande "-d" et "-p", et un avertissement sera généré si "-d"
ou "-p" sont utilisés avec "-x".
Avertissement : La chaîne de format (fmt) est directement transmise à sprintf() et expose donc
un trou de sécurité. N'autorisez pas les données utilisateur à définir directement les chaînes de format -x.
Par exemple, pour renvoyer uniquement le titre, un par ligne, dans les résultats de la recherche :
swish-e -w ... -x ' \n'...
Remarque : le "\n" peut avoir besoin d'être protégé depuis votre shell.
Voir aussi ResultExtFormatName pour un moyen de définir nommé formater les chaînes dans le swish
fichier de configuration.
Format of "chaîne de format":
"texte texte texte..."
Où nom de la propriété est:
* le nom d'une propriété utilisateur comme spécifié avec la directive de fichier de configuration
"Noms des propriétés"
* le nom d'une propriété swish Auto (voir ci-dessous). Ces propriétés sont définies
automatiquement par swish -- vous n'avez pas besoin de les spécifier avec PropertyNames
directif. (Cela peut changer à l'avenir.)
les noms de propriétés doivent être placés entre "<" et ">".
Utilisateur Propriétés:
Swish-e vous permet de spécifier certaines balises META dans vos documents qui peuvent être utilisées
as document propriétés. Le contenu de toute balise META identifiée comme
La propriété du document peut être renvoyée dans le cadre des résultats de la recherche. Propriétés du document
doit être défini lors de l'indexation à l'aide de la Noms de propriété directive de configuration (voir
SWISH-CONFIG).
Exemples de PropertyNames définis par l'utilisateur :
Voiture Propriétés:
Swish définit un certain nombre de propriétés "Auto" pour chaque document indexé. Ceux-ci sont
disponible pour la sortie lors de l'utilisation du format "-x".
Nom Type Contenu
-------------- ------- ----------------------------- -----------------
swishreccount Entier Compteur d'enregistrements de résultats
swishtitle Chaîne Titre du document
swishrank Entier Classement des résultats pour ce hit
swishdocpath String URL ou chemin de fichier vers le document
swishdocsize Entier Taille du document en octets
swishlastmodified Date Date de dernière modification du document
swishdescription Chaîne Description du document (voir:StoreDescription)
swishdbfile Chaîne Chemin du fichier d'index de la base de données swish
Les propriétés automatiques peuvent également être spécifiées à l'aide de raccourcis :
Nom de la propriété du raccourci
-------- --------------
%c compte swish
%d description swish
%D dernier changement modifié
%Je swishdbfile
%p chemin swishdoc
%r swishrank
%l swishdocsize
%t titre swish
Par exemple, ceux-ci sont équivalents :
-X ' : : \n'
-x '%r:%p:%t\n'
Utilisez un signe de pourcentage double "%%" pour entrer un signe de pourcentage littéral dans la sortie.
Chaînes de format of Propriétés:
Les propriétés répertoriées dans une chaîne de format "-x" peuvent inclure des chaînes de contrôle de format. Ces
"propertyformats" sont utilisés pour contrôler la façon dont le contenu de la propriété associée est
imprimé. Les formats de propriétés sont utilisés comme les formats printf en langage C. La propriété
le format est spécifié en incluant l'attribut "fmt" dans la balise de propriété.
Les chaînes de format ne peuvent pas être utilisées avec les raccourcis "%" décrits ci-dessus.
Syntaxe générale :
-X ' '
où "subfmt" contrôle le format de sortie de "propertyname".
Exemples de chaînes de format de propriété :
type de date :
type de chaîne :
type entier :
Veuillez consulter les pages de manuel pour strftimede Géographie (3) et avec la sprintf(3) pour une explication de
chaînes de format. Remarque : certaines versions de strftime n'offrent pas la chaîne de format %s
(nombre de secondes depuis l'époque), donc swish fournit une chaîne de format spécial "%ld"
pour afficher le nombre de secondes depuis l'époque.
Le premier caractère d'une chaîne de format de propriété définit le délimiteur du format
chaîne de caractères. Par exemple,
-X " ...\n"
-X " ...\n"
-X " ...\n"
Standard prédéfini formats:
Si vous omettez le sous-format, les formats suivants sont utilisés :
Type de chaîne : "%s" (comme printf char *)
Type entier : "%d" (comme printf int)
Type flottant : "%f" (comme printf double)
Type de date : "%Y-%m-%d %H:%M:%S" (comme strftime)
Texte in "chaîne de format" or "propfmtstr":
Le texte sera sorti tel quel dans des chaînes de format (et des chaînes de format de propriété). Spécial
les caractères peuvent être échappés avec une barre oblique inverse. Pour obtenir une nouvelle ligne pour chaque résultat obtenu,
vous devez inclure le caractère de nouvelle ligne "\n" à la fin de "fmtstr".
-X " ?? ?? \n"
-x "Compte= , Rang= \n"
-x "Titre=\ \ "
-x 'Date : \n'
-x 'Date en secondes : \n'
Contrôle/Échappement personnages :
vous pouvez utiliser des échappements de contrôle de type C dans la chaîne de format :
contrôles connus : \a, \b, \f, \n, \r, \t, \v,
chiffres d'échappement : \xhexdigits \0octaldigits
caractères d'échappement : \anychar
Exemple,
swish -x "%c\t%r\t%p\t\" \"\n"
Exemples of -x le format chaînes :
-x "%c⎪%r⎪%p⎪%t⎪%D⎪%d\n"
-x "%c⎪%r⎪%p⎪%t⎪ %d\n"
-X " \t \t \t \n
-x "xml_out : \ \>\ \n"
-x "xml_out : %s'> \n"
-H [0⎪1⎪2⎪3⎪ ] (verbosité de sortie d'en-tête)
Le commutateur "-H n" génère des entête sortir. Ceci est très utile lors de la recherche
plus d'un fichier d'index à la fois en spécifiant plus d'un fichier d'index avec le
commutateur "-f". "-H 2" va générer un ensemble d'en-têtes spécifiques à chaque fichier d'index. Cette
donne accès aux paramètres utilisés pour générer chaque fichier d'index.
Même lors de la recherche d'un seul fichier d'index, "-H n" fournira des informations supplémentaires
sur le fichier d'index, comment il a été indexé et comment swish interprète la requête.
-H 0 : n'affiche aucune information d'en-tête, affiche uniquement les entrées de résultat de recherche.
-H 1 : imprime l'en-tête de résultat standard (par défaut).
-H 2 : affiche des informations d'en-tête supplémentaires pour chaque fichier d'index recherché.
-H 3 : sortie d'en-tête améliorée (par exemple, imprimer des mots vides).
-H 9 : imprime les informations de diagnostic dans l'entête des résultats (changé de : C<-v 4>)
-R [0⎪1] (Schéma de classement)
Cette is an expérimental fonctionnalité puissante !
Le système de classement par défaut de SWISH-E évalue chaque mot d'une requête en fonction de son
fréquence et position dans chaque document. Le schéma par défaut est 0.
Nouveau dans la version 2.4.3, vous pouvez éventuellement sélectionner un système de classement expérimental qui, dans
en plus de la fréquence et de la position du document, utilise la fréquence inverse du document (IDF), ou
la fréquence relative de chaque mot dans tous les index recherchés, et
Densité relative, ou la normalisation de la fréquence d'un mot par rapport à
le nombre de mots du document.
NOTE: IgnoreTotalWordCountWhenRanking doit être défini sur aucune or 0 dans vos index pour -R
1 pour travailler.
Spécifiez -R 1 pour activer le classement IDF. Consultez la documentation de l'API pour savoir comment définir le
système de classement dans votre programme Perl ou C.
AUTRES INTERRUPTEURS
-V (version)
Imprimer la version actuelle.
-k *lettre* (imprimer les mots-clés)
Le commutateur "-k" est utilisé pour les tests et entraînera l'impression par swish de tous les mots-clés dans
l'index commençant par cette lettre. Vous pouvez entrer "-k '*'" pour générer une liste de
tous les mots indexés par swish.
-D *fichier d'index* (index de débogage)
L'option -D n'est plus prise en charge dans la version 2.2.
-T *options* (traçage/débogage swish)
L'option -T est utilisée pour imprimer des informations qui peuvent être utiles lors du débogage
l'opération de swish-e. Cette option a remplacé l'option "-D" des versions précédentes.
L'exécution de "-T help" imprimera une liste des *options* disponibles
Fusion Sommaire Fichiers
Dans les versions précédentes de Swish-e, l'indexation nécessitait une très grande quantité de mémoire et
le processus d'indexation peut être très lent. La fusion a fourni un moyen d'indexer en morceaux et
puis combinez les index en un seul index.
L'indexation est beaucoup plus rapide maintenant et utilise beaucoup moins de mémoire, et avec le commutateur "-e" très
peu de mémoire est nécessaire pour indexer un site volumineux.
Néanmoins, il peut parfois être utile de fusionner différents fichiers d'index en un seul fichier pour
recherche. Cela peut être dû au fait que vous souhaitez conserver des index de site séparés et un index commun
pour une recherche globale, ou vous avez des collections séparées de documents que vous souhaitez rechercher
tout en même temps, mais gérer séparément.
-M *index1 index2 ... indexN out_index
Fusionne les index spécifiés sur la ligne de commande -- le dernier nom de fichier entré est le
fichier de sortie. L'index de sortie ne doit pas exister (sinon la fusion ne se poursuivra pas).
Seuls les index indexés avec des paramètres communs peuvent être fusionnés. (par exemple ne pas mélanger
des index avec et sans racine, ou des index avec des paramètres WordCharacter différents,
etc).
Utilisez le commutateur "-e" lors de la fusion pour réduire l'utilisation de la mémoire.
La fusion génère des messages de progression quel que soit le paramètre de "-v".
-c *fichier de configuration*
Spécifiez un fichier de configuration lors de l'indexation pour ajouter des informations administratives au
fichier d'index de sortie.
Documents Info
$Id : SWISH-RUN.pod 1741 2005-05-17 02:22:40Z karman $
.
Utilisez SWISH-RUN en ligne en utilisant les services onworks.net