Este é o indexador de comandos que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
indexer - gerador de índice de texto completo Sphinxsearch
SINOPSE
indexador [--config CONFIGURAR] [--rotate] [--noprogress | --quiet] [--todos | ÍNDICE | ...]
indexador --buildstops ARQUIVO DE SAÍDA CONTAGEM [--config CONFIGURAR] [--noprogress | --quieto]
[--todos | ÍNDICE | ...]
indexador --mesclar MAIN_INDEX DELTA_INDEX [--config CONFIGURAR] [--girar] [--noprogress |
--quieto]
DESCRIÇÃO
Sphinx é uma coleção de programas que visa fornecer pesquisa de texto completo de alta qualidade.
indexador é a primeira das duas ferramentas principais como parte do Sphinx. Chamado de
linha de comando diretamente ou como parte de um script maior, indexador é o único responsável por
coleta de dados que serão pesquisáveis.
A sintaxe de chamada do indexador é a seguinte:
$ indexador [OPÇÕES] [nomedoíndice1 [nomedoíndice2 [...]]]
Essencialmente, você listaria os diferentes índices possíveis (que você faria mais tarde
disponível para pesquisa) em sphinx.conf, portanto, ao chamar indexador, no mínimo você precisa ser
informando qual índice (ou índices) você deseja indexar.
Se sphinx.conf contiver detalhes em 2 índices, meubigindex e mysmallindex, você poderia fazer
o seguinte:
$ indexador mybigindex
$ indexador mysmallindex mybigindex
Como parte do arquivo de configuração, sphinx.conf, você especifica um ou mais índices para o seu
dados. Você pode ligar indexador para reindexar um deles, ad-hoc, ou você pode instruí-lo a processar
todos os índices - você não está limitado a chamar apenas um, ou todos de uma vez, você sempre pode escolher
alguma combinação dos índices disponíveis.
OPÇÕES
A maioria das opções para indexador são fornecidos no arquivo de configuração, no entanto,
são algumas opções que você pode precisar especificar na linha de comando também, pois podem afetar
como a operação de indexação é executada. Essas opções são:
--tudo
Diz indexador para atualizar todos os índices listados em sphinx.conf, em vez de listar
índices individuais. Isso seria útil em pequenas configurações, ou tipo cron ou
trabalhos de manutenção em que todo o conjunto de índices será reconstruído a cada dia, ou semana, ou
qualquer período é o melhor.
Exemplo de uso:
$ indexer --config /home/myuser/sphinx.conf --all
--buildstops arquivo de saída.txt NUM
Revisa a fonte do índice, como se estivesse indexando os dados, e produz uma lista de
termos que estão sendo indexados. Em outras palavras, ele produz uma lista de todos os pesquisáveis
termos que estão se tornando parte do índice. Observação; não atualiza o índice em
questão, ele simplesmente processa os dados 'como se' estivessem sendo indexados, incluindo a execução
consultas definidas com sql_query_pre or sql_query_post. outputfile.txt irá conter o
lista de palavras, uma por linha, classificada por frequência com a mais frequente primeiro, e NUM
especifica o número máximo de palavras que serão listadas; se suficientemente grande para
abranger todas as palavras do índice, apenas essa quantidade de palavras será retornada. Tal
lista de dicionário pode ser usada para recursos de aplicativos cliente em torno de "Você quis dizer ..."
funcionalidade, geralmente em conjunto com --buildfreqs, Abaixo.
Exemplo:
$ indexador myindex --buildstops word_freq.txt 1000
Isso produziria um documento no diretório atual, word_freq.txt com os 1,000
palavras mais comuns em 'myindex', ordenadas pela mais comum primeiro. Observe que o arquivo irá
pertencem ao último índice indexado quando especificado com vários índices ou --tudo (isto é,
o último listado no arquivo de configuração)
--buildfreqs
Usado em par com --buildstops (e é ignorado se --buildstops não é especificado). Como
--buildstops fornece a lista de palavras usadas no índice, --buildfreqs adiciona o
quantidade presente no índice, o que seria útil para estabelecer se determinado
as palavras devem ser consideradas palavras irrelevantes se forem muito prevalentes. Também vai ajudar com
desenvolver recursos do tipo "Você quis dizer ..." onde você pode ver o quanto mais comum uma determinada palavra
em comparação com outro semelhante.
Exemplo:
$ indexador meuindex --buildstops word_freq.txt 1000 --buildfreqs
Isso produziria o word_freq.txt como acima, no entanto, após cada palavra seria o
número de vezes que ocorreu no índice em questão.
--config CONFIGURAR, -c CONFIGURAR
Use o arquivo fornecido como configuração. Normalmente, ele irá procurar sphinx.conf no
diretório de instalação (por exemplo, / usr / local / sphinx / etc / sphinx.conf se instalado em
/ usr / local / sphinx), seguido pelo diretório atual em que você está ao chamar o indexer
da casca. É mais usado em ambientes compartilhados onde os arquivos binários são
instalado em algum lugar como / usr / local / sphinx /, mas você deseja fornecer aos usuários o
capacidade de fazer suas próprias configurações Sphinx personalizadas, ou se você deseja executar vários
instâncias em um único servidor. Em casos como esses, você pode permitir que eles criem seus
próprios arquivos sphinx.conf e passá-los para indexador com esta opção.
Por exemplo:
$ indexer --config /home/myuser/sphinx.conf meuindex
--dump-linhas ARQUIVO
Despeja linhas buscadas por fonte (s) SQL no arquivo especificado, em um MySQL compatível
sintaxe. Os despejos resultantes são a representação exata dos dados recebidos pelo indexador
e ajuda a repetir os problemas do tempo de indexação.
--mesclar ÍNDICE DST SRC-ÍNDICE
Funda fisicamente dois índices. Por exemplo, se você tiver um esquema principal + delta,
onde o índice principal raramente muda, mas o índice delta é reconstruído com frequência, e
--mesclar seria usado para combinar os dois. A operação se move da direita para a esquerda - o
conteúdo de SRC-ÍNDICE ser examinado e fisicamente combinado com o conteúdo de
ÍNDICE DST e o resultado é deixado em ÍNDICE DST. Em pseudocódigo, pode ser expresso
como: ÍNDICE DST += SRC-ÍNDICE
Um exemplo:
$ indexer --merge delta principal --rotate
No exemplo acima, onde o principal é o mestre, o índice raramente modificado e o delta
é o menos modificado frequentemente, você pode usar o acima para chamar indexador para
combine o conteúdo do delta no índice principal e gire os índices.
--merge-dst-intervalo ATTR MIN MAX
Execute o intervalo de filtro fornecido na fusão. Especificamente, como a mesclagem é aplicada ao
índice de destino (como parte de --mesclar, e é ignorado se --mesclar não é especificado),
indexador também filtrará os documentos que acabam no índice de destino, e apenas
os documentos passarão pelo filtro fornecido e acabarão no índice final. Esse
pode ser usado, por exemplo, em um índice onde há um atributo 'excluído', onde 0
significa 'não excluído'. Esse índice pode ser mesclado com:
$ indexer --merge delta principal --merge-dst-range excluído 0 0
Quaisquer documentos marcados como excluídos (valor 1) seriam removidos do recém-mesclado
índice de destino. Pode ser adicionado várias vezes à linha de comando, para adicionar
filtros sucessivos para a mesclagem, todos os quais devem ser atendidos para que um documento
tornar-se parte do índice final.
--merge-killlists, --merge-klists
Usado em par com --mesclar. Normalmente ao mesclar indexador usa kill-list do índice de origem
(ou seja, aquele que é mesclado em) como o filtro para limpar os documentos correspondentes de
o índice de destino. Ao mesmo tempo, a lista de eliminação do destino em si não é
tocado em tudo. Ao usar --merge-killlists, (ou forma mais curta --merge-klists) a
indexador não filtrará os documentos do índice dst com killlist do índice src, mas será mesclado
suas kill-lists juntas, então o índice de resultado final terá a kill-list
contendo as listas de eliminação de fontes mescladas.
--sem progresso
Não exiba os detalhes do progresso conforme eles ocorrem; em vez disso, os detalhes do status final (como
como documentos indexados, velocidade de indexação e assim por diante só são relatados na conclusão de
indexação. Nos casos em que o script não está sendo executado em um console (ou 'tty'), este
estará ativado por padrão.
Exemplo de uso:
$ indexador --rotate --all --noprogress
--print-consultas
Imprime consultas SQL que o indexador envia ao banco de dados, junto com a conexão SQL
e eventos de desconexão. Isso é útil para diagnosticar e corrigir problemas com SQL
fontes.
--quieto
Diz indexador não produzir nada, a menos que haja um erro. Novamente, mais usado para
tipo cron ou outros trabalhos de script em que a saída é irrelevante ou desnecessária, exceto
no caso de algum tipo de erro.
Exemplo de uso:
$ indexador --rotate --all --quiet
--girar
Usado para índices rotativos. A menos que você tenha uma situação em que possa realizar a pesquisa
funcionar offline sem incomodar os usuários, você quase certamente precisará manter
pesquisa em execução enquanto indexa novos documentos. --girar cria um segundo índice,
paralelo ao primeiro (no mesmo lugar, simplesmente incluindo .new nos nomes dos arquivos).
Depois de concluído, indexador notifica pesquisado através do envio de SIGA sinal, e pesquisado
tentará renomear os índices (renomeando os existentes para incluir .old e
renomear o .new para substituí-los) e, em seguida, começar a veicular a partir dos arquivos mais recentes.
Dependendo da configuração de rotação_perfeita, pode haver um pequeno atraso em ser capaz
para pesquisar os índices mais recentes.
Exemplo de uso:
$ indexador --rotate --all
--sighup-cada
é útil quando você está reconstruindo muitos índices grandes e deseja que cada um deles seja girado em
pesquisado O mais breve possível. Com --sighup-cada, indexador vai enviar um SIGA sinalizar para
pesquisado depois de concluir com êxito o trabalho em cada índice. (O comportamento padrão é
enviar um único SIGA depois que todos os índices foram construídos.)
--verbose
Garante que cada linha que causou problemas de indexação (duplicado, zero ou ausente
ID do documento; ou problemas de E / S de campo de arquivo; etc) serão relatados. Por padrão, esta opção
está desativado e, em vez disso, podem ser relatados resumos de problemas.
Use o indexador online usando serviços onworks.net