Este é o comando ocrodjvu que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
ocrodjvu - OCR para arquivos DjVu
SINOPSE
ocrodjvu {-o | --save-pacote} arquivo de saída djvu [opção...] arquivo djvu
ocrodjvu {-i | --save-indireto} arquivo index-djvu [opção...] arquivo djvu
ocrodjvu --save-script Arquivo de script [opção...] arquivo djvu
ocrodjvu --no lugar [opção...] arquivo djvu
ocrodjvu --funcionamento a seco [opção...] arquivo djvu
ocrodjvu {--versão | --Socorro | -h | --list-motores | --list-idiomas}
DESCRIÇÃO
ocrodjvu é um wrapper para sistemas OCR que permite realizar OCR em arquivos DjVu.
Os seguintes motores de OCR são suportados:
· OCRopus[1] (internamente, chamadas de ocrodjvu acrônimo's reconhecer (ou recesso) comando,
para que, em última análise, o Tesseract atue como backend de OCR);
· Cuneiforme for Linux[2].
· Ócrad[3].
· GOCR[4].
· Estar sozinho Tesseract[5].
OPÇÕES
OCR motor opções
-e, --engine =identificação do motor
Use este mecanismo de OCR.
O padrão é “tesseract”. (O padrão era “ocropus” antes de ocrodjvu 0.8.)
--list-motores
Imprima a lista de mecanismos de OCR disponíveis.
Opções controle saída
-o, --save-bundled =arquivo de saída djvu
Salve os resultados de OCR como um documento de várias páginas agrupado em arquivo de saída djvu.
-i, --save-indireto =arquivo index-djvu
Salve os resultados do OCR como um documento indireto de várias páginas. Usar arquivo index-djvu como o índice
nome do arquivo; coloque os arquivos do componente no mesmo diretório. O diretório deve existir
e ser gravável.
--save-script =Arquivo de script
Salvar um Djvused script com resultados de OCR em Arquivo de script.
--no lugar
Salve os resultados do OCR no local.
(Use esta opção para manter a compatibilidade com ocrodjvu <0.2.)
--funcionamento a seco
Não altere nenhum arquivo, jogue fora os resultados do OCR.
É obrigatório usar exatamente uma das opções acima.
--ocr-somente
Se os resultados do OCR forem salvos em um documento separado (-o/--save-pacote or
-i/--save-indireto), salve apenas as páginas selecionadas para OCR.
O padrão é salvar todas as páginas, mesmo quando o -p/--Páginas opção está em vigor.
--Texto claro
Remova o texto oculto existente se estiver presente nas páginas não selecionadas para OCR.
(Use esta opção para manter a compatibilidade com ocrodjvu <0.2.)
--save-raw-ocr =diretório de saída
Salvar resultados OCR brutos (normalmente no formato hOCR) em diretório de saída. O
O diretório deve existir e ser gravável.
--raw-ocr-filename-template =modelo
Especifica o esquema de nomenclatura de arquivo para resultados de OCR brutos.
A linguagem do modelo usa o Python corda formatação sintaxe[6]. A seguir
campos estão disponíveis:
página, página + N, página-N
número da página, opcionalmente deslocado por um número N
id
identificador de página
id-ext
identificador de página sem extensão de arquivo
O modelo padrão é “{id-ext}”.
Texto segmentação opções
-t linhas, --detalhes linhas
Registre a localização de cada linha. Não registre a localização de palavras específicas ou
caracteres.
Este é o padrão para OCRopus 0.2. A opção é ineficaz com autônomo
Tesserato 2.0.
-t palavras, --details = palavras
Registre a localização de cada linha e cada palavra. Não registre locais de particular
caracteres.
Este é o padrão para a maioria dos mecanismos de OCR.
Esta opção é ineficaz com OCRopus 0.2 e Tesseract 2.0 autônomo.
-t tanques, --details = chars
Registre a localização de cada linha, cada palavra e cada caractere.
Esta opção é ineficaz com OCRopus 0.2 e Tesseract 2.0 autônomo.
--word-segmentation = simple
Considere cada sequência não vazia de caracteres sem espaço em branco como uma única palavra.
Este é o padrão, apesar de ser linguisticamente incorreto.
--word-segmentation = uax29
Use o Unicode Texto Segmentação[7] algoritmo para quebrar linhas em palavras.
Esta opção quebra as suposições de algumas ferramentas DjVu de que as palavras são separadas por espaços,
e, portanto, não é recomendado.
Outros opções
-l, --language =id do idioma
Defina o idioma de reconhecimento. id do idioma normalmente é um código de três letras ISO 639-2 / T.
Tesseract ≥ 3.02 permite especificar vários idiomas separados por caracteres “+”.
Para OCRopus, o padrão é “eng” (inglês), a menos que linguajar meio Ambiente
variável está definida. Para outros mecanismos de OCR, o padrão é sempre “eng”.
--list-idiomas
Imprime a lista de idiomas disponíveis para o mecanismo de OCR selecionado no momento.
--render = máscara
Renderize apenas máscaras de imagens de página.
Este é o padrão.
--render = foreground
Renderize apenas camadas de primeiro plano de imagens de página.
--render = all
Renderize todas as camadas de imagens da página.
Esta opção é necessária para OCR arquivos DjVu com foreground / background inválido
separação.
-p, --pages =intervalo de páginas
Especifica as páginas a serem processadas. intervalo de páginas é uma lista de subintervalos separados por vírgulas. Cada
subintervalo é uma única página (por exemplo, 17) ou um intervalo contíguo de páginas
(por exemplo, 37-42). As páginas são numeradas a partir de 1.
O padrão é processar todas as páginas.
-j, --jobs =n
Comece até n Processos de OCR.
--versão
Informações de versão de saída e saída.
-h, --Socorro
Exibir ajuda e sair.
Avançado opções
-D, --depurar
Para facilitar a depuração, não exclua arquivos intermediários.
-X chave=valor
Esta opção permite controlar alguns detalhes de como o ocrodjvu opera.
--on-error = abort
Pare a execução do programa quando uma situação excepcional (por exemplo, saída malformada do
Mecanismo de OCR, erro interno de ocrodjvu, etc.) ocorre.
Este é o padrão.
--on-error = retomar
Tente se recuperar de situações excepcionais.
Esta opção é fortemente desencorajada.
--html5
Usar um HTML5 analisador[8], que é mais robusto, mas mais lento do que o analisador padrão.
SAIR STATUS
Um dos seguintes valores de saída pode ser retornado por ocrodjvu:
0
O programa foi concluído com sucesso.
1
Ocorreu um erro fatal.
2
O programa se recuperou de um erro (--on-error = retomar).
MEIO AMBIENTE
As seguintes variáveis de ambiente afetam o ocrodjvu:
linguajar
Linguagem de reconhecimento para Tesseract.
(O uso desta variável está obsoleto em favor do --língua opção.)
TMPDIR
ocrodjvu faz uso intenso de arquivos temporários. Ele irá armazená-los em um diretório
especificado por esta variável. O padrão é / tmp.
Use ocrodjvu online usando serviços onworks.net