Este é o comando gocr que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
gocr - ferramenta de reconhecimento de texto de linha de comando
SINOPSE
gocr [OPÇÃO] [-i] arquivo pnm
DESCRIÇÃO
gocr é um programa de reconhecimento óptico de caracteres que pode ser usado na linha de comando.
Ele recebe a entrada no formato PNM, PGM, PBM, PPM ou PCX e grava o texto reconhecido para stdout.
Se o pmn lima é um único traço, os dados PNM são lidos stdin. Se gzip, bzip2 e netpbm-
progs estão instalados e seu sistema suporta Popen(3) também pnm.gz, pnm.bz2, png, jpg,
jpeg, tiff, gif, bmp, ps (apenas páginas únicas) e eps são suportados como arquivos de entrada (não como
fluxo de entrada), onde pnm pode ser substituído por um de ppm, pgm e pbm.
OPÇÕES
-h mostrar informações de uso
-i lima
ler a entrada de lima (ou stdin if lima é um único traço)
-o lima
enviar saída para lima em vez de stdout
-e lima
enviar erros para lima em vez de stderr ou stdout if lima é um traço
-x lima
saída de progresso para lima (lima pode ser um nome de arquivo, um nome fifo ou um descritor de arquivo
1 ... 255), isso é útil para desenvolvedores de GUI para mostrar o progresso do OCR, o arquivo
argumento descritor só está disponível, se compilado com __USE_POSIX definido
-p caminho
caminho do banco de dados, uma barra final deve ser incluída, o padrão é ./db/, este caminho será
povoado com imagens de personagens eruditos
-f formato
saída formato do texto reconhecido (ISO8859_1 TeX HTML XML UTF8 ASCII), XML irá
também produz dados de posição e probabilidade
-l nível
definir o nível de cinza para nível (0 <160 <= 255, padrão: 0 para detecção automática), pixels mais escuros
pertencem aos caracteres, os pixels mais brilhantes são interpretados como fundo da entrada
imagem
-d tamanho
definir o tamanho da poeira em pixels (clusters menores que este são removidos), 0 significa que não
clusters são removidos, o padrão é -1 para detecção automática
-s Números defina a largura do espaço entre as palavras em unidades de pontos (padrão: 0 para detecção automática), mais ampla
larguras são interpretadas como espaços de palavras, menores como espaços de caracteres
-v verbosidade
seja prolixo para stderr; verbosidade é um bitfield
-c corda
apenas saída detalhada de caracteres de corda para stderr, mais saída é gerada
para todos os caracteres dentro da string, o sublinhado representa caracteres desconhecidos, este
função é útil para limitar as informações de depuração para as necessárias
-C corda
só reconhece personagens de corda, esta é uma função de filtro nos casos em que o
o interesse é apenas para uma parte do alfabeto de caracteres, você pode usar 0-9 ou az para
especifique os intervalos, use - para detectar o sinal de menos
-a certeza
definir valor para certeza de reconhecimento (0..100; padrão: 95), caracteres com um
maior certeza são aceitos, personagens com menor certeza são tratados como
desconhecido (não reconhecido); defina valores mais altos, se quiser ter apenas mais certeza
personagens reconhecidos
-u corda
produza esta string para cada caractere não reconhecido (o padrão é "_")
-m modo
definir modo operacional; modo é um campo de bits (padrão: 0)
-n bool
if bool é diferente de zero, reconhece apenas números (agora está obsoleto, use -C
"0123456789")
A verbosidade é especificada como um campo de bits:
1 imprimir mais informações
2 listar formas de caixas (ver -c) para stderr
4 padrão de lista de caixas (ver -c) para stderr
8 imprimir padrão após o reconhecimento para depuração
16 imprimir informações de depuração sobre o reconhecimento de linhas para stderr
32 crie outXX.png com caixas e linhas marcadas em cada etapa geral de OCR
Os modos de operação são:
2 usar banco de dados para reconhecer caracteres que não são reconhecidos por outros
algoritmos, (desenvolvimento inicial)
4 ativar a análise de layout ou zoneamento (desenvolvimento)
8 não compare caracteres não reconhecidos com um reconhecido
16 não tente dividir caracteres sobrepostos em dois ou três caracteres únicos
32 não faça correção de contexto
64 embalagem de caracteres, antes do início do reconhecimento, caracteres semelhantes são pesquisados
e apenas um desses caracteres será enviado para o mecanismo de reconhecimento
(desenvolvimento)
130 estende o banco de dados, solicita ao usuário caracteres não identificados e estende o
banco de dados com resposta dos usuários (128 + 2, desenvolvimento inicial)
256 desligue o mecanismo de reconhecimento (faz sentido junto com -m 2)
Use gocr online usando serviços onworks.net