Este é o comando httrack que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
httrack - navegador offline: copia sites para um diretório local
SINOPSE
httrack [ url ] ... [ -filtro ] ... [ + filtro ] ... [ -O, --caminho ] [ -C, --espelho ] [ -C,
--assistente de espelho ] [ -g, --get-arquivos ] [ -eu, --Prosseguir ] [ -Sim, --mirrorlinks ] [ -P,
--proxy ] [ -% f, --httpproxy-ftp [= N] ] [ -% b, --ligar ] [ -rN, --profundidade [= N] ] [ -% eN,
--ext-depth [= N] ] [ -mN, --max-files [= N] ] [ -MN, --max-size [= N] ] [ -PT, - tempo máximo [= N] ]
[ -UM, - taxa máxima [= N] ] [ -% cN, --conexão por segundo [= N] ] [ -GN, - pausa-máx [= N] ] [
-cN, --sockets [= N] ] [ -TN, - tempo limite [= N] ] [ -RN, - tentativas [= N] ] [ -JN, - taxa mínima [= N] ]
[ HN, --host-control [= N] ] [ -% P, --extended-parsing [= N] ] [ -n, --perto ] [ -t, --teste ]
[ -%EU, --Lista ] [ -% S, --urllist ] [ -NN, --estrutura [= N] ] [ -% D,
--cached-delay-type-check ] [ -% M, --mime-html ] [ -LN, --nomes longos [= N] ] [ -KN,
--manter links [= N] ] [ -x, --substituir-externo ] [ -% x, --disable-senhas ] [ -% q,
--include-string de consulta ] [ -ó, --gerar-erros ] [ -X, --purge-old [= N] ] [ -% p,
--preservar ] [ -% T, --utf8-conversão ] [ -bn, --cookies [= N] ] [ -você, --check-type [= N] ] [
-j, --parse-java [= N] ] [ -sN, --robôs [= N] ] [ -% h, --http-10 ] [ -% k, --mantenha vivo ] [
-% B, --tolerante ] [ -% s, --updatehack ] [ -%você, --urlhack ] [ -%UMA, --presumir ] [ -@dentro,
--protocol [= N] ] [ -%C, --disable-módulo ] [ -F, --agente de usuário ] [ -% R, --referenciador ] [ -% E,
--a partir de ] [ -% F, --rodapé ] [ -%eu, --língua ] [ -%uma, --aceitar ] [ -% X, --cabeçalhos ] [ -C,
--cache [= N] ] [ -k, --store-tudo-em-cache ] [ -% n, --não-recuperar ] [ -% v, --exibição ] [
-Q, --não-registre ] [ -q, --quieto ] [ -z, --extra-log ] [ -Z, --debug-log ] [ -dentro, --verbose
] [ -f, --file-log ] [ -f2, --único-log ] [ -EU, --índice ] [ -%eu, --build-top-index ] [
-%EU, --índice de pesquisa ] [ -pN, --prioridade [= N] ] [ -S, --stay-on-mesmo-dir ] [ -D,
--pode-descer ] [ -VOCÊ, --pode subir ] [ -B, - pode subir e descer ] [ -uma,
- ficar no mesmo endereço ] [ -d, --permaneça no mesmo domínio ] [ -eu, --stay-on-mesmo-tld ] [ -e
- ir para qualquer lugar ] [ -% H, --debug-cabeçalhos ] [ -% !, --disable-limites de segurança ] [ -V,
--userdef-cmd ] [ -%C, --ligar de volta ] [ -K, --manter links [= N] ] [
DESCRIÇÃO
httrack permite que você baixe um site da World Wide Web da Internet para um local
diretório, construindo recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos
do servidor para o seu computador. HTTrack organiza o link relativo do site original-
estrutura. Basta abrir uma página do site "espelhado" em seu navegador e você pode
navegue no site de link em link, como se o estivesse visualizando online. HTTrack também pode
atualizar um site espelhado existente e retomar downloads interrompidos.
EXEMPLOS
httrack www.someweb.com/bob/
mirror site www.someweb.com/bob/ e apenas este site
httrack www.someweb.com/bob/ www.anothertest.com/mike/ + *. com / *. jpg -mime: aplicativo / *
espelhe os dois sites juntos (com links compartilhados) e aceite quaisquer arquivos .jpg em
sites .com
httrack www.someweb.com/bob/bobby.html +* -r6
significa obter todos os arquivos a partir de bobby.html, com 6 links de profundidade e possibilidade de
indo a todos os lugares na web
httrack www.someweb.com/bob/bobby.html --aranha -P proxy.meuhost.com:8080
executa o spider em www.someweb.com/bob/bobby.html usando um proxy
httrack --atualizar
atualiza um espelho na pasta atual
httrack
o levará para o modo interativo
httrack --Prosseguir
continua um espelho na pasta atual
OPÇÕES
Geral opções:
-O caminho para espelho / arquivos de log + cache (-O caminho de espelho [, cache de caminho e arquivos de log]) (--path
)
Açao Social opções:
-w * espelhar sites da web (--espelho)
-W mirror web sites, semiautomático (faz perguntas) (--mirror-wizard)
-g apenas obtém os arquivos (salvos no diretório atual) (--get-files)
-i continua um espelho interrompido usando o cache (--continue)
-Y espelho TODOS os links localizados nas páginas de primeiro nível (links espelho) (- links espelho)
procuração opções:
-P proxy use (-P proxy: porta ou -P usuário: pass @ proxy: porta) (--proxy )
-% f * use proxy para ftp (f0 não use) (--httpproxy-ftp [= N])
-% b use este nome de host local para fazer / enviar solicitações (-% b hostname) (--bind )
Limites opções:
-rN definir a profundidade do espelho para N (* r9999) (--depth [= N])
-% eN definir a profundidade dos links externos para N (*% e0) (--ext-depth [= N])
-mN comprimento máximo de arquivo para um arquivo não-html (--max-files [= N])
-mN, N2 comprimento máximo de arquivo para não html (N) e html (N2)
-MN tamanho geral máximo que pode ser carregado / verificado (--max-size [= N])
-EN tempo máximo de espelho em segundos (60 = 1 minuto, 3600 = 1 hora) (--max-tempo [= N])
-AN taxa de transferência máxima em bytes / segundos (1000 = 1 KB / s máx.) (--Max-rate [= N])
-% cN número máximo de conexões / segundos (*% c10) (--conexão por segundo [= N])
-GN pausar a transferência se N bytes forem atingidos e espere até que o arquivo de bloqueio seja excluído
(- pausa-máx [= N])
Fluxo ao controle:
-cN número de conexões múltiplas (* c8) (--sockets [= N])
-TN timeout, número de segundos após o desligamento de um link sem resposta (--timeout [= N])
-RN número de tentativas, em caso de tempo limite ou erros não fatais (* R1) (--retries [= N])
-Controle de engarrafamento JN, taxa de transferência mínima (bytes / segundos) tolerada para um link
(- taxa mínima [= N])
-HN host é abandonado se: 0 = nunca, 1 = tempo limite, 2 = lento, 3 = tempo limite ou lento
(--host-control [= N])
Informações Úteis opções:
-% P * análise estendida, tentativa de analisar todos os links, mesmo em tags desconhecidas ou Javascript
(% P0 não usa) (--extended-parsing [= N])
-n obtém arquivos não-html próximos a um arquivo html (ex: uma imagem localizada fora) (--near)
-t testar todos os URLs (mesmo os proibidos) (--test)
-%EU adicione todos os URLs localizados neste arquivo de texto (um URL por linha) (--list )
-% S adicione todas as regras de varredura localizadas neste arquivo de texto (uma regra de varredura por linha)
(--urllist )
Construção opções:
Tipo de estrutura -NN (0 * estrutura original, 1+: veja abaixo) (--estrutura [= N])
- ou estrutura definida pelo usuário (-N "% h% p /% n% q.% t")
-% N verificação de tipo atrasada, não faça nenhum teste de link, mas espere o download dos arquivos começar
em vez disso (experimental) (% N0 não use,% N1 use para extensões desconhecidas, *% N2 sempre
usar)
-% D verificação de tipo com atraso em cache, não espere pelo tipo remoto durante as atualizações, para acelerar
eles (% D0 espera, *% D1 não espera) (--cached-delayed-type-check)
-% M gera um arquivo completo encapsulado em RFC MIME (.mht) (--mime-html)
- Nomes longos LN (L1 * nomes longos / conversão L0 8-3 / compatível com L2 ISO9660)
(--nomes longos [= N])
-KN manter links originais (por exemplo http://www.adr/link) (K0 * elo relativo, K absoluto
links, links originais K4, links URI absolutos K3, link proxy transparente K5)
(--manter links [= N])
-x substitui links html externos por páginas de erro (--replace-external)
-% x não inclui nenhuma senha para sites externos protegidos por senha (% x0 inclui)
(--disable-senhas)
-% q * inclui string de consulta para arquivos locais (inútil, apenas para fins informativos) (% q0
não inclua) (--include-query-string)
-o * gera arquivo html de saída em caso de erro (404 ..) (o0 não gera)
(--gerar-erros)
-X * limpar arquivos antigos após a atualização (X0 manter exclusão) (--purge-old [= N])
-% p preserva os arquivos html como estão (idêntico a -K4 -% F "") (--preserve)
- conversão de% T links para UTF-8 (--utf8-conversão)
Spiders opções:
-bN aceita cookies em cookies.txt (0 = não aceita, * 1 = aceita) (--cookies [= N])
-u verificar o tipo de documento se desconhecido (cgi, asp ..) (u0 não verificar, * u1 verificar mas /, u2
verifique sempre) (--check-type [= N])
-j * analisa classes Java (j0 não analisa, bitmask: | 1 analisa o padrão, | 2 não analisa
.class | 4 não analise .js | 8 não seja agressivo) (--parse-java [= N])
-sN segue o robots.txt e metatags de robôs (0 = nunca, 1 = às vezes, * 2 = sempre, 3 = sempre
(até mesmo regras estritas)) (--robots [= N])
-% h força solicitações HTTP / 1.0 (reduz os recursos de atualização, apenas para servidores antigos ou proxies)
(--Http-10)
-% k usa keep-alive se possível, reduzindo significativamente a latência para arquivos pequenos e teste
solicitações (% k0 não usar) (--keep-alive)
-% B solicitações tolerantes (aceitar respostas falsas em alguns servidores, mas não padrão!)
(--tolerante)
-% s update hacks: vários hacks para limitar as retransferências durante a atualização (tamanho idêntico,
resposta falsa ..) (--updatehack)
-% u url hacks: vários hacks para limitar URLs duplicados (strip //, www.foo.com == foo.com ..)
(--urhack)
-% A assume que um tipo (cgi, asp ..) está sempre ligado a um tipo MIME (-% A
php3, cgi = text / html; dat, bin = application / x-zip) (--assume )
-também pode ser usado para forçar um tipo de arquivo específico: --assume foo.cgi = text / html
- protocolo de internet @ iN (0 = ambos ipv6 + ipv4, 4 = ipv4 somente, 6 = ipv6 somente) (--protocol [= N])
-% w desativa um módulo mime externo específico (-% w htsswf -% w htsjava) (--disable-module
)
Navegador IDENTIDADE:
-F campo do agente do usuário enviado em cabeçalhos HTTP (-F "nome do agente do usuário") (- agente do usuário )
- Campo de referência padrão% R enviado em cabeçalhos HTTP (--referer )
-% E do endereço de e-mail enviado em cabeçalhos HTTP (--de )
- string de rodapé% F em código Html (-% F "Espelhado [do host% s [arquivo% s [em% s]]]"
(--rodapé )
-% l idioma preferido (-% l "fr, en, jp, *" (--language )
-% a formatos aceitos (-% a "texto / html, imagem / png; q = 0.9, * / *; q = 0.1" (--aceitar )
-% X linha de cabeçalho HTTP adicional (-% X "X-Magic: 42" (--headers )
Registro, índice, esconderijo
-C criar / usar um cache para atualizações e novas tentativas (C0 sem cache, cache C1 é prioritário, * C2
teste de atualização antes) (--cache [= N])
-k armazena todos os arquivos no cache (não é útil se os arquivos estiverem no disco) (--store-all-in-cache)
-% n não baixa novamente os arquivos apagados localmente (--do-not-recatch)
-% v exibição na tela de nomes de arquivos baixados (em tempo real) - *% v1 versão curta -% v2
animação completa (--display)
-Q no log - modo silencioso (--do-not-log)
-q sem perguntas - modo silencioso (--quiet)
-z log - informações extras (--extra-log)
-Z log - depurar (--debug-log)
-v tela de logon (--verbose)
-f * log em arquivos (--file-log)
-f2 um único arquivo de log (--single-log)
-Eu * faço um índice (I0 não faço) (--index)
-% i cria um índice principal para uma pasta de projeto (*% i0 don t make) (--build-top-index)
-% faço um índice pesquisável para este espelho (*% I0 don t make) (--search-index)
Expert opções:
modo de prioridade -pN: (* p3) (--priority [= N])
-p0 apenas escaneia, não salva nada (para verificar os links)
-p1 salva apenas arquivos html
-p2 salva apenas arquivos não html
- * p3 salvar todos os arquivos
-p7 obtém arquivos html antes e depois trata outros arquivos
-S permanecer no mesmo diretório (--stay-on-same-dir)
-D * só pode ir para subdiretórios (--can-go-down)
-U só pode ir para diretórios superiores (--can-go-up)
-B pode ir tanto para cima quanto para baixo na estrutura de diretório (--can-go-up-and-down)
-a * permanecer no mesmo endereço (--stay-on-same-address)
-d permanece no mesmo domínio principal (--stay-on-same-domain)
-Eu fico no mesmo TLD (por exemplo: .com) (--stay-on-same-tld)
-e vá a qualquer lugar na web (- vá-em qualquer lugar)
-% H depura cabeçalhos HTTP no arquivo de log (--debug-headers)
guru opções: (Faz NÃO usar if possível)
- # X * usar mecanismo otimizado (verificações de limite de memória limitadas) (--fast-engine)
- # 0 teste de filtro (- # 0 * .gif www.bar.com/foo.gif) (--debug-testfilters )
- Teste de simplificação nº 1 (- nº 1 ./foo/bar/../foobar)
- # 2 teste de tipo (- # 2 /foo/bar.php)
- # lista de cache C (- # C * .com / spider * .gif (--debug-cache )
- # R cache repair (danificado cache) (--repair-cache)
- # d analisador de depuração (--debug-parsing)
- # E extrair new.zip cache meta-data em meta.zip
- # f sempre liberar arquivos de log (--advanced-flushlogs)
- Número máximo de filtros # FN (--advanced-maxfilters [= N])
- # h informações da versão (--version)
- # K scan stdin (debug) (--debug-scanstdin)
- # L número máximo de links (- # L1000000) (--advanced-maxlinks)
- # p exibe informações de progresso feias (--advanced-progressinfo)
- # P catch URL (--catch-url)
- # R rotinas de FTP antigas (depurar) (--repair-cache)
- # T gerar operações de transferência. registrar a cada minutos (--debug-xfrstats)
- # u tempo de espera (--advanced-wait)
- # Z gera estática de taxa de transferência a cada minutos (--debug-ratestats)
Perigoso opções: (Faz NÃO usar a menos que Você exatamente sabemos o que Você e guarante que os mesmos estão fazendo)
-%! contornar os limites de segurança integrados com o objetivo de evitar abusos de largura de banda (largura de banda,
conexões simultâneas) (--disable-security-limits)
-IMPORTANTE
NOTA: OPÇÃO PERIGOSA, APENAS ADEQUADA PARA ESPECIALISTAS
- USE COM EXTREMO CUIDADO
Linha de comando específico opções:
-V executa o comando do sistema após cada arquivo ($ 0 é o nome do arquivo: -V "rm \ $ 0")
(--userdef-cmd )
-% W usa uma função de biblioteca externa como wrapper (-% W myfoo.so [, myparameters])
(--ligar de volta )
detalhes: Opção N
-N0 Estrutura do site (padrão)
-N1 HTML na web /, imagens / outros arquivos na web / imagens /
-N2 HTML na web / HTML, imagens / outros na web / imagens
-N3 HTML na web /, imagens / outro na web /
-N4 HTML em web /, imagens / outro em web / xxx, onde xxx é a extensão do arquivo (todos gif
será colocado em web / gif, por exemplo)
-N5 Imagens / outras na web / xxx e HTML na web / HTML
-N99 Todos os arquivos na web /, com nomes aleatórios (gadget!)
-N100 Estrutura do site, sem www.domain.xxx/
-N101 Idêntico a N1, exceto que "web" é substituído pelo nome do site
-N102 Idêntico a N2, exceto que "web" é substituído pelo nome do site
-N103 Idêntico a N3, exceto que "web" é substituído pelo nome do site
-N104 Idêntico a N4, exceto que "web" é substituído pelo nome do site
-N105 Idêntico a N5, exceto que "web" é substituído pelo nome do site
-N199 Idêntico a N99, exceto que "web" é substituído pelo nome do site
-N1001 Idêntico a N1 exceto que não há diretório "web"
-N1002 Idêntico a N2 exceto que não há diretório "web"
-N1003 Idêntico ao N3, exceto que não há um diretório "web" (opção definida para a opção g)
-N1004 Idêntico a N4 exceto que não há diretório "web"
-N1005 Idêntico a N5 exceto que não há diretório "web"
-N1099 Idêntico a N99 exceto que não há diretório "web"
detalhes: Usuário definido opção N
% n Nome do arquivo sem tipo de arquivo (ex: imagem)
% N Nome do arquivo, incluindo o tipo de arquivo (ex: image.gif)
% t tipo de arquivo (ex: gif)
% p caminho [sem terminar /] (ex: / someimages)
Nome do host% h (ex: www.someweb.com)
% M URL MD5 (128 bits, 32 bytes ascii)
% Q string de consulta MD5 (128 bits, 32 bytes ascii)
% k string de consulta completa
% r nome do protocolo (ex: http)
% q string de consulta pequena MD5 (16 bits, 4 bytes ascii)
% s? Versão do nome curto (ex:% sN)
% [param] variável param na string de consulta
% [param: before: after: empty: notfound] extração de variável avançada
detalhes: Usuário definido opção N e avançado variável Extração
% [param: before: after: empty: notfound]
-param: nome do parâmetro
-antes
: string a preceder se o parâmetro foi encontrado
-after: string a acrescentar se o parâmetro foi encontrado
-não encontrado
: substituição de string se o parâmetro não puder ser encontrado
-empty: substituição de string se o parâmetro estiver vazio
-todos os campos, exceto o primeiro (o nome do parâmetro), podem estar vazios
detalhes: Opção K
-K0 foo.cgi? Q = 45 -> foo4B54.html? Q = 45 (URI relativo, padrão)
-K -> http://www.foobar.com/folder/foo.cgi? q = 45 (URL absoluto) (--keep-links [= N])
-K3 -> /pasta/foo.cgi?q=45 (URI absoluto)
-K4 -> foo.cgi? Q = 45 (URL original)
-K5 -> http://www.foobar.com/folder/foo4B54.html? q = 45 (URL de proxy transparente)
Atalhos:
--espelho
* faça um espelho do (s) site (s) (padrão)
--pegue
obtenha os arquivos indicados, não procure outros URLs (-qg)
--Lista
adicione todos os URLs localizados neste arquivo de texto (-% L)
--mirrorlinks
espelhar todos os links nas páginas de primeiro nível (-Y)
--testlinks
teste de links nas páginas (-r1p0C0I0t)
--aranha
sites spider, para testar links: relatórios de erros e avisos (-p0C0I0t)
--site de teste
idêntico a --spider
--esqueleto
faz um espelho, mas obtém apenas arquivos html (-p1)
--atualizar
atualizar um espelho, sem confirmação (-iC2)
--Prosseguir
continuar um espelho, sem confirmação (-iC1)
--cathurl
crie um proxy temporário para capturar um URL ou um URL de postagem de formulário
--limpar
apagar cache e arquivos de log
--http10
forçar solicitações http / 1.0 (-% h)
detalhes: Opção %C: Externo retornos de chamada protótipos
Vejo htsdefines.h
Use httrack online usando serviços onworks.net