Это команда urlgrabber, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
urlgrabber - кросс-протокольный url-граббер высокого уровня.
СИНТАКСИС
урлграббер [ВАРИАНТЫ] URL-адрес [ФАЙЛ]
ОПИСАНИЕ
urlgrabber - это бинарная программа и модуль Python для извлечения файлов. Он предназначен для
используется в программах, которым требуются общие (но не обязательно простые) функции получения URL-адресов.
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
--помощь, -ч
страница справки, определяющая доступные параметры для двоичной программы.
--copy-local
игнорируется, за исключением URL-адресов file: //, и в этом случае он указывает, должен ли urlgrab
все равно сделайте копию файла или просто укажите на существующую копию.
--throttle = ЧИСЛО
если это int, это предел дроссельной заслонки в байтах в секунду. Если это поплавок, это первый
умноженное на пропускную способность. Если throttle == 0, регулирование отключено. Если нет, то
используется значение по умолчанию на уровне модуля (которое можно установить с помощью set_throttle).
--bandwidth = ЧИСЛО
номинальная максимальная пропускная способность в байтах в секунду. Если дроссель является плавающим и пропускная способность == 0,
регулирование отключено. Если None, значение по умолчанию на уровне модуля (которое может быть установлено с помощью
set_bandwidth).
--range = ДИАПАЗОН
кортеж в форме first_byte, last_byte, описывающий диапазон байтов для извлечения. Или
или могут быть указаны оба значения. Если first_byte равен None, смещение байта 0 равно
предполагается. Если last_byte равен None, предполагается, что последний доступный байт. Обратите внимание, что оба
значения first и last_byte включены, поэтому диапазон (10,11) вернет 10-е
и 11-й байт ресурса.
--user-agent = STR
строка пользовательского агента указывает, является ли URL-адрес HTTP.
--retry = ЧИСЛО
количество повторных попыток захвата перед освобождением. Если это ноль, он повторит попытку
навсегда. Это было намеренно ... правда, было :). Если это значение не указано или
предоставляется, но есть None, повторная попытка не выполняется.
--retrycodes
последовательность кодов ошибок (значения e.errno), для которой следует повторить попытку. См. Документ на
URLGrabError для более подробной информации. retrycodes по умолчанию -1,2,4,5,6,7, если нет
указано явно.
МОДУЛЬ ИСПОЛЬЗОВАНИЕ ПРИМЕРЫ
В своей простейшей форме urlgrabber может быть заменой urllib2 open или даже python
файл, если вы просто читаете:
из urlgrabber import urlopen
fo = urlopen (url)
данные = fo.read ()
fo.close ()
Здесь URL-адрес может быть http, https, ftp или file. Это также довольно умно, поэтому, если вы просто дадите
это что-то вроде / tmp / foo, он разберется. Для еще большего удовольствия вы также можете:
из urlgrabber import urlopen
local_filename = urlgrab (url) # получить локальную копию файла
data = urlread (url) # просто считываем данные в строку
Теперь, как и urllib2, на самом деле здесь происходит то, что вы используете объект уровня модуля
(называемый граббером) такой вид используется по умолчанию. Это нормально, но ты можешь захотеть
чтобы получить свою частную версию по нескольким причинам:
* немного некрасиво изменять граббер по умолчанию, потому что вам нужно
залезть в модуль, чтобы сделать это
* вы можете столкнуться с конфликтами, если разные части кода
измените граббер по умолчанию и, следовательно, ожидайте разные
поведение
Поэтому вам, вероятно, лучше сделать свою собственную. Это также дает вам много
гибкость на будущее, как вы увидите:
из urlgrabber.grabber импортировать URLGrabber
g = URLGrabber ()
data = g.urlread (url)
Это хорошо, потому что вы можете указать параметры при создании граббера. Например,
давайте включим простой режим reget, чтобы, если у нас есть часть файла, нам нужно только получить
прочее:
из urlgrabber.grabber импортировать URLGrabber
g = URLGrabber (reget = 'простой')
local_filename = g.urlgrab (URL)
Доступные параметры перечислены в документации модуля и обычно могут быть указаны.
по умолчанию на уровне захвата или как опции метода:
из urlgrabber.grabber импортировать URLGrabber
g = URLGrabber (reget = 'простой')
local_filename = g.urlgrab (url, filename = None, reget = None)
АВТОРЫ
Автор: Майкл Д. Стеннер[электронная почта защищена]> Райан Томайко
<[электронная почта защищена]>
Эта страница руководства была написана Кевином Койнером.[электронная почта защищена]> для системы Debian
(но может использоваться другими). Он во многом опирается на документацию, включенную в
модуль urlgrabber. Разрешается копировать, распространять и / или изменять этот документ.
в соответствии с условиями Стандартной общественной лицензии GNU, Версия 2, любая более поздняя опубликованная версия
Фондом свободного программного обеспечения.
РЕСУРСЫ
Главный сайт: http://linux.duke.edu/projects/urlgrabber/
04/09/2007 URLGRABBER(1)
Используйте urlgrabber онлайн с помощью сервисов onworks.net