Это приложение для Linux под названием Trafilatura, последнюю версию которого можно загрузить как trafilatura-1.6.2.zip. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение Trafilatura с помощью OnWorks бесплатно.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ
Ad
Рисунок
ОПИСАНИЕ
Trafilatura — это пакет Python и инструмент командной строки, предназначенный для сбора текста в Интернете. Он включает в себя компоненты обнаружения, извлечения и обработки текста. Его основными приложениями являются сканирование веб-страниц, загрузка, очистка и извлечение основных текстов, метаданных и комментариев. Он стремится оставаться удобным и модульным: база данных не требуется, выходные данные можно преобразовать в различные часто используемые форматы. Переход от необработанного HTML к основным частям может облегчить многие проблемы, связанные с качеством текста, во-первых, избегая шума, вызванного повторяющимися элементами (заголовки, нижние колонтитулы, ссылки/блогролл и т. д.), а во-вторых, путем включения такой информации, как автор и дата, чтобы сделать смысл данных. Экстрактор пытается найти баланс между ограничением шума (точность) и включением всех допустимых частей (напоминание). Он также должен быть надежным и достаточно быстрым, поскольку он работает с миллионами документов.
Особенности
- Сканирование веб-страниц и обнаружение текста
- Бесшовная и параллельная обработка, онлайн и оффлайн
- Надежное и эффективное извлечение
- Основной текст (с LXML, общими шаблонами и общими алгоритмами: jusText, ответвление readability-lxml)
- URL-адреса, файлы HTML или проанализированные деревья HTML, которые можно использовать в качестве входных данных.
- Эффективная и вежливая обработка очередей загрузки
Язык программирования
Питон
Категории
Это приложение также можно загрузить с https://sourceforge.net/projects/trafilatura.mirror/. Он размещен в OnWorks, чтобы его можно было проще запускать в Интернете из одной из наших бесплатных операционных систем.