Це програма для Linux під назвою Trafilatura, останню версію якої можна завантажити як trafilatura-1.6.2.zip. Його можна запустити онлайн у безкоштовного хостинг-провайдера OnWorks для робочих станцій.
Завантажте та запустіть цю програму під назвою Trafilatura з OnWorks безкоштовно.
Дотримуйтесь цих інструкцій, щоб запустити цю програму:
- 1. Завантажив цю програму на свій ПК.
- 2. Введіть у наш файловий менеджер https://www.onworks.net/myfiles.php?username=XXXXX із потрібним ім'ям користувача.
- 3. Завантажте цю програму в такий файловий менеджер.
- 4. Запустіть онлайн-емулятор OnWorks Linux або Windows або онлайн-емулятор MACOS з цього веб-сайту.
- 5. З ОС OnWorks Linux, яку ви щойно запустили, перейдіть до нашого файлового менеджера https://www.onworks.net/myfiles.php?username=XXXXX з потрібним іменем користувача.
- 6. Завантажте програму, встановіть її та запустіть.
ЕКРАНИ
Ad
Малювання
ОПИС
Trafilatura — це пакет Python і інструмент командного рядка, призначений для збору тексту в Інтернеті. Він включає компоненти виявлення, вилучення та обробки тексту. Його основні програми – веб-сканування, завантаження, копіювання та вилучення основних текстів, метаданих і коментарів. Він прагне залишатися зручним і модульним: база даних не потрібна, вихідні дані можна конвертувати в різні широко використовувані формати. Перехід від необробленого HTML до важливих частин може полегшити багато проблем, пов’язаних із якістю тексту, по-перше, уникаючи шуму, спричиненого повторюваними елементами (заголовки, нижні колонтитули, посилання/блоги тощо), а по-друге, додаючи таку інформацію, як автор і дата, щоб зробити значення даних. Екстрактор намагається знайти баланс між обмеженням шуму (точність) і включенням усіх дійсних частин (відкликання). Крім того, він має бути надійним і достатньо швидким, працювати з мільйонами документів.
Функції
- Веб-сканування та пошук тексту
- Безпроблемна і паралельна обробка, онлайн і офлайн
- Надійна та ефективна екстракція
- Основний текст (з LXML, загальними шаблонами та загальними алгоритмами: jusText, fork of readability-lxml)
- URL-адреси, файли HTML або проаналізовані дерева HTML, які можна використовувати як вхідні дані
- Ефективна та ввічлива обробка черг завантаження
Мова програмування
Python
Категорії
Це програма, яку також можна завантажити з https://sourceforge.net/projects/trafilatura.mirror/. Його розміщено в OnWorks, щоб його можна було найпростіше запускати онлайн з однієї з наших безкоштовних операційних систем.