이것은 Trafilatura-1.6.2.zip으로 최신 릴리스를 다운로드할 수 있는 Trafilatura라는 Windows 앱입니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks가 포함된 Trafilatura라는 앱을 무료로 온라인으로 다운로드하여 실행해 보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 모든 OS OnWorks 온라인 에뮬레이터를 시작하지만 더 나은 Windows 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Windows OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 애플리케이션을 다운로드하여 설치합니다.
- 7. Linux 배포 소프트웨어 저장소에서 Wine을 다운로드합니다. 설치가 완료되면 앱을 두 번 클릭하여 Wine과 함께 실행할 수 있습니다. 인기 있는 Windows 프로그램 및 게임을 설치하는 데 도움이 되는 Wine을 통한 멋진 인터페이스인 PlayOnLinux를 사용해 볼 수도 있습니다.
Wine은 Linux에서 Windows 소프트웨어를 실행하는 방법이지만 Windows가 필요하지 않습니다. Wine은 모든 Linux 데스크탑에서 직접 Windows 프로그램을 실행할 수 있는 오픈 소스 Windows 호환성 계층입니다. 본질적으로 Wine은 Windows가 필요하지 않고 모든 Windows 응용 프로그램을 실행할 수 있도록 Windows를 처음부터 충분히 다시 구현하려고 합니다.
스크린 샷
Ad
트라필라투라
기술
Trafilatura는 웹에서 텍스트를 수집하도록 설계된 Python 패키지 및 명령줄 도구입니다. 여기에는 검색, 추출 및 텍스트 처리 구성 요소가 포함됩니다. 주요 응용 프로그램은 웹 크롤링, 다운로드, 스크래핑 및 주요 텍스트, 메타데이터 및 댓글 추출입니다. 편리하고 모듈식으로 유지하는 것을 목표로 합니다. 데이터베이스가 필요하지 않으며 출력을 일반적으로 사용되는 다양한 형식으로 변환할 수 있습니다. 원시 HTML에서 필수 부분으로 이동하면 텍스트 품질과 관련된 많은 문제를 완화할 수 있습니다. 첫째, 반복되는 요소(머리글, 바닥글, 링크/블로그롤 등)로 인해 발생하는 노이즈를 방지하고, 둘째로 작성자 및 날짜와 같은 정보를 포함하여 텍스트 품질과 관련된 문제를 완화할 수 있습니다. 데이터의 감각. 추출기는 노이즈 제한(정밀도)과 모든 유효한 부분 포함(재현율) 사이의 균형을 맞추려고 노력합니다. 또한 강력하고 합리적으로 빨라야 하며 수백만 개의 문서를 프로덕션 환경에서 실행해야 합니다.
기능
- 웹 크롤링 및 텍스트 검색
- 온라인 및 오프라인에서 원활한 병렬 처리
- 강력하고 효율적인 추출
- 주요 텍스트(LXML, 공통 패턴 및 일반 알고리즘 포함: jusText, 가독성-lxml 포크)
- 입력으로 사용할 수 있는 URL, HTML 파일 또는 구문 분석된 HTML 트리
- 다운로드 대기열의 효율적이고 정중한 처리
프로그래밍 언어
Python
카테고리
이는 https://sourceforge.net/projects/trafilatura.mirror/에서도 가져올 수 있는 애플리케이션입니다. 무료 운영 시스템 중 하나에서 가장 쉬운 방법으로 온라인으로 실행하기 위해 OnWorks에서 호스팅되었습니다.