To jest aplikacja dla systemu Linux o nazwie webStraktor, której najnowszą wersję można pobrać jako webStraktor-20140420-R01.zip. Można go uruchomić online w darmowym dostawcy usług hostingowych OnWorks dla stacji roboczych.
Pobierz i uruchom online tę aplikację o nazwie webStraktor z OnWorks za darmo.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZRZUTY EKRANU
Ad
webStrektor
OPIS
webStraktor to programowalny klient ekstrakcji danych World Wide Web. Jego celem jest zeskrobywanie treści opartych na HTML za pomocą protokołu HTTP i wydobywanie odpowiednich informacji. webStraktor posiada język skryptowy ułatwiający gromadzenie, ekstrakcję i przechowywanie informacji dostępnych w sieci, w tym obrazów. Język skryptowy wykorzystuje elementy składni wyrażeń regularnych i xPath. Język skryptowy webStraktor ma niewielki zestaw instrukcji, a jego składnia jest łatwa do opanowania.
Standardowy format wyjściowy webStraktor jest oparty na XML, w stronach kodowych ASCII, UTF-8 lub ISO-8859-1 (Latin1).
webStraktor polega na Apache HttpClient do pobierania treści za pośrednictwem protokołu HTTP. Jest zgodny z protokołem Robots Exclusion Protocol i można go skonfigurować do działania w sposób anonimowy, łącząc się z dominującymi typami internetowych serwerów proxy.
webStraktor rozszerza funkcjonalność robotów indeksujących, pająków lub botów, integrując możliwości scrapingu i indeksowania.
Zakładka Charakterystyka
- programowalny robot sieciowy (web spider lub web bot)
- łatwy do opanowania język skryptowy
- Graficzne środowisko programistyczne oparte na technologii Java Swing
- Wyjście XML UTF8 lub ISO-8859-1
- integruje się z łatwo dostępnymi aplikacjami do planowania
- wyczerpująca konfiguracja
- obsługa internetowego serwera proxy
- obsługa protokołu wykluczania robotów
- konfigurowalny podpis agenta użytkownika
- samouczek krok po kroku i przykładowe skrypty
- Oparte na Apache HttpClient
Publiczność
Deweloperzy, architekci
Interfejs użytkownika
Huśtawka Java
Język programowania
Java
Środowisko bazy danych
oparty na XML
Jest to aplikacja, którą można również pobrać z https://sourceforge.net/projects/webstraktor/. Został umieszczony w OnWorks, aby można go było uruchomić online w najprostszy sposób z jednego z naszych bezpłatnych systemów operacyjnych.