Name: téléchargement osDQ du pipeline de données apache spark pour Linux
Brand: OnWorks
SKU: acfc7cb1252902b3ee4b2d25293d5885
Availability: OnlineOnly
Rating: 4.63 (1788 reviews)

Il s'agit de l'application Linux nommée Apache Spark Data Pipeline osDQ dont la dernière version peut être téléchargée sous le nom osdq-spark_0.0.1.zip. Il peut être exécuté en ligne sur le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.

Téléchargez et exécutez en ligne cette application nommée Apache Spark Data Pipeline osDQ avec OnWorks gratuitement.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

Télécharger App Exécuter sous Ubuntu Courir dans Fedora Exécuter dans Windows Sim Exécuter dans MACOS Sim

CAPTURES D'ÉCRAN

Télécharger l'outil Web ou l'application Web Apache Spark Data Pipeline osDQ

pipeline de données Apache Spark osDQ

DESCRIPTION

Il s'agit d'un projet dérivé du projet de qualité des données open source (osDQ) https://sourceforge.net/projects/dataquality/

Ce sous-projet créera un pipeline de données basé sur Apache Spark où les métadonnées (fichier) basées sur JSON seront utilisées pour exécuter le traitement des données, le pipeline de données, la qualité des données et la préparation des données et les fonctionnalités de modélisation des données pour le Big Data. Cela utilise l'API Java d'Apache Spark. Il peut également fonctionner en mode local.

Obtenez un exemple json sur https://github.com/arrahtech/osdq-spark

Comment courir

Décompressez le fichier zip

Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Pour ceux sur Windows, vous devez avoir décompressé la distribution hadoop sur le lecteur local et HADOOP_HOME défini. Copiez également winutils.exe d'ici dans HADOOP_HOME\bin

Fonctionnalités

Créer un pipeline de données en utilisant l'instruction Join, Filter, Aggregate, Case
Utiliser la qualité des données - remplacer, supprimer, joindre,
Profilage de données, profilage de base de colonne
Jointure floue - distance cosinus et autres
classification et échantillonnage - forêt aléatoire, réseau de neurones multi-classes
normalisation des données - zscore, écart standard, score de ratio,
Échantillonnage aléatoire, stratifié, basé sur des clés

Audience

Technologies de l'information, Autre public, Architectes

Interface utilisateur

Console/Terminal

Langage de programmation

Java, Scala

Catégories

Entreposage de données, Intelligence d'affaires, ETL

Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/apache-spark-osdq/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.