Il s'agit de l'application Linux nommée Apache Spark Data Pipeline osDQ dont la dernière version peut être téléchargée sous le nom osdq-spark_0.0.1.zip. Il peut être exécuté en ligne sur le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez en ligne cette application nommée Apache Spark Data Pipeline osDQ avec OnWorks gratuitement.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.
- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application, installez-la et exécutez-la.
CAPTURES D'ÉCRAN
Ad
pipeline de données Apache Spark osDQ
DESCRIPTION
Il s'agit d'un projet dérivé du projet de qualité des données open source (osDQ) https://sourceforge.net/projects/dataquality/
Ce sous-projet créera un pipeline de données basé sur Apache Spark où les métadonnées (fichier) basées sur JSON seront utilisées pour exécuter le traitement des données, le pipeline de données, la qualité des données et la préparation des données et les fonctionnalités de modélisation des données pour le Big Data. Cela utilise l'API Java d'Apache Spark. Il peut également fonctionner en mode local.
Obtenez un exemple json sur https://github.com/arrahtech/osdq-spark
Comment courir
Décompressez le fichier zip
Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json
Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
Pour ceux sur Windows, vous devez avoir décompressé la distribution hadoop sur le lecteur local et HADOOP_HOME défini. Copiez également winutils.exe d'ici dans HADOOP_HOME\bin
Fonctionnalités
- Créer un pipeline de données en utilisant l'instruction Join, Filter, Aggregate, Case
- Utiliser la qualité des données - remplacer, supprimer, joindre,
- Profilage de données, profilage de base de colonne
- Jointure floue - distance cosinus et autres
- classification et échantillonnage - forêt aléatoire, réseau de neurones multi-classes
- normalisation des données - zscore, écart standard, score de ratio,
- Échantillonnage aléatoire, stratifié, basé sur des clés
Audience
Technologies de l'information, Autre public, Architectes
Interface utilisateur
Console/Terminal
Langage de programmation
Java, Scala
Catégories
Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/apache-spark-osdq/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.