Englishfrançaisespagnol

Icône de favori OnWorks

téléchargement osDQ du pipeline de données apache spark pour Linux

Téléchargement gratuit de l'application Linux OSDQ du pipeline de données Apache Spark pour s'exécuter en ligne dans Ubuntu en ligne, Fedora en ligne ou Debian en ligne

Il s'agit de l'application Linux nommée Apache Spark Data Pipeline osDQ dont la dernière version peut être téléchargée sous le nom osdq-spark_0.0.1.zip. Il peut être exécuté en ligne sur le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.

Téléchargez et exécutez en ligne cette application nommée Apache Spark Data Pipeline osDQ avec OnWorks gratuitement.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


pipeline de données Apache Spark osDQ


DESCRIPTION

Il s'agit d'un projet dérivé du projet de qualité des données open source (osDQ) https://sourceforge.net/projects/dataquality/

Ce sous-projet créera un pipeline de données basé sur Apache Spark où les métadonnées (fichier) basées sur JSON seront utilisées pour exécuter le traitement des données, le pipeline de données, la qualité des données et la préparation des données et les fonctionnalités de modélisation des données pour le Big Data. Cela utilise l'API Java d'Apache Spark. Il peut également fonctionner en mode local.

Obtenez un exemple json sur https://github.com/arrahtech/osdq-spark

Comment courir

Décompressez le fichier zip

Windows : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json

Mac-UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json

Pour ceux sur Windows, vous devez avoir décompressé la distribution hadoop sur le lecteur local et HADOOP_HOME défini. Copiez également winutils.exe d'ici dans HADOOP_HOME\bin



Fonctionnalités

  • Créer un pipeline de données en utilisant l'instruction Join, Filter, Aggregate, Case
  • Utiliser la qualité des données - remplacer, supprimer, joindre,
  • Profilage de données, profilage de base de colonne
  • Jointure floue - distance cosinus et autres
  • classification et échantillonnage - forêt aléatoire, réseau de neurones multi-classes
  • normalisation des données - zscore, écart standard, score de ratio,
  • Échantillonnage aléatoire, stratifié, basé sur des clés


Audience

Technologies de l'information, Autre public, Architectes


Interface utilisateur

Console/Terminal


Langage de programmation

Java, Scala


Catégories

Entreposage de données, Intelligence d'affaires, ETL

Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/apache-spark-osdq/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    movistarv
    movistarv
    Kodi Movistar+ TV est un ADDON pour XBMC/
    Kodi qui permet de disposer d'un
    décodeur de los services IPTV de
    Movistar intégré en un seul de los
    médiacentres ma...
    Télécharger movistartv
  • 2
    Code :: Blocs
    Code :: Blocs
    Code :: Blocks est un logiciel gratuit et open source,
    multiplateforme C, C++ et Fortran IDE
    construit pour répondre aux besoins les plus exigeants
    de ses utilisateurs. Il est conçu pour être très
    s'étend...
    Code de téléchargement ::Blocs
  • 3
    Au milieu de
    Au milieu de
    Au milieu ou Interface Minecraft avancée
    et Data/Structure Tracking est un outil pour
    afficher un aperçu d'un Minecraft
    monde, sans vraiment le créer. Ce
    pouvez ...
    Télécharger au milieu
  • 4
    MSYS2
    MSYS2
    MSYS2 est une collection d'outils et
    bibliothèques vous offrant un
    environnement facile à utiliser pour la construction,
    installer et exécuter Windows natif
    Logiciel. Il con...
    Télécharger MSYS2
  • 5
    libjpeg-turbo
    libjpeg-turbo
    libjpeg-turbo est un codec d'image JPEG
    qui utilise des instructions SIMD (MMX, SSE2,
    NEON, AltiVec) pour accélérer la ligne de base
    Compression et décompression JPEG activées
    x86, x8...
    Télécharger libjpeg-turbo
  • 6
    Gestionnaire de téléchargement Xtreme
    Gestionnaire de téléchargement Xtreme
    Le projet a maintenant une nouvelle maison :
    https://xtremedownloadmanager.com/ For
    développeurs:
    https://github.com/subhra74/xdm Xtreme
    Download Manager est un outil puissant pour...
    Télécharger Xtreme Download Manager
  • Plus "

Commandes Linux

Ad