J-14: Importer un Fichier JSON dans SPARK sur Azure

L’objectif de cette session est de réussir à démarrer notre environnement et lancer une requête SPARK sur un fichier JSON en Windows Azure.

Parcours du Combattant:

  1. Déploiement du Cluster
  2. Téléchargement du fichier JSON dans AzureBlobStorage
  3. Connexion au Bloc de Notes Zepellin
  4. Importation du JSON dans SPARK
  5. Requête
  6. Éteindre le Cluster

Boite à outil du combattant:

  1. Abonnement Azure ou la Version d’essai Gratuite (avec 170€)
  2. 1H de libre devant vous

Attention aux miettes! si vous êtes de ceux qui pratiquent l’autoformation de midi!!

1. Déploiement du Cluster

Ici c’est très simple, il faut se connecter au portail Azure et suivre le étapes ci-dessous

blog ai3 DeploimenrSPARK-1024x905 J-14: Importer un Fichier JSON dans SPARK sur Azure

Tips:

  • Rappelez-vous du compte de stockage choisis (en vert dans l’image) on va télécharger dedans notre fichier JSON
  • Sous la rubrique « Niveau de tarification de nœuds » on va pouvoir choisir la quantité de data nodes dans notre cluster… restez sage, personnellement je prends 2 c’est largement suffisant pour nos tests et ça fait seulement 1.61 euro de l’heure.

blog ai3 Tarification-SPARK J-14: Importer un Fichier JSON dans SPARK sur Azure

La création prend généralement 15 minutes on peut donc passer à l’étape suivante

2.Téléchargement du fichier JSON dans AzureBlobStorage

Pour notre exemple on va utiliser ce-fichier JSON qui contient les 1000 premiers articles de Wikipedia et on va le télécharger sur un BLOB Azure. Pour le faire on peut utiliser un outil comme Azure Storage Explorer. Après extraction et téléchargement vous devriez vous trouver plus ou moins ici

blog ai3 UploadJSON J-14: Importer un Fichier JSON dans SPARK sur Azure

3. Connexion au Bloc de Notes Zepellin

Le Bloc de notes Zepellin et un superbe outil qui permet de designer et exécuter des requêtes en SQL, traitements en Scala et faire de visualisations dans votre nouveau super cluster SPARK depuis un explorateur web. Pour y aller suivez les instructions suivantes:

Depuis le portail Azure allez ver les paramètres de votre cluster

blog ai3 Cluster J-14: Importer un Fichier JSON dans SPARK sur Azure

et ouvrez le Bloc de Notes Zeppellin

blog ai3 Bloc-de-Notes J-14: Importer un Fichier JSON dans SPARK sur Azure

Après suivre les instructions vous devriez vous allez tomber sous l’interface Zepellin, créez une nouvelle note comme celui-ci:

blog ai3 NewNote J-14: Importer un Fichier JSON dans SPARK sur Azure

4. Importation du JSON dans SPARK

Et finalement on arrive à la partie qu’on aime!! On va utiliser notre cluster!! Et il se trouve que ça va être très simple…

juste trois lignes de code SCALA pour lire et interpréter le JSON dans une structure tabulaire.

blog ai3 ImportJSON J-14: Importer un Fichier JSON dans SPARK sur Azure

  • val url = «  »

C’est la définition du chemin d’accès de notre fichier (il faut remplacer la partie en rouge par le nom de votre compte de stockage). ça peut être référence aussi à un dossier ou des fichier compresses en gzip)

  • val art = sqlContext.jsonFile(url)

C’est la lecture de notre fichier JSON. La fonction jsonFile retourne un DataFrame Spark qui est un objet scala qui représente une table avec la structure de notre json.

  • art.PrintSchema()

Est une fonction qui imprime dans la console la structure de notre json. On pourrait le voir (souligné en vert) en après exécution en cliquant sur l’icône de démarrage

5. Requête

Maintenant on va exécuter une requête très simple juste pour compter la quantité des articles importés. Pour le faire il faut juste rajouter la ligne suivante dans notre note Zepellin

  • art.count()

Et après exécution on a notre premier résultat!!!

blog ai3 Count J-14: Importer un Fichier JSON dans SPARK sur Azure

Youpi!!!!!!!

6. Éteindre le Cluster

Et maintenant ce qui ne faut pas oublier est d’éteindre le cluster pour ne pas cramer tous son crédit Azure 😉

blog ai3 turnOff J-14: Importer un Fichier JSON dans SPARK sur Azure

Et voila!!!!

J’espère que vous avez apprécie cette premier heure de SPARK et je vous invite à rester attentifs au prochain billet!!

 

3 thoughts on “J-14: Importer un Fichier JSON dans SPARK sur Azure

  1. Pingback: J-9 Text mining avec SPARK | Le blog Ai3Le blog Ai3

  2. Pingback: J-11 Calculs sur SPARK | Le blog Ai3Le blog Ai3

  3. Pingback: A la conquête de SPARK sur AZURE | Le blog Ai3Le blog Ai3

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.