Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

L'apprentissage mixte, qui rassemble le meilleur des formations à la demande et dispensée par un instructeur, est désormais disponible.

Passez au niveau supérieur

Cette formation pratique fournit les concepts clés et le savoir-faire dont les développeurs ont besoin pour concevoir des applications parallèles haute performance avec Apache Spark 2. Les participants apprendront comment utiliser Spark SQL pour interroger des données structurées, mais aussi Spark Streaming pour traiter, en temps réel, des données en streaming provenant de sources diverses. Les développeurs s'exerceront également à concevoir des applications basées sur Spark Core pour lancer des opérations d'extraction, de transformation et de chargement ainsi que des algorithmes itératifs. Au cours de la formation, vous découvrirez comment travailler avec de grands ensembles de données stockés dans un système de fichiers distribué, et comment exécuter des applications Spark sur un cluster Hadoop. À l'issue de la formation, vous serez prêts à répondre aux défis du monde réel et à créer des applications qui permettront, d'une part, de prendre de meilleures décisions plus rapidement, et d'autre part, d'analyser de façon interactive un large éventail d'utilisations, d'architectures et de secteurs d'activité.

Cette nouvelle formule s'accompagne d'un programme simplifié qui vous permet d'entrer rapidement en production en ayant recours aux principales technologies, dont Spark 2.

Bénéficiez d'une expérience pratique

Effectuez des exercices pratiques sur un cluster actif en ligne. Un cluster privé sera créé pour chaque participant aux fins de la formation.

À travers des échanges avec les formateurs ainsi que des exercices pratiques et interactifs, les participants navigueront dans l'écosystème Hadoop et apprendront :

  • Distribuer, stocker et traiter des données dans un cluster Hadoop
  • À concevoir, configurer et déployer des applications Spark sur un cluster
  • Utiliser la coque de Spark pour l'analyse de données interactive
  • Traiter et interroger des données structurées avec le SQL de Spark
  • Utiliser Spark Streaming pour traiter un flux de données en direct

Ce qui vous attend

Cette formation s'adresse aux développeurs et data engineers qui possèdent une certaine expérience en programmation ; toutefois, aucune connaissance préalable de Hadoop et/ou Spark n'est requise.

  • Des exemples et exercices pratiques d'Apache Spark sont présentés sur Scala et Python. Il est donc nécessaire de maîtriser l'un de ces deux langages de programmation.
  • Des connaissances de base de la ligne de commande de Linux sont attendues.
  • Une connaissance de base de SQL est un plus

 

Book the course

How would you like to train?

Sommaire de la formation

Introduction à Apache Hadoop et à l'écosystème Hadoop

  • Introduction à Apache Hadoop et à l'écosystème Hadoop
  • Présentation d'Apache Hadoop
  • Ingestion et stockage des données
  • Traitement des données
  • Analyse et exploration des données
  • Autres outils écosystémiques
  • Introduction aux exercices pratiques

Stockage de fichiers Apache Hadoop

  • Composants de cluster Apache Hadoop
  • Architecture HDFS
  • Utiliser HDFS

Traitement distribué sur un cluster Apache Hadoop

  • Architecture YARN
  • Travailler avec YARN

Les bases d'Apache Spark

  • Qu'est-ce qu'Apache Spark ?
  • Démarrer avec le shell Spark
  • Utiliser le shell Spark
  • Démarrer avec les ensembles et les trames de données
  • Exploitation des trames de données

Travailler avec des schémas et des trames de données

  • Créer des trames à partir de sources de données
  • Enregistrer des trames vers des sources de données
  • Schémas de trames de données
  • Exécution différée et immédiate

Analyser des données à l'aide de requêtes de trame de données

  • Interroger des trames de données à l'aide d'expressions de colonnes
  • Regrouper des requêtes
  • Rassembler des trames de données

Présentation des RDD

  • Présentation des RDD
  • Sources de données RDD
  • Créer et enregistrer des RDD
  • Exploitation des RDD

Transformer des données avec des RDD

  • Concevoir et transmettre des fonctions de transformation
  • Effectuer la transformation
  • Convertir RDD et trames de données

Agréger des données avec des RDD de type couple

  • RDD avec couple clé-valeur
  • MapReduce
  • Autres opérations avec les RDD de type couple

 

Interroger des tables et des vues sur Apache Spark SQL

  • Interroger des tables dans Spark à l'aide de SQL 
  • Interroger des fichiers et des vues
  • L'API Catalog 
  • Comparaison de Spark SQL, d'Apache Impala et de Apache Hive-on-Spark

 

Travailler avec des ensembles de données dans Scala

  • Ensembles et trames de données
  • Créer des ensembles de données
  • Charger et enregistrer des ensembles de données
  • Opérations sur les ensembles de données

 

Concevoir, configurer et exécuter des applications sur Apache Spark

  • Concevoir une application Spark
  • Créer et exécuter une application
  • Mode de déploiement d'application
  • L'interface Web des applications Spark
  • Configurer les propriétés des applications

Traitement distribué

  • Vérification : Apache Spark sur un cluster
  • Partitions RDD
  • Exemple : Partitionnement dans les requêtes
  • Étapes et tâches
  • Planification de l'exécution des tâches
  • Exemple : Plan d'exécution du catalyseur
  • Exemple : Plan d'exécution des RDD

Persistance des données distribuées

  • Persistance des ensembles et des trames de données
  • Niveaux de stockage permanents
  • Visualiser les RDD persistants

Modèles courants dans le traitement des données Apache Spark

  • Cas courants d'utilisation d'Apache Spark
  • Algorithmes itératifs dans Apache Spark
  • Machine learning
  • Exemple : K-moyennes

Apache Spark Streaming : Introduction à DStreams

  • Présentation d'Apache Spark Streaming
  • Exemple : Nombre de requêtes de streaming
  • DStreams 
  • Développer des applications de streaming

Apache Spark Streaming : Traiter plusieurs lots

  • Opérations sur plusieurs lots
  • Découpage temporel
  • Opérations sur les statuts
  • Opérations sur les fenêtres glissantes
  • Aperçu : Le streaming structuré

 

Apache Spark Streaming : Sources de données

  • Présentation des sources de données en streaming
  • Sources de données Apache Flume et Apache Kafka
  • Exemple : Utiliser une source de données Kafka directe

En savoir plus

Certification CCA pour les développeurs Spark et Hadoop

Cette formation constitue une excellente préparation à l'examen CCA pour les développeurs Spark et Hadoop. Bien que nous vous recommandons de suivre une formation complémentaire et d'acquérir une expérience pratique avant de passer l'examen, cette formation traite de la majorité des sujets évalués.

La certification fait une grande différence. Elle confirme votre maîtrise du secteur et offre aux employeurs et clients une preuve évidente de vos compétences et de votre expertise.

Boostez votre carrière

Les développeurs big data font partie des postes techniques les plus demandés et les mieux payés au monde. Découvrez des offres d'emplois qui correspondent à ce profil professionnel et qui recherchent pour la plupart la certification CCA.

Formation privée

Nous pouvons aussi vous offrir une formation privée dans vos locaux, à votre rythme et personnalisée selon vos besoins.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.