Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

L'apprentissage mixte, qui rassemble le meilleur des formations à la demande et dispensée par un instructeur, est désormais disponible.

Vue d'ensemble

Lors des quatre jours de la formation Analyste des données de la Cloudera University, vous apprendrez à appliquer les techniques traditionnelles d'analyse de données et de business intelligence au big data. Vous découvrirez également les outils que les spécialistes des données utilisent pour accéder, manipuler, transformer et analyser des ensembles de données complexes à l'aide de SQL et des langages de script courants.

Ce qui vous attend

À travers des échanges avec les formateurs ainsi que des exercices pratiques et interactifs, les participants navigueront dans l'écosystème et apprendront :

  • Comment l'écosystème open source d'outils big data permet de relever les défis non résolus par les SGBDR traditionnels
  • À utiliser Apache Hive et Impala pour fournir un accès SQL aux données
  • La syntaxe et les formats de données de Hive et Impala, dont les fonctions et les sous-requêtes
  • Créer, modifier et supprimer des tables, des vues et des bases de données, charger des données et stocker les résultats des requêtes
  • Créer et utiliser des partitions et différents formats de fichiers
  • À regrouper deux ou plusieurs ensembles de données à l'aide de JOIN ou UNION, selon le cas
  • En quoi consistent les fonctions d'analyse et de fenêtrage, et comment les utiliser
  • À stocker et interroger des structures de données complexes ou imbriquées
  • À traiter et analyser des données semi-structurées et non structurées
  • Les techniques d'optimisation des requêtes Hive et Impala
  • À élargir les capacités de Hive et d'Impala à l'aide de paramètres, de formats de fichiers personnalisés, de SerDes ainsi que de scripts externes
  • Comment déterminer si Hive, Impala, un SGBDR ou un mélange des trois convient le mieux à une tâche donnée

Public & Conditions préalables

Cette formation s'adresse aux analystes de données, aux spécialistes du BI, aux développeurs, aux architectes de système et aux administrateurs de bases de données. Il est nécessaire d'avoir quelques connaissances en SQL et de maîtriser les lignes de commande de base de Linux. Aucune connaissance préalable d'Apache Hadoop n'est requise.

Obtenez votre certification

À la fin de la formation, nous encourageons les participants à poursuivre leurs études et à s'inscrire à l'examen CCA pour les analystes de données. La certification fait une grande différence. Elle confirme votre maîtrise du secteur et offre aux employeurs et clients une preuve évidente de vos compétences et de votre expertise.

Book the course

How would you like to train?

Donnez un élan à votre expertise en écosystème

Apache Hive permet de faire évoluer la transformation et l'analyse des données complexes et multi-structurées dans les environnements Cloudera. Apache Impala permet d'analyser des données stockées dans Hadoop, de façon interactive et en temps réel via un environnement SQL natif. Ensemble, ils rendent accessibles les données multi-structurées aux analystes, administrateurs de bases de données et autres professionnels non experts en programmation Java.

Sommaire de la formation

Introduction

Les bases d'Apache Hadoop

  • L'intérêt d'Hadoop
  • Présentation d'Hadoop
  • Stockage des données : HDFS
  • Traitement distribué des données : YARN, MapReduce et Spark
  • Traitement et analyse des données : Pig, Hive et Impala
  • Intégration de base de données : Sqoop
  • Autres outils de données Hadoop
  • Exercice d'explication de scénarios

Introduction à Apache Pig

  • Qu'est-ce que Hive ?
  • Qu'est-ce que Impala ?
  • Pourquoi utiliser Hive et Impala ?
  • Schéma et stockage des données
  • Hive et Impala vs bases de données traditionnelles
  • Cas d'utilisation

Envoyer des requêtes avec Apache Hive et Impala

  • Bases de données et tables
  • Syntaxe de base des langages de requête Hive et Impala
  • Types de données
  • Utiliser Hue pour exécuter des requêtes
  • Utiliser Beeline (le shell de Hive)
  • Utiliser le shell d'Impala

 

Opérateurs courants et fonctions intégrées

  • Opérateurs
  • Fonctions scalaires
  • Fonctions d'agrégation

Gestion des données

  • Stockage des données
  • Créer des tables et des bases de données
  • Charger des données
  • Modifier des tables et des bases de données
  • Simplifier les requêtes à l'aide de représentations visuelles
  • Stocker les résultats de requête

Stockage des données et performance

  • Partitionner des tables
  • Charger des données dans des tables partitionnées
  • Quand utiliser le partitionnement
  • Choix du format de fichier
  • Utiliser les formats de fichier Avro et Parquet

Travailler avec plusieurs ensembles de données

  • UNION et Joins
  • Gérer les valeurs NULL dans Joins
  • Fonctions avancées de Joins

Fonctions d'analyse et de fenêtrage

  • Utiliser les fonctions d'analyse courantes
  • Autres fonctions d'analyse
  • Fenêtres glissantes

 

Données complexes

  • Données complexes avec Hive
  • Données complexes avec Impala

Analyser du texte

  • Utiliser des expressions courantes avec Hive et Impala
  • Traiter des données textuelles avec SerDes dans Hive
  • Analyse des sentiments et n-grammes

Optimisation d'Apache Hive

  • Comprendre la performance des requêtes
  • Bucketing
  • Hive sur Spark

Optimisation d'Apache Impala

  • Comment Impala exécute les requêtes
  • Améliorer la performance d'Impala

Étendre les capacités d'Apache Hive et Impala

  • Formats de fichiers et SerDes personnalisés dans Hive
  • Transformation des données avec scripts personnalisés dans Hive
  • Fonctions définies par l'utilisateur
  • Requêtes paramétrées

Choisir l'outil le plus adapté

  • Comparaison de Hive, d'Impala et des bases de données relationnelles
  • Que choisir ?

Conclusion

Cloudera nous a, non seulement préparés au succès d'aujourd'hui, mais nous a également formés pour faire face et surmonter nos défis liés aux Big Data à l'avenir.

Persado

En savoir plus

Certification pour analyste de données

La formation Analyste des données est une bonne préparation à l'examen CCA pour les analystes de données. La certification fait une grande différence. Elle confirme votre maîtrise du secteur et offre aux employeurs et clients une preuve évidente de vos compétences et de votre expertise.

Boostez votre carrière

Les analystes du Big Data font partie des plus demandés et mieux payés dans le monde. Découvrez quelques-unes des offres d'emplois qui correspondent à ce profil professionnel, la plupart d'entre elles recherchent de l'expérience avec Impala, Hive et Pig.

Formation privée

Nous pouvons aussi vous offrir une formation privée dans vos locaux, à votre rythme et personnalisée selon vos besoins.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.