Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

CCP données ingénieur Exam (DE575)

  • Nombre de questions : 5–10 tâches de performance (pratique) sur un cluster de Cloudera Enterprise pré-configuré. 
  • Durée maximale : 240 minutes
  • Note minimale de réussite : 70%
  • Langue : anglais
  • Prix : USD $400

Développeur Bundle: Achetez un examen ingénieur données CCP (DE575) et ajouter un examen de l’étincelle développeur (CCA175) pour 95 $. Consultez notre page de promotions des ventes pour plus de détails.

Format de questions de l'examen

Vous avez cinq à dix incidents clients à résoudre avec un gros ensemble unique de données et un cluster CDH, en quatre heures. Pour chaque problème, vous devez mettre en place une solution technique de haute précision pour répondre à toutes les exigences. Vous pouvez utiliser tous les outils ou ensembles d'outils du cluster (voir la liste ci-dessous) -- vous devez choisir l'outil ou les outils adéquats pour le travail. Vous devez avoir assez de connaissances en industrie pour analyser le problème et parvenir à une approche optimale, dans le respect du temps imparti. Il faut savoir quoi faire et l'appliquer ensuite sur un cluster en direct sous des conditions très strictes, avec une limite de temps et en présence d'un surveillant.

Évaluation, relevé de notes et certificat

L'examen est corrigé immédiatement après sa soumission et vous recevez le relevé de notes par e-mail le jour-même. Le relevé de notes présente le numéro associé aux problèmes que vous avez résolus et une note y est attribuée. Si vous n'avez pas réussi à résoudre un problème, le relevé de notes inclut les critères non résolus (par exemple, « Données incorrectes » ou « format de fichier incorrect »). Nous ne fournissons pas plus d'informations afin de protéger le contenu de l'examen. En savoir plus sur la révision du contenu d'examen sur la FAQ.

Si vous réussissez l'examen, vous recevez un deuxième courriel quelques jours après avec votre certificat numérique au format PDF, votre numéro de licence, une mise à jour de votre profil LinkedIn et un lien de téléchargement de vos logos CCA pour vos profils dans les réseaux sociaux personnels ou professionnels.

Public & Conditions préalables

Les candidats au CCP Data Engineer doivent avoir une expérience approfondie en développement de solutions d'ingénierie des données et une bonne maîtrise des compétences mentionnées ci-dessus. Il n'y a pas d'autres prérequis.

L’examen d’ingénieur données CCP a été créé pour identifier les professionnels de données talentueux qui cherchent à se démarquer et être reconnus par les employeurs à la recherche de leurs compétences. À l’extérieur ayant une expérience pratique dans le domaine, il est recommandé que professionnel cherchent à obtenir cet certification début en prenant de Cloudera Spark et développeur de Hadoop stage.

 

Compétences requises

Intégration des données

Les compétences pour transférer des données entre des systèmes extérieurs et votre cluster sont notamment les suivantes :

  • Importer et exporter des données entre un système de gestion de base de données (RDBMS) et votre cluster, y compris la capacité à importer des sous-ensembles spécifiques, de changer le séparateur et le format de fichier des données importées pendant l'intégration et de modifier le modèle ou les privilèges d'accès aux données.
  • Intégrer des données en temps réel et des données de flux en temps quasi-réel (NRT) à HDFS, y compris la capacité à distribuer à de multiples sources de données et à convertir les données en importation d'un format à un autre.
  • Charger et décharger des données d'HDFS à l'aide des commandes Hadoop File System (FS).

Transformation, organisation et stockage

Convertir un ensemble de valeurs de données dans un format donné stocké dans HDFS en nouvelles valeurs de données et/ou en nouveau format de données et les inscrire dans HDFS ou Hive/HCatalog. Cela inclut les compétences suivantes :

  • Convertir des données d'un format de fichier à un autre
  • Écrire vos données en compression
  • Convertir des données d'un ensemble de valeurs à un autre (par exemple, d'une lat./long. à une adresse postale à l'aide d'une bibliothèque externe)
  • Changer le format de données de valeurs dans un ensemble de données
  • Éliminer les mauvaises entrées d'un ensemble de données, par exemple, les valeurs nulles
  • Dé-duplication et fusion de données
  • Dé-normaliser des données depuis plusieurs ensembles disparates
  • Développer un schéma Avro ou Parquet
  • Partitionner un ensemble de données existant selon une ou plusieurs clés de partition
  • Ajuster des données pour une performance de requêtes optimale

Analyse des données

Filtrer, trier, relier, agréger et/ou transformer un ou plusieurs ensembles de données dans un format donné stocké dans HDFS pour produire un résultat spécifique. Toutes ces tâches peuvent inclure la lecture avec Parquet, Avro, JSON, un texte délimité et un texte en langage naturel. Les requêtes incluront des types de données complexes (par exemple, de tableau, plan, structure), la mise en place de bibliothèques externes, de données partitionnées, de données compressées, et nécessiteront l'utilisation de métadonnées de Hive/HCatalog.

  • Écrire une requête pour agréger plusieurs lignes de données
  • Écrire une requête pour calculer des statistiques agrégées (par exemple, une moyenne ou une somme)
  • Écrire une requête pour filtrer des données
  • Écrire une requête pour produire des données classées ou triées
  • Écrire une requête pour relier plusieurs ensembles de données
  • Lire et/ou créer une table Hive ou HCatalog depuis des données existantes dans HDFS

Flux de travail

La capacité à créer et exécuter plusieurs travaux et actions pour que les données apportent plus de valeur et soient mieux utilisées dans un système. Cela inclut les compétences suivantes :

  • Créer et exécuter un flux de travail linéaire avec des actions qui incluent des travaux d'Hadoop, de Hive, de Pig et des actions personnalisées, etc.
  • Créer et exécuter un flux de travail ramifié avec des actions qui incluent des travaux d'Hadoop, de Hive, de Pig et des actions personnalisées, etc.
  • Orchestrer un flux de travail pour exécuter régulièrement les travaux, à heures prédéfinies, y compris des flux de travail qui ont des dépendances de données

D’autres questions ? Consultez notre FAQ de certification

Informations sur l'examen et le cluster

L'examen CCP Data Engineer (DE575) est un examen contrôlé à distance et disponible partout, à toute heure. 

L'examen CCP Data Engineer (DE575) est un examen pratique basé sur les technologies de Cloudera.  Chaque utilisateur dispose de son propre cluster CDH (actuellement 5.10.1) préchargé avec Spark, Impala, Crunch, Hive, Pig, Sqoop, Kafka, Flume, Kite, Hue, Oozie, DataFu et plusieurs autres (Voir la liste complète). En outre, le cluster vient également avec Python 2.7 et 3.4, Perl 5.16, Elephant Bird, Cascading 2.6, Brickhouse, Hive Swarm, Scala 2.11, Scalding, IDEA, Sublime, Eclipse et NetBeans.

Documentation disponible en ligne pendant l'épreuve

Cloudera Product Documentation
Apache Hadoop
Apache Hive
Apache Impala
Apache Sqoop
Spark
Apache Crunch
Apache Pig
Kite SDK
Apache Avro
Apache Parquet
Cloudera HUE
Apache Oozie
Apache Flume
DataFu
JDK 7 API Docs
Python 2.7 Documentation
Python 3.4 Documentation
Scala Documentation

Only the documentation, links, and resources listed above are accessible during the exam. All other websites, including Google/search functionality is disabled. You may not use notes or other exam aids.

 

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.