Your browser is out of date

Update your browser to view this website correctly. Update my browser now

×

L'apprentissage mixte, qui rassemble le meilleur des formations à la demande et dispensée par un instructeur, est désormais disponible.

Vue d'ensemble

Cet atelier porte sur les workflows de data science et de machine learning à grande échelle basés sur Apache Spark 2 ainsi que d'autres composants clés de l'écosystème de big data. Il met l'accent sur l'utilisation des techniques de la data science et du machine learning pour surmonter les défis métiers actuels.

Ce qui vous attend

Cet atelier s'adresse aux data scientists qui utilisent actuellement Python ou R pour travailler avec de plus petits ensembles de données sur une seule machine et qui ont besoin d'adapter leurs modèles d'analyse et de machine learning aux grands ensembles de données répartis à travers différents clusters. Les data engineers et les développeurs ayant quelques connaissances en data science et en machine learning apprécieront sans doute eux aussi cet atelier.

Participants à l’atelier devraient avoir une connaissance de base de Python ou R et certains expérience explorer et analyser les données et élaboration statistique ou modèles à apprentissage machine. Connaissance préalable d'Hadoop ou Spark n'est pas nécessaire.

L'atelier comprend de courtes conférences, des démonstrations interactives, des exercices pratiques et des discussions sur les sujets suivants :

  • Présentation de la data science et du machine learning à grande échelle
  • Présentation de l'écosystème Hadoop
  • Travailler avec des données HDFS et des tables Hive sur Hue
  • Introduction au Cloudera Data Science Workbench
  • Présentation d'Apache Spark 2
  • Lecture et écriture de données
  • Inspecter la qualité des données
  • Nettoyer et transformer des données
  • Regrouper des données
  • Combiner, séparer et réorganiser des données
  • Explorer des données
  • Configurer, surveiller et dépanner les applications Spark
  • Présentation du machine learning dans Spark MLlib
  • Fonctions d'extraction, de transformation et de sélection
  • Créer et évaluer des modèles de regression
  • Créer et évaluer des modèles de classification
  • Créer et évaluer des modèles de clustering
  • Validation croisée des modèles et réglage des hyperparamètres
  • Créer des pipelines de machine learning
  • Déployer des modèles de machine learning

Technologies

Les participants acquièrent des compétences et une expérience pratiques sur les outils de data science suivants :

Book the course

How would you like to train?

Mon équipe a bénéficié d'une formation exceptionnelle. Les connaissances approfondies du formateur Cloudera et sa capacité à répondre à toutes nos questions nous ont vraiment captivés. C'est certainement l'une des meilleures formations auxquelles j'ai assisté, si ce n'est la meilleure.Syncsort

En savoir plus

Formation CDSW à la demande

Cloudera Data Science Workbench permet à l'entreprise de bénéficier d'une data science rapide, simple, sûre et en libre-service. Et notre formation CDSW à la demande constitue le moyen le plus rapide d'entrer en production. 

Boostez votre carrière

Les data scientists font partie des postes techniques les plus demandés et les mieux payés au monde. Découvrez des offres d'emplois qui correspondent à ce profil professionnel.

Formation privée

Nous pouvons aussi vous offrir une formation privée dans vos locaux, à votre rythme et personnalisée selon vos besoins.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.