Apache Zeppelin

Notebook Web complètement open source permettant une analyse interactive des données

Apache Zeppelin est un nouveau notebook en développement basé sur une interface Web. Il intègre à Hadoop et Spark des fonctionnalités d'ingestion, d'exploration, de visualisation et de partage des données, ainsi qu'un outil de collaboration.

Objectif de Zeppelin

Les notebooks interactifs basés sur des navigateurs permettent aux data engineers, data analysts et data scientists de gagner en productivité en développant, organisant, exécutant et partageant un code de données, tout en consultant les résultats sans se référer à une ligne de commande ni avoir besoin des détails du cluster. Les notebooks permettent à ces utilisateurs non seulement d'autoriser l'exécution de flux de travail longs, mais également de travailler de manière interactive avec eux.Spark dispose de nombreux notebooks compatibles. iPython reste le choix le plus sûr ; il s'agit en outre d'un excellent exemple de notebook dédié à la data science.La Hortonworks Gallery fournit une définition de la pile Ambari afin que nos clients puissent rapidement configurer iPython dans leurs clusters Hadoop.  

Apache Zeppelin est un nouveau notebook en développement basé sur une interface Web. Il intègre à Spark des fonctionnalités d'exploration, de visualisation et de partage des données, ainsi qu'un outil de collaboration.   Il prend en charge Python, ainsi qu'un nombre grandissant de langages de programmation, tels que Scala, Hive, SparkSQL, shell et markdown.

zeppelin_medical

Tous ces langages sont pris en charge grâce aux interprètes de langage de Zeppelin.  

Découverte, exploration, reporting et visualisation de données sont autant de composants clés du workflow de data science.  Zeppelin propose un « studio de data science moderne » avec prise en charge immédiate de Spark et Hive.  La compatibilité de Zeppelin avec de nombreux langages en back-end permet d'élargir l'écosystème des sources de données.   Les notebooks de Zeppelin offrent aux data scientists une expérience interactive et simple, via l'exécution de petite portions de code (snippets).  Retrouvez une collection de notebooks Zeppelin dans la Hortonworks Gallery.


En outre, une fois le travail sur votre notebook terminé, si vous souhaitez partager des informations à son sujet, vous pouvez générer facilement un rapport afin de l'imprimer ou de l'envoyer à vos collègues.

zeppelinReport

Chez Cloudera, nous pensons que Spark et Hadoop constituent la combinaison parfaite.   Quant à Zeppelin, il s'agit d'un composant clé pour le développement de solutions de data science.

 

Améliorations récentes apportées aux notebooks sur le Web

Même avec les notebooks, la maîtrise des données peut s'avérer éprouvante. Bien souvent, les data scientists rencontrent des difficultés concernant l'ingénierie des fonctionnalités, la sélection des algorithmes, les réglages et le partage de leur travail avec leurs pairs, ou encore le déploiement en production de leurs créations.

Nous travaillons à l'amélioration du notebook Zeppelin dans la communauté. Pour ce faire, nous avons ajouté un interprète Hive à Zeppelin et prévoyons des améliorations visant à rendre l'éditeur plus stable.  Dans le but de proposer des fonctionnalités de sécurité, de résumé statistique et d'aide dépendant du contexte, qui permettent l'amélioration de l'expérience du développement dédié aux données, nous travaillons également au renforcement de notre implication au sein de la communauté Zeppelin.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.