Apache Crunch

La bibliothèque Java Apache Crunch offre un cadre d'écriture, de test et d'exécution des pipelines MapReduce. Son objectif est de simplifier l'écriture, faciliter les tests et rendre plus efficace l'exécution de pipelines composés de nombreuses fonctions définies par les utilisateurs.

Tournant par dessus Hadoop MapReduce et Apache Spark, la bibliothèque Apache Crunch™ est une API Java simple dédiée aux tâches, telles que la jointure et l'agrégation de données, pénibles à mettre en œuvre dans MapReduce seul. Les API sont particulièrement utiles lors du traitement des données qui ne correspondent pas naturellement au modèle relationnel — séries temporelles, formats d'objets sérialisés comme les mémoires tampons de protocole ou les enregistrements Avro et lignes et colonnes HBase par exemple. Pour les utilisateurs Scala, il existe l'API Scrunch, construite sur les API Java et qui inclut une boucle lire-évaluer-éditer de création de pipelines MapReduce.

En savoir plus

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.