• Cloudera Cloudera
  • Apache Oozie

    Le modèle relatif à Hadoop pour les entreprises comprend les couches initiales de stockage et de traitement de données d'Apache™ Hadoop ainsi que des composants additionnels dédiés à des services indispensables aux entreprises dans une architecture de données moderne : intégration et gouvernance des données, sécurité et exploitation. Apache Oozie fournit certains des services opérationnels aux clusters Hadoop, notamment en matière de planification des tâches au sein du cluster.

    Objectif de Oozie

    Apache Oozie est une application Java Web utilisée pour programmer les tâches Apache Hadoop. Oozie combine plusieurs tâches de façon chronologique et les rassemble en une seule unité de travail logique. Cet outil est intégré à la pile Hadoop, avec YARN au cœur de son architecture, et prend en charge les tâches Hadoop pour Apache MapReduce, Apache Pig, Apache Hive et Apache Sqoop. Oozie peut également planifier des tâches spécifiques à un système, tels que des programmes Java ou des scripts shell.

    Apache Oozie est un outil d'exploitation de Hadoop qui permet aux administrateurs de cluster de créer des transformations de données complexes à partir de plusieurs tâches de composant. L'outil permet un meilleur contrôle des tâches et facilite également leur répétition à des intervalles prédéterminés. Oozie aide essentiellement les administrateurs à tirer davantage parti de Hadoop.

    Il existe deux types de tâches Oozie de base :

    • Les tâches Oozie Workflow sont des Directed Acyclical Graphs (DAG) qui spécifient une séquence d'actions à exécuter. La tâche Workflow doit attendre.
    • Les tâches Oozie Coordinator sont des tâches Oozie Workflow récurrentes déclenchées selon l'heure et la disponibilité des données.

    Oozie Bundle permet de rassembler plusieurs tâches Coordinator et Workflow et d'en gérer le cycle de vie.

    Comment fonctionne Oozie

    Un workflow Oozie est un ensemble d’actions organisées dans un Directed Acyclic Graph (DAG). Les nœuds de contrôle définissent la chronologie des tâches, les règles de début et de fin d'un workflow. De cette manière, Oozie contrôle le chemin d'exécution du workflow avec les nœuds de décision et d'aiguillage. Les nœuds d'action déclenchent l'exécution des tâches.

    Oozie déclenche des actions de workflow, mais Hadoop MapReduce les exécute. Cela permet à Oozie d'exploiter d'autres fonctionnalités de la pile Hadoop pour équilibrer les charges et gérer les défaillances.

    Oozie détecte l'achèvement des tâches par rappel et recherche. Lorsqu'Oozie démarre une tâche, il lui attribue une URL HTTP de rappel unique et envoie donc une notification à cette lorsque la tâche est terminée. Si la tâche ne parvient pas à appeler l'URL de rappel, Oozie peut rechercher la tâche et vérifier qu'elle est bien terminée.

    Il est souvent nécessaire d'exécuter les workflows Oozie à des intervalles de temps réguliers, mais en coordination avec des niveaux imprévisibles de disponibilité des données ou autres événements. Dans ces circonstances, Oozie Coordinator vous permet de modéliser les déclencheurs d'exécution de workflow sous la forme de prédicats de données, d'heure ou d'événement. Une tâche de workflow est lancée lorsque ces prédicats sont satisfaits.

    Oozie Coordinator peut également gérer plusieurs workflows qui dépendent du résultat des workflows précédents. Ce résultat est utilisée en entrée du workflow suivant. Cette chaîne s'appelle un « pipeline d'application de données ».

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.