L’indice de préparation aux données 2026 : Comprendre les fondements d’une IA réussie

Voir les résultats

14 juillet 2025 | Business

Iceberg : le format ouvert qui a conquis les entreprises

13 minute de lecture • par Navita Sood

Plateforme Cloudera Analyses client Data Lakehouse

Les innovations de Cloudera propulsent l'adoption d'Iceberg

Apache Iceberg est désormais la norme ouverte de facto pour la gestion de données structurées, semi-structurées et évolutives à grande échelle. Elle a été initialement développée en 2017 par Netflix pour relever les défis liés à la fourniture d'analyses fiables à l'échelle du pétaoctet (Po) sur Apache Hive et Spark. Depuis, c'est devenu un format de table ouverte robuste, adapté à l'exécution simultanée de plusieurs charges de travail.

Iceberg unifie vos données et fournit un comportement SQL pour y accéder facilement. Alors qu'il continue d'évoluer avec des capacités SQL plus riches et des opérations de données simplifiées, la norme est de plus en plus appréciée par les utilisateurs ayant des compétences techniques variées, non seulement les ingénieurs de données, mais aussi les consommateurs de données (scientifiques, analystes et développeurs d'applications) qui souhaitent un accès rapide et fiable à toutes les données.

Avec Iceberg, les entreprises bénéficient d'une véritable séparation entre le calcul et le stockage, pour une flexibilité inégalée. Pour combiner analyses avancées, intégration fluide avec l'IA et indépendance vis-à-vis des fournisseurs, ce format de table reste sans égal.

Une communauté dynamique et en pleine croissance

En moins de 10 ans, Iceberg est passé d'une technologie émergente à une norme d'entreprise. Son élan peut être attribué à ses atouts architecturaux ainsi qu'à la communauté dynamique et ouverte qui l'entoure.

Il est important de noter que la communauté Iceberg est dirigée par ses utilisateurs, et non par un seul fournisseur. Ce modèle de gouvernance axé sur les utilisateurs permet de garantir que le projet évolue afin de répondre à des besoins généraux et concrets, ce qui explique en grande partie son succès.

Principaux enseignements de l'Iceberg Summit

L'adoption généralisée d'Iceberg était évidente lors de l'Iceberg Summit 2025 à San Francisco. L'événement réunissait des start-ups, des entreprises du Fortune 500 et les trois principaux fournisseurs de cloud (AWS, Microsoft et Google). En personne ou virtuellement, les participants du monde entier étaient tous désireux d'apprendre, de contribuer et de développer l'écosystème.

Plusieurs thèmes en particulier ont dominé les conversations lors du sommet : l'interopérabilité et l'importance croissante d'Iceberg (son écosystème et ses capacités en pleine expansion, y compris l'automatisation).

Interopérabilité

De Netflix à Apple en passant par Bloomberg, de nombreuses entreprises ont expliqué comment Iceberg leur permettait de gérer une source unique de vérité qui alimente plusieurs charges de travail, éliminant ainsi les copies de données redondantes et réduisant le transfert de données entre systèmes. Elles ont discuté des différents types de charges de travail qui s'appuient sur la couche de données fiables d'Iceberg pour fournir segmentation, personnalisation, prévisions de l'attrition/l'inactivité, recommandations, expérience client optimisée, et bien plus encore.

Un écosystème en pleine expansion

Un autre fait marquant a été l'émergence de nouveaux outils open source tels que Comet, Polaris et Lance dans l'écosystème Iceberg, conçus pour améliorer les performances et prendre en charge l'analyse multimodale et l'IA.

Mises à jour à venir dans Iceberg V3 et V4

Les fonctionnalités des V3 et V4 d'Iceberg ont suscité beaucoup d'enthousiasme. La V3 renforcera considérablement la gouvernance des données, l'optimisation des performances et la prise en charge de types de données plus complexes tels que Variant et Geospatial. En tirant parti des principes du format en colonnes, Variant apporte des fonctionnalités de requête avancées, telles que le filtrage et les agrégations, sur des données semi-structurées sans nécessiter de transformations importantes. La prise en charge de Geospatial permettra aux entreprises de gérer des données géolocalisée, ouvrant ainsi la voie à de nouveaux cas d'utilisation. La nouvelle disposition adaptative des métadonnées proposée dans la V4 promet d'améliorer les performances pour les petits fichiers.

Gestion automatisée des données

Autre sujet brûlant : l'automatisation de la maintenance de routine (partitionnement, tri, compactage) via des interfaces de type DevOps régies par des politiques afin de réduire le travail manuel. Un énorme goulet d'étranglement se crée à mesure que les organisations intègrent davantage de données dans les tables Iceberg, car elles doivent embaucher des experts pour ces tâches de maintenance.

Alors que de plus en plus de moteurs accèdent aux données de ces tables Iceberg, la gouvernance, la sécurité et la traçabilité deviennent des priorités absolues. La visibilité des data flows et des transformations de données sont essentielle pour garantir la fiabilité des données. Cela a entraîné des discussions sur la nécessité d'une fédération et d'une gouvernance des catalogues afin d'améliorer la visibilité sur l'ensemble des tables Iceberg.

Adoption d'Iceberg chez Cloudera

Cloudera a intégré Apache Iceberg de manière native dans sa plateforme Lakehouse de cloud public en 2021, puis dans son infrastructure sur site en 2022. Aujourd'hui, la majorité de nos clients exécutent ou testent de nouvelles charges de travail sur Iceberg ; au total, ils y gèrent des pétaoctets de données.

Iceberg est un vecteur de croissance pour Cloudera. Nous constatons une augmentation du nombre de clients qui migrent leurs charges de travail Hive vers Iceberg afin de moderniser et de pérenniser leurs plateformes de données. » – Venkat Rajaji, vice-président de la gestion des produits, Cloudera

Les avantages se multiplient une fois qu'une entreprise entame son parcours avec Iceberg, ce qui se traduit par une augmentation du volume de données sur les tables Iceberg, une expansion des charges de travail et l'émergence de nouveaux cas d'utilisation. La rapidité des performances est souvent le premier facteur de motivation, suivi par l'interopérabilité et la flexibilité des charges pour une agilité accrue. Le passage à Iceberg réduit les coûts de stockage, d'ETL et d'exploitation jusqu'à 75 %. Des fonctionnalités telles que la recherche historique, les instantanés, le modèle Write-Audit-Publish et le partitionnement caché améliorent encore l'efficacité, ce qui en fait le choix idéal pour déployer de nouveaux cas d'utilisation.

Voici quelques-uns des cas d'utilisation les plus populaires d'Iceberg chez Cloudera :

Partage de données entre différents systèmes de fournisseurs appartenant à des parties fiables, comme différentes unités commerciales au sein d'une entreprise ou avec des partenaires et fournisseurs de confiance.
Ingénierie des données pour la préparation de données à grande échelle et le meilleur rapport qualité-prix.
Analyse et prise de décision en temps quasi réel grâce à l'ingestion de données en flux dans le lakehouse.
Rapports de conformité réglementaire et atténuation continue des risques, en tirant parti des fonctionnalités de recherche historique d'Iceberg et des capacités de gouvernance, de traçabilité et d'audit de Cloudera.
Optimisation des dépenses liées au cloud analytique en accédant aux données dans Iceberg et en tirant parti des capacités robustes d'ingestion et de traitement des données de Cloudera.
Accélération de la préparation des données pour l'IA en exploitant Spark et NiFi pour un traitement plus rapide des données.
Entraînement efficace des modèles sur de multiples versions de données avec une utilisation réduite des ressources de calcul et de stockage.
Magasins de fonctionnalités à plusieurs niveaux alliant Iceberg et HBase pour une IA à faible latence.
Exécution de charges de travail hybrides à l'aide de ressources de calcul dans le cloud public sur des données sensibles stockées sur site.

Découvrez les parcours d'Illumina et de LY Corporation avec Apache Iceberg et comment elles surmontent leurs défis en matière de données et d'analyse à grande échelle.

Les innovations de Cloudera pour faire face aux défis majeurs

Bien que Lakehouse et Iceberg offrent des avantages significatifs, notamment la convergence de l'ensemble de vos données et l'accélération des analyses, nos clients nous ont fait part de quelques défis liés à l'adoption d'Iceberg. Tout d'abord, leurs données se trouvent dans plusieurs clouds, sur site et dans des systèmes périphériques, et il est pratiquement impossible de transférer toutes ces données vers le cloud pour tirer parti d'Iceberg. Ils ont donc besoin de la même prise en charge d'Iceberg sur site et dans le cloud. Deuxièmement, il leur faut l'intégration avec plusieurs moteurs de fournisseurs afin de pouvoir partager facilement les données entre les systèmes en toute confiance, tout en assurant leur suivi et leur traçabilité. À mesure que le volume des données croît, l'optimisation manuelle et continue des tables Iceberg pour des performances optimales devient très coûteuse et exigeante en experts comme en ressources informatiques. Enfin, si Iceberg augmente l'utilisation des données, la liberté d'employer n'importe quel outil introduit des risques et nécessite une gouvernance et une sécurité efficaces pour contrôler l'accès et fournir une gestion des métadonnées pour l'auditabilité, la traçabilité et la visibilité afin de mieux comprendre les données et d'améliorer leur utilité.

Nous innovons en permanence pour résoudre les défis de nos clients et avons apporté plusieurs améliorations à notre plateforme afin de répondre à ces problèmes récurrents :

Iceberg disponible partout avec le lakehouse hybride : prise en charge native d'Iceberg sur site et dans divers clouds publics, avec la possibilité de migrer des applications et du code pour exploiter Impala, Spark, NiFi, Flink et Hive sur les mêmes données avec la même expérience. Les clients peuvent ainsi moderniser leur centre de données avec des capacités cloud-natives. Iceberg sur Ozone fournit des magasins d'objets compatibles S3 sur site. Cloudera permet aux entreprises d'unifier leurs données dans le cloud et sur site sous un modèle unique de gouvernance et de sécurité, avec des contrôles d'accès précis, des métadonnées en version et un catalogue partagé.
Création d'applications en temps réel : créez des pipelines CDC en temps réel et ingérez et unifiez de façon fluide les données par lots et en flux grâce à notre offre de données en mouvement pour les pipelines de streaming (NiFi+Kafka+Flink-on-Iceberg).
Interopérabilité totale avec l'intégration du catalogue REST : favorisez l'interopérabilité avec des moteurs externes et des écosystèmes ouverts grâce à une sécurité et une gouvernance uniques.
Réduction du coût total de possession et performances accélérées avec Cloudera Lakehouse Optimizer : l'IA intégrée ajuste automatiquement le compactage, l'expiration des instantanés et la disposition, sans aucun réglage manuel.
Compréhension complète de toutes les sources et destinations de données : Octopai by Cloudera permet une automatisation intelligente des métadonnées et une traçabilité complète du cycle de vie de tous les data flows, même en dehors de Cloudera, pour une meilleure visibilité des données.
HA/DR et faible latence dans toutes les applications : la réplication des tables Iceberg offre résilience et flexibilité aux architectures de données HA.
Adoption rapide et sans risque grâce à des outils de migration intelligents : notre modèle « Tables Hive vers Apache Iceberg » simplifie l'intégration.

Alors que nous envisageons un avenir où Apache Iceberg sera la base et le pivot permettant l'utilisation de données et de l'IA sur de multiples plateformes, nous améliorons sans relâche les capacités d'Iceberg afin d'offrir une agilité et une intelligence sans précédent à chaque entreprise. » Bill Zhang, vice-président des stratégies de produits, Cloudera

Perspectives

Nous pensons qu'Iceberg continuera à dominer en tant que norme d'entreprise pour les formats de tables ouvertes. Les nouvelles innovations en matière d'optimisations automatisées, de prise en charge multimodale, de gestion des métadonnées et d'intégration Python ne feront que renforcer son adoption. D'autres formats de tables ouvertes adopteront probablement une approche plus spécialisée, adaptée à l'exécution de charges de travail données ou dans des environnements spécifiques, dans une logique de complémentarité avec Iceberg.

L'objectif de Cloudera est d'aider ses clients à créer un data lakehouse ouvert alimenté par Iceberg, avec une complexité réduite, une plus grande flexibilité et un impact accru. Nous nous attachons à fournir une sécurité et une gouvernance de niveau entreprise, des optimisations supplémentaires, des mécanismes de stockage à plusieurs niveaux et un « catalogue de catalogues » afin d'améliorer l'interopérabilité et la collaboration. Lancez-vous dès aujourd'hui avec un essai de cinq jours de Cloudera Lakehouse ou en lisant nos guides pratiques.

Navita Sood

Director Product Marketing, Modern Data Architectures

Plus d'articles de cet auteur ›

En relation

21 mai 2026 | Technique

Définition de la plateforme de données hybride moderne

5 minute de lecture • Angela Mann, Suzy Tonini

Vous êtes prêt(e) à vous lancer ?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.