L’indice de préparation aux données 2026 : Comprendre les fondements d’une IA réussie

Voir les résultats

24 novembre 2025 | Technique

Comment les équipes de données de pointe créent des pipelines prêts pour l’IA avec Apache Iceberg et Spark

9 minute de lecture • par Pamela Pan , Ying Chen , et Akshat Mathur

Enterprise Ai Plateforme Cloudera Moderniser l'architecture Data Engineering Santé et sciences de la vie Télécommunications

Les leçons de deux entreprises mondiales qui ont modernisé l'ingénierie des données pour une IA évolutive

De l’analyse prédictive à l’IA générative, chaque entreprise cherche à transformer les données en valeur. Mais pour de nombreuses équipes, le véritable défi se trouve sous la surface — le travail d’ingénierie des données nécessaire pour rendre ces données utilisables, fiables et évolutives. Dans des environnements complexes, les ingénieurs continuent d’assembler des pipelines en utilisant des formats de table hérités, en dupliquant la logique à travers les outils, et en adaptant la gouvernance a posteriori. Ces inefficacités créent des freins à chaque étape, retardant les résultats et limitant l'impact des initiatives d'IA et d'analyse, même les plus avancées.

Pour les entreprises souhaitant rationaliser et pérenniser leur pile d'ingénierie des données, Apache Iceberg comme format de table ouvert et Apache Spark comme moteur de calcul ouvert se sont révélés être une combinaison puissante. Ensemble, ils offrent une base ouverte, évolutive et standardisée pour le traitement et la gestion de données à l'échelle du pétaoctet (PB), sans sacrifier la gouvernance, la flexibilité ou la performance.

Dans ce blog, nous allons examiner de plus près comment deux organisations mondiales ont transformé leurs pipelines de données en utilisant Spark et Iceberg avec la plateforme de données et d'IA Cloudera. Nous verrons comment ils ont réduit les temps de recherche de 80 %, normalisé les flux de travail entre les équipes et accéléré le passage des données brutes à des informations prêtes à être exploitées par l'IA.

Comment Vodafone Idea a réduit les temps de requêtes de 80 %

Vodafone Idea est l’une des trois principales entreprises de télécommunications en Inde, desservant 220 millions de clients. L'entreprise était confrontée à des problèmes d'échelle : son lac de données basé sur Hive avait atteint plus de 17 Pb, et les problèmes de performances mettaient en danger des opérations commerciales critiques. Certaines requêtes de reporting ont nécessité plus de 70 heures pour être traitées ! Cela a retardé la conformité, les analyses et les rapports réglementaires.

Plutôt que de simplement moderniser l’infrastructure, Vodafone Idea a choisi de ré-architecturer sa plateforme de données. En collaborant avec Cloudera, l'entreprise a exploité Iceberg pour des requêtes plus rapides grâce à des métadonnées optimisées et à l'évolution du schéma, et a reconstruit ses flux de travail de traitement sur Spark pour tirer parti du calcul distribué pour un traitement de données efficace à grande échelle.

Pour les rapports réglementaires, ils ont associé Iceberg à Apache Impala en tant que moteur d'interrogation interactif pour permettre un accès rapide et fiable aux ensembles de données à l'échelle du pétaoctet. Pendant qu'Impala gérait les requêtes de reporting, Iceberg a joué un rôle essentiel dans les coulisses : sa prise en charge des transactions ACID (atomicité, cohérence, isolation et durabilité, propriétés qui garantissent le traitement fiable et cohérent des transactions de base de données), ses capacités flexibles d'évolution des schémas et ses riches métadonnées ont permis de garantir la cohérence des flux de travail de reporting, même en cas de modification des données.

Grâce à l'intégration avec Cloudera Shared Data Experience (SDX), l'équipe a également bénéficié d'une gouvernance fine avec un contrôle d'accès basé sur les rôles et les attributs, afin de s'assurer que les bonnes personnes ont accès aux bonnes données. Cette base a permis à l’entreprise de fournir des rapports rapides et auditables tout en répondant aux exigences réglementaires croissantes.

Transformer les télécommunications grâce à une efficacité basée sur les données

En s’associant à Cloudera, Vodafone Idea a préservé la flexibilité, renforcé la gouvernance et accéléré la livraison d’informations à grande échelle — sans avoir à reconstruire toute son infrastructure de données. En utilisant Spark pour l'ingestion, Iceberg pour la gestion unifiée des tables et Impala pour les rapports, ils ont modernisé leur infrastructure tout en réutilisant la logique et les flux de travail existants.

Ensemble, cette architecture a fourni des résultats mesurables :

Réduction des temps de requête de 80 %.
Diminution des défaillances de pipelines grâce à la résilience à grande échelle de Spark et aux solides capacités de gestion des tables d'Iceberg.
Rapports réglementaires améliorés (plus rapides et plus fiables).

Comment une entreprise pharmaceutique s'est consolidée pour évoluer : une seule pile technologique, 10 000 emplois

Une société pharmaceutique internationale gérant des données de recherche clinique à l'échelle PB était confrontée à un défi familier mais croissant : elle disposait d'un trop grand nombre d'outils, ce qui posait des problèmes de fiabilité des données et avait du mal à respecter les normes de conformité, en plus de faire face à des pressions pour accélérer l'IA et les analyses. Les équipes d'ingénierie des données devaient exécuter plus de 10 000 tâches ETL par jour, mais ne disposaient pas d'une méthode standardisée pour construire, gérer ou valider les pipelines au sein des équipes.

Avec Cloudera sur AWS, l’entreprise a défini une direction claire à suivre. L'équipe a standardisé tous les pipelines de données à l'aide de Spark sur Cloudera Data Engineering, unifiant et mettant à l'échelle le traitement pour les charges de travail par lots, en flux continu et de Machine learning. Parallèlement, ils ont adopté Iceberg comme format de table ouvert par défaut afin de garantir une évolution cohérente des schémas, un contrôle de version intégré et une gouvernance d'entreprise au sein des équipes et des environnements.

En adoptant Spark et Iceberg sur Cloudera, l'entreprise a posé une base DataOps propre et évolutive qui a standardisé le pipelinage des données, a permis un partage sécurisé des données entre les équipes et les outils, et a ouvert la voie à une IA et des analyses plus rapides et plus avancées. Cette fondation prend désormais en charge tout, des flux de travail d'audit réglementaire aux modèles d'IA qui accélèrent la découverte d'essais cliniques et le développement de médicaments, garantissant que l'entreprise peut intégrer de manière transparente toute nouvelle technologie ou moteur à l'avenir.

Transformer le secteur pharmaceutique grâce à une plateforme de données unifiée

La standardisation de la plateforme Cloudera a permis à cette entreprise pharmaceutique internationale d'atteindre un nouveau niveau de cohérence opérationnelle :

Gouvernance sans interruption : le modèle « écrire-auditer-publier » d’Iceberg permet aux équipes en amont de valider les données avant leur mise en production, sans perturber les flux de travail en aval.
Voyage dans le temps pour la traçabilité : Les équipes réglementaires peuvent accéder instantanément à des instantanés de données historiques, permettant un retour en arrière propre et un support d'audit.
Logique de pipeline partagée : avec Spark comme moteur unifié, les équipes — allant des data engineers aux data scientists — peuvent collaborer facilement et réutiliser les transformations de base à travers les tâches et les environnements, réduisant ainsi les duplications et simplifiant la maintenance.

Construire une fondation moderne pour l'ingénierie des données et l'IA.

Ces deux histoires partagent un point commun : les deux organisations ont fait face à la fragmentation, à la pression d'échelle et à la complexité croissante de leurs flux de travail de données. En standardisant Apache Spark et Apache Iceberg avec Cloudera, ils ont reconstruit leurs pipelines autour de composants ouverts, évolutifs et de confiance — permettant une meilleure gouvernance, des performances plus rapides et des data flows plus propres pour l’IA et l’analytique.

Avec Cloudera Data Engineering, les entreprises disposent d'une solution de bout en bout qui fonctionne dans des environnements hybrides et multi-Cloud. Il associe Spark, Iceberg et l'orchestration intégrée à Airflow pour permettre aux équipes de :

Créez des pipelines une fois pour toutes et exécutez-les où que ce soit, dans le centre de données ou sur des clouds.
Maintenir la confiance et la gouvernance à grande échelle dans le lac de données ouvertes

Regardez cette démonstration interactive pour voir comment Spark et Iceberg alimentent des pipelines fiables et évolutifs sur Cloudera. Essayez-le vous-même avec l'essai gratuit de 5 jours de Cloudera Data Engineering et commencez à créer des flux de travail de données prêts pour l'IA dès aujourd'hui.

Pamela Pan

Product Marketing Analyst

Plus d'articles de cet auteur ›

Ying Chen

Product Manager, Cloudera

Plus d'articles de cet auteur ›

Akshat Mathur

Product Manager, Cloudera

Plus d'articles de cet auteur ›

En relation

18 juin 2026 | Business

De l'hybride par accident à l'hybride dès la conception : maîtriser la souveraineté des données et le contrôle des coûts de l'IA

12 minute de lecture •

Vous êtes prêt(e) à vous lancer ?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.