Les leçons de deux entreprises mondiales qui ont modernisé l'ingénierie des données pour une IA évolutive
De l’analyse prédictive à l’IA générative, chaque entreprise cherche à transformer les données en valeur. Mais pour de nombreuses équipes, le véritable défi se trouve sous la surface — le travail d’ingénierie des données nécessaire pour rendre ces données utilisables, fiables et évolutives. Dans des environnements complexes, les ingénieurs continuent d’assembler des pipelines en utilisant des formats de table hérités, en dupliquant la logique à travers les outils, et en adaptant la gouvernance a posteriori. Ces inefficacités créent des freins à chaque étape, retardant les résultats et limitant l'impact des initiatives d'IA et d'analyse, même les plus avancées.
Pour les entreprises souhaitant rationaliser et pérenniser leur pile d'ingénierie des données, Apache Iceberg comme format de table ouvert et Apache Spark comme moteur de calcul ouvert se sont révélés être une combinaison puissante. Ensemble, ils offrent une base ouverte, évolutive et standardisée pour le traitement et la gestion de données à l'échelle du pétaoctet (PB), sans sacrifier la gouvernance, la flexibilité ou la performance.
Dans ce blog, nous allons examiner de plus près comment deux organisations mondiales ont transformé leurs pipelines de données en utilisant Spark et Iceberg avec la plateforme de données et d'IA Cloudera. Nous verrons comment ils ont réduit les temps de recherche de 80 %, normalisé les flux de travail entre les équipes et accéléré le passage des données brutes à des informations prêtes à être exploitées par l'IA.
Vodafone Idea est l’une des trois principales entreprises de télécommunications en Inde, desservant 220 millions de clients. L'entreprise était confrontée à des problèmes d'échelle : son lac de données basé sur Hive avait atteint plus de 17 Pb, et les problèmes de performances mettaient en danger des opérations commerciales critiques. Certaines requêtes de reporting ont nécessité plus de 70 heures pour être traitées ! Cela a retardé la conformité, les analyses et les rapports réglementaires.
Plutôt que de simplement moderniser l’infrastructure, Vodafone Idea a choisi de ré-architecturer sa plateforme de données. En collaborant avec Cloudera, l'entreprise a exploité Iceberg pour des requêtes plus rapides grâce à des métadonnées optimisées et à l'évolution du schéma, et a reconstruit ses flux de travail de traitement sur Spark pour tirer parti du calcul distribué pour un traitement de données efficace à grande échelle.
Pour les rapports réglementaires, ils ont associé Iceberg à Apache Impala en tant que moteur d'interrogation interactif pour permettre un accès rapide et fiable aux ensembles de données à l'échelle du pétaoctet. Pendant qu'Impala gérait les requêtes de reporting, Iceberg a joué un rôle essentiel dans les coulisses : sa prise en charge des transactions ACID (atomicité, cohérence, isolation et durabilité, propriétés qui garantissent le traitement fiable et cohérent des transactions de base de données), ses capacités flexibles d'évolution des schémas et ses riches métadonnées ont permis de garantir la cohérence des flux de travail de reporting, même en cas de modification des données.
Grâce à l'intégration avec Cloudera Shared Data Experience (SDX), l'équipe a également bénéficié d'une gouvernance fine avec un contrôle d'accès basé sur les rôles et les attributs, afin de s'assurer que les bonnes personnes ont accès aux bonnes données. Cette base a permis à l’entreprise de fournir des rapports rapides et auditables tout en répondant aux exigences réglementaires croissantes.
Transformer les télécommunications grâce à une efficacité basée sur les donnéesEn s’associant à Cloudera, Vodafone Idea a préservé la flexibilité, renforcé la gouvernance et accéléré la livraison d’informations à grande échelle — sans avoir à reconstruire toute son infrastructure de données. En utilisant Spark pour l'ingestion, Iceberg pour la gestion unifiée des tables et Impala pour les rapports, ils ont modernisé leur infrastructure tout en réutilisant la logique et les flux de travail existants. Ensemble, cette architecture a fourni des résultats mesurables :
|
Une société pharmaceutique internationale gérant des données de recherche clinique à l'échelle PB était confrontée à un défi familier mais croissant : elle disposait d'un trop grand nombre d'outils, ce qui posait des problèmes de fiabilité des données et avait du mal à respecter les normes de conformité, en plus de faire face à des pressions pour accélérer l'IA et les analyses. Les équipes d'ingénierie des données devaient exécuter plus de 10 000 tâches ETL par jour, mais ne disposaient pas d'une méthode standardisée pour construire, gérer ou valider les pipelines au sein des équipes.
Avec Cloudera sur AWS, l’entreprise a défini une direction claire à suivre. L'équipe a standardisé tous les pipelines de données à l'aide de Spark sur Cloudera Data Engineering, unifiant et mettant à l'échelle le traitement pour les charges de travail par lots, en flux continu et de Machine learning. Parallèlement, ils ont adopté Iceberg comme format de table ouvert par défaut afin de garantir une évolution cohérente des schémas, un contrôle de version intégré et une gouvernance d'entreprise au sein des équipes et des environnements.
En adoptant Spark et Iceberg sur Cloudera, l'entreprise a posé une base DataOps propre et évolutive qui a standardisé le pipelinage des données, a permis un partage sécurisé des données entre les équipes et les outils, et a ouvert la voie à une IA et des analyses plus rapides et plus avancées. Cette fondation prend désormais en charge tout, des flux de travail d'audit réglementaire aux modèles d'IA qui accélèrent la découverte d'essais cliniques et le développement de médicaments, garantissant que l'entreprise peut intégrer de manière transparente toute nouvelle technologie ou moteur à l'avenir.
Transformer le secteur pharmaceutique grâce à une plateforme de données unifiéeLa standardisation de la plateforme Cloudera a permis à cette entreprise pharmaceutique internationale d'atteindre un nouveau niveau de cohérence opérationnelle :
|
Ces deux histoires partagent un point commun : les deux organisations ont fait face à la fragmentation, à la pression d'échelle et à la complexité croissante de leurs flux de travail de données. En standardisant Apache Spark et Apache Iceberg avec Cloudera, ils ont reconstruit leurs pipelines autour de composants ouverts, évolutifs et de confiance — permettant une meilleure gouvernance, des performances plus rapides et des data flows plus propres pour l’IA et l’analytique.
Avec Cloudera Data Engineering, les entreprises disposent d'une solution de bout en bout qui fonctionne dans des environnements hybrides et multi-Cloud. Il associe Spark, Iceberg et l'orchestration intégrée à Airflow pour permettre aux équipes de :
Regardez cette démonstration interactive pour voir comment Spark et Iceberg alimentent des pipelines fiables et évolutifs sur Cloudera. Essayez-le vous-même avec l'essai gratuit de 5 jours de Cloudera Data Engineering et commencez à créer des flux de travail de données prêts pour l'IA dès aujourd'hui.
This may have been caused by one of the following: