L'architecture « lakehouse » a été développée dans le but de combiner l'échelle non structurée du lac de données avec les performances structurées du data warehouse. Ce changement a unifié les données de l'entreprise et a permis de créer la première véritable « source unique de vérité ». Mais en 2026, la mission s'est élargie. À l'aube de l'ère de l'IA agentique, le data lakehouse évolue d'un simple référentiel de rapports rétrospectifs destinés à faciliter la prise de décision, vers une couche contextuelle haute performance qui alimente des agents d'entreprise autonomes pour soutenir une action autonome et immédiate. Sa plateforme ouverte, flexible et fiable est enrichie par l'interopérabilité, la gestion des données en temps réel, la sécurité, la gouvernance, la portabilité entre les clouds et sur site, et des automatisations d'IA intégrées pour toutes les fonctions administratives et opérationnelles.
Chez Cloudera, nous constatons une transformation fondamentale dans la façon dont les dirigeants des entreprises du Fortune 2000 perçoivent leurs données. La pression provient de leur besoin d'alimenter efficacement les agents d'IA autonomes. Ils utilisent Cloudera Lakehouse pour unifier les données structurées, semi-structurées, et non structurées afin de permettre le « zero-copy », le « zero-ETL », l’ajustement fin du modèle en temps quasi réel et l’inférence en temps réel. Le Lakehouse permet les pipelines RAG, les magasins de fonctionnalités d’IA et les pipelines de streaming en temps réel, offrant des cadres de gouvernance, des couches de contexte sémantique et une intelligence opérationnelle pour les agents d'entreprise.
À l'ère de l'IA, vos données constituent votre plus grand atout. Il est donc normal que votre stratégie de données détermine l'outil que vous utilisez ou l'endroit où vous formez et exécutez votre IA, et non l'inverse. Cependant, de nombreux fournisseurs continuent de promouvoir un modèle de « consolidation en premier », vous obligeant à déplacer ou à copier vos données dans leur environnement de gouvernance propriétaire ou cloud avant de pouvoir les utiliser. Non seulement cela ajoute des coûts, de la complexité et des risques supplémentaires à votre stratégie de données, mais cela vous oblige souvent aussi à abandonner la propriété et le contrôle de vos données.
Votre data lakehouse doit être ouvert, flexible, portable, interopérable et adaptable afin que si votre stratégie en matière de données change, votre lakehouse s'y adapte. Ainsi, les formats de table ouverts (Apache Iceberg), les catalogues ouverts (Apache Polaris), les moteurs de requêtes ouverts, les API REST et l'accès fédéré deviennent la nouvelle référence et constituent les éléments de base du lakehouse de Cloudera.
Les LLM sont formés sur Internet. Ils ne connaissent pas votre entreprise. Le succès de l’IA ne dépend plus de la qualité du modèle. Cela dépend des flux de travail que vous automatisez et de la précision du contexte commercial que vous fournissez aux modèles — enregistrements ERP, transactions financières, journaux de la chaîne d'approvisionnement, etc.
Cloudera Data Lakehouse fournit une couche sécurisée, bien protégée et contextuelle pour vos agents :
Contexte à 360 degrés : Unifiez et mettez à disposition les données provenant de la périphérie, des centres de données et des nuages grâce à une couche de gouvernance unique offrant un contexte complet à 360 degrés.
Données multimodales : transformation, nettoyage et unification des données non structurées telles que les journaux, les vidéos et les images, augmentant les analyses et le raisonnement grâce à des tableaux structurés.
Sémantique partagée : Combinez les métadonnées techniques, commerciales et opérationnelles pour permettre aux agents de découvrir, de comprendre et d'utiliser facilement vos données dans le contexte commercial approprié.
Lignée à spectre complet : Lorsqu'un agent IA prend une décision d'achat d'1 million de dollars, vous avez besoin d'une « piste papier », ou d'une explicabilité. Cloudera fournit cette explicabilité grâce à une traçabilité de bout en bout et à un traçage automatique depuis le capteur de bord jusqu'à la sortie finale du modèle.
Le lakehouse de Cloudera fournit un contexte en temps réel à travers des environnements distribués et hétérogènes, permettant aux entreprises de garder leurs données, modèles et règles métier sous leur contrôle tout en fournissant un contexte complet aux systèmes d’IA.
Cloudera vous permet d'intégrer des analyses et de l'IA aux données, où qu'elles se trouvent. Que vos données résident dans un stockage d'objets sur site, un cloud privé ou plusieurs clouds publics, notre lakehouse offre une IA portable avec une architecture unifiée sans copie. Vous pouvez développer dans le cloud et faire de l’inférence sur site – sans aucun coût de refonte – pour garder vos données sous votre contrôle et éviter la fuite de propriété intellectuelle (PI). Pour les institutions financières mondiales, comme OCBC Bank, cette ouverture architecturale leur permet d’étendre les capacités IA/ML à l’ensemble du groupe tout en respectant des exigences strictes de résidence et de souveraineté régionales des données.
Les systèmes d'IA sont extrêmement sensibles à la qualité, à la fraîcheur et à la cohérence des données. Avec la croissance exponentielle des volumes de données et des workflows d'IA, l'optimisation manuelle devient insoutenable. Cloudera intègre des automatisations pilotées par l'IA directement au sein de la plateforme Lakehouse pour :
Accès aux données
Optimisation des données
Concaténation
Évolution du schéma
Balises et classification
Réglage des charges de travail
Surveillance de la qualité
Application de la gouvernance
Traçabilité
Gestion du cycle de vie
Il s'auto-optimise continuellement tout en réduisant la complexité opérationnelle pour les équipes de données et d'IA. En utilisant Cloudera Agent Studio, nos clients déploient des agents qui surveillent, transforment et déplacent les données de manière autonome en fonction des intentions commerciales.
La distinction entre « streaming » et « batch » s'estompe. Pour soutenir les flux de travail agentiques, les données ne peuvent pas dater de quelques minutes ou heures ; elles doivent être continues.
Cloudera Open Data Lakehouse sert de lakehouse en streaming pour traiter chaque point de données comme un événement, permettant aux agents IA de répondre aux perturbations de la chaîne d'approvisionnement ou aux anomalies financières au millième de seconde près après leur occurrence. Il traite ces événements à l'endroit même où ils se produisent et effectue des analyses complexes sur les données en flux avant de les intégrer dans le lakehouse pour une prise de décision en temps quasi réel. Il fournit également les données en flux continu prétraitées aux agents en phase d'inférence pour une action en temps réel. Le lakehouse inclut également des capacités de partage et de fédération de données, garantissant que les données provenant d'autres sources peuvent être traitées avec une latence minimale, sans mouvement de données inutile ni transformations de données.
Lakehouse n'est pas un monolithe centralisé. Alors que l'IoT, les usines intelligentes et les applications mobiles se multiplient, l'inférence en périphérie (ou edge computing) est devenue cruciale. Cloudera étend le Lakehouse vers l'extérieur, permettant l'analyse et l'action là où les données sont générées — à la périphérie (ou edge computing) — tout en synchronisant les informations vers le hub central. Chez Navistar : en traitant en temps réel les données des capteurs provenant de milliers de camions connectés, ils ont réduit les coûts d’entretien de 30 % en déclenchant automatiquement des actions de maintenance proactives.
Chez Cloudera, nous constatons une convergence des architectures Lakehouse et Fabric. Pendant que le Lakehouse unifie les données, la fabric active les métadonnées (capture automatisée à l'ingestion : traçabilité, balises de sensibilité, et plus). L'ensemble permet d'automatiser la découverte, l'intégration et la gouvernance des données. Cela simplifie l'accès aux données n'importe où avec une sécurité sans duplication, sans ETL et sans redondance.
La première vague d’IA concernait la conversation. La prochaine vague concerne les agents. Les gagnants de cette ère ne seront pas ceux qui se contentent de « stocker » le plus de données ; ce seront ceux qui sauront fournir un contexte fiable, continu et multimodal aux systèmes autonomes, en formulant des recommandations et des décisions claires. En fournissant aux agents d’IA un accès contrôlé et fédéré à toutes les données, Cloudera aide les plus grandes entreprises du monde à passer de la simple conversation à l’action.
Que vos données se trouvent dans le centre de données, dans les clouds ou à la périphérie (edge computing), Cloudera Open Data Lakehouse sert de lakehouse hybride pour garantir qu'elles sont prêtes pour un avenir autonome.
Regarder la vidéo pour découvrir le fonctionnement de Cloudera Open Data Lakehouse.
Visitez Cloudera Open Data Lakehouse pour en savoir plus.
This may have been caused by one of the following: