« Comment obtenir les bonnes données, au bon endroit, au bon moment ? »
C'est le principal défi à relever pour donner vie à l'IA agentique dans l'entreprise. Bien que les grands modèles de langage (LLM) aient débloqué de puissantes capacités de raisonnement et d'orchestration, leur efficacité repose sur quelque chose de plus fondamental : fournir le bon contexte commercial pour le raisonnement et la prise d'action. L'ingénierie du contexte est une discipline axée sur la façon dont les données, les métadonnées, les politiques d'accès et la mémoire se combinent pour guider le comportement des agents de manière sécurisée et explicable.
Chez Cloudera, nous en sommes témoins de première main en collaborant avec des entreprises clientes expérimentant de nouveaux cas d'utilisation de l'IA générative (GenAI) et de l'IA agentique. La création de systèmes d'IA agentiques dépend d'un problème auquel la plupart des organisations sont confrontées : une architecture de données qui capture, gère et réutilise les connaissances tout au long du cycle de vie de l'IA.
Dans ce blog, nous partageons notre approche de la construction de systèmes d'IA agentique, qui regroupe les capacités fondamentales en trois catégories : Connecter, Contextualiser et Consommer. Cette approche permet à nos entreprises clientes de construire des systèmes agentiques intelligents, fiables, explicables et prêts à la production.
Les agents d'IA modernes ne peuvent pas prospérer dans des environnements fragmentés. Néanmoins, la plupart des entreprises possèdent des données réparties sur plusieurs clouds, centres de données, systèmes existants et dans des formats incohérents. Exposer ces données à un système d'IA sans structure ni garanties conduit à des problèmes de performance et à des risques de gouvernance.
Dans les mises en œuvre réussies, nous avons vu des organisations se concentrer d'abord sur la création d'une couche de données unifiée qui s'étend sur les environnements et les formats. Il ne s'agit pas de centraliser toutes les données, mais de les assembler dans une architecture de données. Il s'agit d'une couche unifiée avec des métadonnées partagées, des politiques d'accès, une ingénierie de données fédérée et une interopérabilité au niveau de l'exécution.
La mise en œuvre d'un format de table ouvert et d'un accès API standard simplifie l'accès aux données tout en offrant de la flexibilité. Les architectures open lakehouse sont importantes ici car elles offrent des vues en temps réel et cohérentes des données entre les moteurs — en particulier pour les flux de travail agents qui dépendent de la génération augmentée par récupération fiable (RAG) et du raisonnement.
Une fois les données connectées, le défi consiste à aider les agents à comprendre quelles données existent et comment elles sont utilisées. Ceci commence par la découverte : l'identification automatique des sources de données dans les systèmes en Cloud et sur site et l'activation des métadonnées (noms de tables, champs, formats, etc.). Des outils comme Cloudera Octopai Data Lineage scannent les scripts ETL, rétroconçoivent la logique des pipelines et capturent comment les données circulent et se transforment entre les systèmes de la source à leur destination finale, capturant toutes les dépendances en cours de route.
Ces informations forment la base de la traçabilité, qui montre comment les ensembles de données sont liés et comment ils évoluent au fil du temps. La traçabilité est importante lorsque vous devez valider un résultat, expliquer une recommandation ou une action de l'agent, ou remonter à la source d'une sortie défectueuse. Il crée de la transparence et de la confiance dans les systèmes avec lesquels les agents interagissent.
Enfin, le catalogage apporte à ces informations une structure utilisable. Un magasin centralisé de métadonnées aide à la fois les humains et les agents à localiser ce dont ils ont besoin, à comprendre les relations entre les ensembles de données et à mettre en évidence les politiques qui affectent la manière dont les données doivent être traitées. Un catalogue solide agit comme un modèle, fournissant un graphe de connaissances qui donne aux agents une carte claire et navigable du patrimoine de données de l'entreprise. Il capture les métadonnées techniques, opérationnelles et commerciales, y compris toutes les définitions commerciales et la logique commerciale nécessaires pour comprendre les données et prendre des mesures.
La contextualisation permet aux agents de faire plus que récupérer des informations. Il leur permet d'explorer des modèles, de poser de meilleures questions et de prendre des décisions en comprenant mieux l'environnement dans lequel ils opèrent.
La dernière étape dans la construction de systèmes agentiques consiste à permettre à l'IA d'agir de manière traçable, sûre et fondée sur les bonnes informations. C'est là que les choix architecturaux sont importants : les rambardes, l'observabilité et l'accès contrôlé déterminent si les agents se comportent de manière prévisible lorsque cela compte.
Nous avons trouvé utile de cartographier les techniques courantes d'ingénierie de contexte aux défis sous-jacents des données qu'elles sont conçues pour résoudre. Voici quelques exemples de la manière dont ils se manifestent dans la pratique :
Défi de préparation des données |
Technique d'ingénierie du contexte |
L'approche de Cloudera |
Fuites de données sensibles dans les invites |
Ingénierie des invites |
Inciter les passerelles à masquer les données sensibles |
Données désordonnées, non structurées ou index vectoriels obsolètes |
RAG |
Pipelines de données en flux continu en temps réel, gouvernés et sécurisés |
Manque de traçabilité, ensembles de formation fragiles |
Réglage fin |
Améliorez l'explicabilité de l'IA grâce au suivi de la lignée |
Agents exagérés, décisions opaques |
Accès aux outils et à l'API |
Balisage des métadonnées, classification autonome des données, accès granulaire et pistes d’audit complètes sur chaque appel système |
Les agents ne peuvent pas accéder aux connaissances internes de l’entreprise. |
Protocoles de contexte de modèle (MCP) |
Accès contrôlé au contexte basé sur Apache Iceberg avec des catalogues REST |
Le choix de la bonne technique dépend du rôle de l'agent, de la sensibilité des données et de l'environnement opérationnel. Voici les cas d'utilisation courants pour les entreprises et les combinaisons recommandées qui ont bien fonctionné en pratique :
Cas d'utilisation |
Méthode(s) recommandée(s) |
Assistant de connaissances internes |
RAG + base de données vectorielle + solution d'ingénierie rapide |
Bot d’activation des ventes avec des données de gestion de la relation client (CRM) |
Appel de fonction + injection de contexte métier |
Agent de support spécifique au produit |
Réglage de précision ou RAG + MCP avec contexte partagé |
Flux de travail d'analyse de données multi-agents pour extraire des informations. |
LangGraph + MCP + accès aux outils + mémoire segmentée |
Compréhension de documents (PDF, Excel) |
Entrées multimodales + pipelines de prétraitement |
Cette approche de la consommation garantit que les agents travaillent avec précision, sécurité et dans le respect des objectifs de l'entreprise.
Chez Cloudera, nous avons passé des années à naviguer dans les complexités des données d'entreprise : combler les silos, appliquer la gouvernance, construire des pipelines sécurisés pour l'IA et l'analyse, et faire émerger la lignée à travers des environnements hybrides. Ainsi, lorsque les modèles d'IA agentique ont commencé à émerger, nous ne partions pas de zéro. Nous savions où le contexte réside, et comment le capturer de manière sûre et sécurisée avec les bonnes barrières de sécurité.
Avec Cloudera Octopai Data Lineage, les équipes peuvent automatiquement cartographier les flux de données, tracer les dépendances et cataloguer les métadonnées à travers les environnements cloud et sur site. En intégrant des catalogues de données, de l’observabilité et du contrôle d’accès, les agents peuvent interagir avec les systèmes de manière plus sûre et intelligente. Les équipes gagnent en visibilité, en gouvernance et en confiance, essentiels pour étendre ces flux de travail à l'ensemble de l'entreprise.
Pour rendre ces éléments exploitables, nous avons intégré ces capacités dans notre Open Data Lakehouse et nos Cloudera AI Studios, donnant aux entreprises les bases pour concevoir, déployer et gérer des systèmes agentiques sécurisés en production.
Découvrez comment Cloudera peut vous aider à mettre en production vos agents IA dans le contexte métier dont ils ont besoin.
This may have been caused by one of the following: