L’IA oblige les entreprises à affronter un projet qu’elles ont reporté pendant des années : des domaines de données fragmentés.
La fragmentation était autrefois une gêne. Certes, il a fallu quelques étapes supplémentaires — et quelques jours de plus — pour extraire les reports de différentes régions ou départements. L'équipe informatique pourrait devoir intervenir pour résoudre les écarts. Mais aucune de ces perturbations n’était suffisante pour être un facteur décisif.
Jusqu'à présent.
Dans un contexte d'IA, un patrimoine de données fragmenté signifie :
Cela signifie duplication, latence et angles morts au moment précis où les entreprises tentent d'opérationnaliser l'IA à grande échelle.
En d'autres termes, la fragmentation est soudainement un obstacle majeur.
Dans notre précédent billet, nous avons exploré les raisons pour lesquelles un accès unifié et gouverné aux données est le fondement d'une IA de confiance, et pourquoi la consolidation seule n'est pas la solution. La centralisation des données (c'est-à-dire leur regroupement en un seul lieu physique) peut sembler une bonne chose en théorie, mais en pratique, elle introduit des compromis opérationnels que les entreprises ne peuvent plus se permettre. Cliquez ici pour savoir pourquoi.
L'alternative est la fédération, qui permet aux organisations de fonctionner comme si leurs données étaient unifiées. Mais il y a une nuance que de nombreux acheteurs découvrent désormais :
Toutes les stratégies de fédération ne se valent pas.
La plupart des fournisseurs utilisent le terme « fédération » pour décrire un avantage de leur plateforme de données et d'IA (c'est-à-dire permettant aux organisations d'utiliser toutes leurs données pour exécuter des analyses et de l'IA), mais ils n'entendent pas toujours la même chose par ce terme. Lors de l'évaluation d'une plateforme, il est essentiel de comprendre exactement ce que chaque fournisseur propose et dans quelle mesure cela correspond à vos besoins avant de vous engager de manière excessive.
D'une manière générale, il existe aujourd'hui deux approches dominantes sur le marché : la fédération par consolidation préalable et la fédération en place (souvent appelée virtualisation des données).
Le premier modèle de fédération est ce que l’on appelle une approche « consolidation d’abord » — la fédération devient possible après avoir consolidé les données dans l’environnement cloud du fournisseur ou à l’intérieur de leur modèle de gouvernance. Si vous souhaitez accéder à plusieurs systèmes, cela implique généralement de copier ou d'ingérer régulièrement des données sur leur plateforme.
En termes simples, c'est une fédération parce que vous pouvez analyser toutes vos données en un seul endroit. Mais vous devez d'abord tout déplacer dans leur maison.
Pour les chefs d'entreprise, cette approche a des implications tangibles, notamment :
En d'autres termes, plus vos données sont dispersées, plus elles sont coûteuses et difficiles à sécuriser. Pour les entreprises cloud-native, cette approche peut être acceptable. Mais pour les entreprises hybrides réglementées, cela introduit des frictions qui s'accumulent au fil du temps.
Le modèle de fédération alternative, défendu par Cloudera, adopte une position fondamentalement différente : amener le calcul et l'IA aux données, peu importe où elles se trouvent, au lieu de forcer les données à se déplacer.
La fédération en place rassemble les données de manière logique plutôt que physique, afin que les équipes puissent y accéder et les analyser là où elles se trouvent déjà — dans des environnements publics, privés et locaux — sans les copier d'abord sur une autre plateforme.
Cette différence peut sembler subtile, mais dans la pratique, elle change tout :
En conséquence, vos données restent là où cela a le plus de sens pour des raisons réglementaires, opérationnelles ou de performance, et vos équipes obtiennent toujours une vue complète en temps réel sur celles-ci.
Lorsque la fédération fonctionne dans des environnements hybrides sans réplication (c'est-à-dire fédération sur place), elle crée des conditions que les modèles axés sur la consolidation ont du mal à égaler. Cette distinction modifie le profil de risque de l'ensemble de votre stratégie d'IA en dehors des environnements cloud uniquement.
Dans les modèles axés sur la consolidation (proposés par des fournisseurs comme Databricks et Snowflake), les données peuvent sembler unifiées, mais elles existent toujours dans plusieurs environnements. Les données sont copiées, ingérées ou répliquées dans une plateforme contrôlée par le fournisseur avant d'être analysées. Chaque copie supplémentaire élargit la surface de conformité.
Plus d'environnements signifient plus d'autorisations à gérer, plus de politiques à synchroniser et plus de champs d'audit à réconcilier. À mesure que la réplication se développe, la complexité de la gouvernance augmente également.
Les modèles de fédération sur place, comme ceux de Cloudera, laissent les données où elles se trouvent. Ainsi, les politiques de gouvernance sont définies une seule fois et appliquées partout de manière cohérente. Au lieu de recréer des autorisations entre les systèmes, un plan de contrôle unique et cohérent régit l'accès dans les environnements hybrides. Chez Cloudera, nous l'appelons une gouvernance qui évolue avec vos données.
Pensez-y comme à un système mondial de badges d'entreprise. Vous ne voudriez pas émettre un nouveau badge de sécurité chaque fois qu'un employé visite un bureau différent. Les autorisations d'accès sont définies de manière centralisée, et le même badge fonctionne dans le siège social, les bureaux régionaux et les centres de données, appliquant les mêmes règles de sécurité partout.
Vous définissez les règles une seule fois et chaque porte les reconnaît, même à des endroits différents. C’est une sécurité à redondance zéro, et c’est un énorme avantage pour la maîtrise des risques car la complexité ne se multiplie pas à mesure que votre environnement se développe.
Dans tous les secteurs, l'IA assume de plus en plus de responsabilités, ce qui s'accompagne d'un besoin croissant de responsabilisation et d'explicabilité.
Lorsque l'IA influence les approbations de crédit, les signaux de fraude, les décisions de tarification ou les ajustements de la chaîne d'approvisionnement, par exemple, chaque résultat doit être défendable. Les régulateurs, les auditeurs et la direction exécutive s'attendent de plus en plus à voir non seulement le résultat, mais aussi le chemin complet qui l'a produit.
Dans les entreprises hybrides, ce parcours se trouve rarement dans un seul environnement. Les données peuvent provenir de sites locaux ou de la périphérie (ou edge computing), être enrichies dans un cloud public, jointes à des données SaaS, et consommées par un modèle exécuté ailleurs. La traçabilité dans cette réalité n'est pas négociable.
Les approches de fédération axées sur la consolidation tentent de simplifier la traçabilité des données en centralisant les données. Mais, en pratique, la réplication crée des historiques parallèles : des ensembles de données d’origine dans les systèmes sources et des copies transformées dans les environnements analytiques. Au fil du temps, expliquer une décision peut nécessiter de réconcilier plusieurs versions des mêmes données entre les systèmes. La traçabilité devient une information qu’il faudrait reconstituer.
Grâce à la fédération intégrée aux fonctionnalités de traçabilité des données (comme les outils de traçabilité des données de Cloudera), ce problème ne se pose plus. Comme les données sont accessibles là où elles se trouvent (plutôt que répliquées dans un environnement distinct), la traçabilité reste ancrée à la source d'origine.
Cette distinction est particulièrement importante dans les flux de travail hybrides et dépendants de la périphérie (ou edge computing). Avec une approche de fédération en place, vous pouvez être assuré que si un régulateur ou un nouveau CRO se présente des années plus tard pour demander comment une décision spécifique a été prise, la réponse ne sera pas enterrée dans une boîte noire qui nécessite un déchiffrement. C'est documenté, traçable et défendable.
Dans les modèles axés sur la consolidation, l'IA opère à l'intérieur de l'environnement où les données ont été centralisées. Cela fonctionne, tant que le mouvement des données suit le rythme de la réalité opérationnelle. Dans les entreprises hybrides, c'est rarement le cas.
Lorsque l'IA est responsable de résultats concrets tels que la tarification dynamique ou les ajustements de la chaîne d'approvisionnement, elle doit opérer au sein de systèmes distribués en direct, et non pas sur des copies analytiques en aval. Chaque étape de réplication introduit des chaînes de dépendances, créant des délais de latence / d’ingestion et un potentiel de dérive entre les systèmes opérationnels réels et les modèles d’IA qui les utilisent.
La fédération sur place, d'autre part, maintient l'IA alignée avec la réalité opérationnelle, garantissant que le contexte est toujours actuel et alimentant les cas d'utilisation opérationnels de l'IA qu'une stratégie de fédération par consolidation ne pourrait pas suivre au-delà du cloud.
Pour comprendre pourquoi tout cela est important dans la pratique, prenons un exemple. Considérez une entreprise de logistique mondiale déployant l'IA pour optimiser les itinéraires de livraison en temps réel. Une seule décision de routage peut dépendre de :
Si ce modèle d'IA fonctionne sur des instantanés copiés dans un seul cloud il y a des jours, voire des heures, il prend des décisions avec un contexte partiel. Il peut rediriger les conducteurs sans tenir compte des niveaux d’inventaire mis à jour ou optimiser la vitesse sans prendre en compte les contraintes régionales de conformité. Il pourrait s'appuyer sur des données de télémétrie obsolètes provenant de véhicules déjà hors de la route.
Lorsque les systèmes d'IA peuvent accéder en toute sécurité à des données distribuées là où elles se trouvent déjà, avec une sécurité sans redondance et une visibilité complète de la traçabilité, les organisations déploient une IA pleinement opérationnelle qui agit en temps réel, fonctionne dans le cadre des politiques définies et monte en charge dans différents environnements sans ajouter de risque.
Comme nous l'avons vu, les stratégies de fédération ne sont pas toutes conçues pour obtenir les mêmes résultats.
Certains privilégient la consolidation, d'autres la flexibilité hybride et l'accès réglementé. Lorsque vous évaluez Cloudera, Databricks et Snowflake (ou toute solution de fédération de données ou combinaison de celles-ci), les questions suivantes permettent de mettre en évidence les véritables différences :
Les réponses à ces questions vous aideront à déterminer si la fédération deviendra une fonction de commodité centrée sur les cas d'utilisation analytiques, ou le fondement à long terme d'une IA fiable, à coût contrôlé, à l'échelle de l'entreprise.
Concevoir un environnement fédéré signifie regarder sous le capot — aligner les modèles de gouvernance, les contraintes réglementaires, les exigences de performance et les intégrations existantes tout en connectant les systèmes de manière à soutenir une flexibilité à long terme.
L'équipe Professional Services & Training (PS&T) de Cloudera a guidé des organisations de tous les secteurs d'activité à de nombreuses reprises. Que ce soit pour établir une nouvelle stratégie de fédération ou pour optimiser un environnement existant, avoir des conseillers expérimentés à vos côtés peut vous aider à garantir que votre environnement fédéré est non seulement configuré correctement, mais qu'il est également véritablement prêt pour l'IA et conçu pour offrir des résultats mesurables.
Le choix entre la consolidation d'abord et la fédération sur place détermine si l'IA reste en mode pilote ou si elle s'intègre en toute sécurité dans les opérations.
Nulle part ce n'est plus crucial que dans les services financiers, où la détection des fraudes, la gestion des risques et les rapports réglementaires dépendent de données fraîches et inter-systèmes. Dans notre prochain article, nous explorerons comment la fédération remodèle l'analyse en temps réel et la gouvernance de l'IA dans le secteur bancaire.
This may have been caused by one of the following: