ClouderaNOW Découvrez les agents d'IA, le cloud bursting et les data fabrics pour l'IA | 8 avril

S'inscrire
  • Cloudera Cloudera
  • | Technique

    Cloudera, Snowflake et Databricks : quel modèle de fédération soutient le mieux l'IA d'entreprise ?

    Navita Sood Headshot
    Flux de données

    L’IA oblige les entreprises à affronter un projet qu’elles ont reporté pendant des années : des domaines de données fragmentés.  

    La fragmentation était autrefois une gêne. Certes, il a fallu quelques étapes supplémentaires — et quelques jours de plus — pour extraire les reports de différentes régions ou départements. L'équipe informatique pourrait devoir intervenir pour résoudre les écarts. Mais aucune de ces perturbations n’était suffisante pour être un facteur décisif.  

    Jusqu'à présent. 

    Pourquoi la fédération de données est importante maintenant 

    Dans un contexte d'IA, un patrimoine de données fragmenté signifie :

    • Modèles entraînés sur un contexte incomplet
    • Des agents prenant des décisions avec des données obsolètes ou invalides
    • Les politiques de gouvernance sont appliquées de manière incohérente dans les différents environnements

    Cela signifie duplication, latence et angles morts au moment précis où les entreprises tentent d'opérationnaliser l'IA à grande échelle. 

    En d'autres termes, la fragmentation est soudainement un obstacle majeur

    Dans notre précédent billet, nous avons exploré les raisons pour lesquelles un accès unifié et gouverné aux données est le fondement d'une IA de confiance, et pourquoi la consolidation seule n'est pas la solution. La centralisation des données (c'est-à-dire leur regroupement en un seul lieu physique) peut sembler une bonne chose en théorie, mais en pratique, elle introduit des compromis opérationnels que les entreprises ne peuvent plus se permettre. Cliquez ici pour savoir pourquoi. 

    L'alternative est la fédération, qui permet aux organisations de fonctionner comme si leurs données étaient unifiées. Mais il y a une nuance que de nombreux acheteurs découvrent désormais : 

    Toutes les stratégies de fédération ne se valent pas. 

    Deux stratégies de fédération concurrentes : centraliser d'abord ou fédérer où se trouvent les données 

    La plupart des fournisseurs utilisent le terme « fédération » pour décrire un avantage de leur plateforme de données et d'IA (c'est-à-dire permettant aux organisations d'utiliser toutes leurs données pour exécuter des analyses et de l'IA), mais ils n'entendent pas toujours la même chose par ce terme. Lors de l'évaluation d'une plateforme, il est essentiel de comprendre exactement ce que chaque fournisseur propose et dans quelle mesure cela correspond à vos besoins avant de vous engager de manière excessive. 

    D'une manière générale, il existe aujourd'hui deux approches dominantes sur le marché : la fédération par consolidation préalable et la fédération en place (souvent appelée virtualisation des données). 

    Modèle 1 : fédération axée sur la consolidation (approche de Databricks et Snowflake)

    Le premier modèle de fédération est ce que l’on appelle une approche « consolidation d’abord » — la fédération devient possible après avoir consolidé les données dans l’environnement cloud du fournisseur ou à l’intérieur de leur modèle de gouvernance. Si vous souhaitez accéder à plusieurs systèmes, cela implique généralement de copier ou d'ingérer régulièrement des données sur leur plateforme. 

    En termes simples, c'est une fédération parce que vous pouvez analyser toutes vos données en un seul endroit. Mais vous devez d'abord tout déplacer dans leur maison. 

    Pour les chefs d'entreprise, cette approche a des implications tangibles, notamment :

    • Coûts de stockage et de traitement de données plus élevés
    • Duplication accrue des données
    • Politique de gouvernance et réplication des autorisations entre systèmes
    • Complexité accrue en matière de conformité et d'audit

    En d'autres termes, plus vos données sont dispersées, plus elles sont coûteuses et difficiles à sécuriser. Pour les entreprises cloud-native, cette approche peut être acceptable. Mais pour les entreprises hybrides réglementées, cela introduit des frictions qui s'accumulent au fil du temps. 

    Modèle 2 : Fédération sur place (L'approche de Cloudera) 

    Le modèle de fédération alternative, défendu par Cloudera, adopte une position fondamentalement différente : amener le calcul et l'IA aux données, peu importe où elles se trouvent, au lieu de forcer les données à se déplacer.  

    La fédération en place rassemble les données de manière logique plutôt que physique, afin que les équipes puissent y accéder et les analyser là où elles se trouvent déjà — dans des environnements publics, privés et locaux — sans les copier d'abord sur une autre plateforme. 

    Cette différence peut sembler subtile, mais dans la pratique, elle change tout : 

    • Réduisez les coûts d’infrastructure et de stockage en minimisant les mouvements de données inutiles
    • Moins de duplication entre environnements
    • Une plus grande flexibilité dans les architectures multi-cloud et sur site.
    • Réduction de l’exposition au risque de concentration du cloud
    • Modèle unique de sécurité et de gouvernance avec une traçabilité de bout en bout sur toutes vos données, où qu'elles se trouvent

    En conséquence, vos données restent là où cela a le plus de sens pour des raisons réglementaires, opérationnelles ou de performance, et vos équipes obtiennent toujours une vue complète en temps réel sur celles-ci. 

    Ce que permet la fédération en place alors que les modèles axés sur la consolidation ne peuvent pas 

    Lorsque la fédération fonctionne dans des environnements hybrides sans réplication (c'est-à-dire fédération sur place), elle crée des conditions que les modèles axés sur la consolidation ont du mal à égaler. Cette distinction modifie le profil de risque de l'ensemble de votre stratégie d'IA en dehors des environnements cloud uniquement. 

    1. Sécurité sans redondance 

    Dans les modèles axés sur la consolidation (proposés par des fournisseurs comme Databricks et Snowflake), les données peuvent sembler unifiées, mais elles existent toujours dans plusieurs environnements. Les données sont copiées, ingérées ou répliquées dans une plateforme contrôlée par le fournisseur avant d'être analysées. Chaque copie supplémentaire élargit la surface de conformité. 

    Plus d'environnements signifient plus d'autorisations à gérer, plus de politiques à synchroniser et plus de champs d'audit à réconcilier. À mesure que la réplication se développe, la complexité de la gouvernance augmente également. 

    Les modèles de fédération sur place, comme ceux de Cloudera, laissent les données où elles se trouvent. Ainsi, les politiques de gouvernance sont définies une seule fois et appliquées partout de manière cohérente. Au lieu de recréer des autorisations entre les systèmes, un plan de contrôle unique et cohérent régit l'accès dans les environnements hybrides. Chez Cloudera, nous l'appelons une gouvernance qui évolue avec vos données. 

    Pensez-y comme à un système mondial de badges d'entreprise. Vous ne voudriez pas émettre un nouveau badge de sécurité chaque fois qu'un employé visite un bureau différent. Les autorisations d'accès sont définies de manière centralisée, et le même badge fonctionne dans le siège social, les bureaux régionaux et les centres de données, appliquant les mêmes règles de sécurité partout. 

    Vous définissez les règles une seule fois et chaque porte les reconnaît, même à des endroits différents. C’est une sécurité à redondance zéro, et c’est un énorme avantage pour la maîtrise des risques car la complexité ne se multiplie pas à mesure que votre environnement se développe. 

    2. Traçabilité complète à travers les sources hybrides 

    Dans tous les secteurs, l'IA assume de plus en plus de responsabilités, ce qui s'accompagne d'un besoin croissant de responsabilisation et d'explicabilité. 

    Lorsque l'IA influence les approbations de crédit, les signaux de fraude, les décisions de tarification ou les ajustements de la chaîne d'approvisionnement, par exemple, chaque résultat doit être défendable. Les régulateurs, les auditeurs et la direction exécutive s'attendent de plus en plus à voir non seulement le résultat, mais aussi le chemin complet qui l'a produit. 

    Dans les entreprises hybrides, ce parcours se trouve rarement dans un seul environnement. Les données peuvent provenir de sites locaux ou de la périphérie (ou edge computing), être enrichies dans un cloud public, jointes à des données SaaS, et consommées par un modèle exécuté ailleurs. La traçabilité dans cette réalité n'est pas négociable. 

    Les approches de fédération axées sur la consolidation tentent de simplifier la traçabilité des données en centralisant les données. Mais, en pratique, la réplication crée des historiques parallèles : des ensembles de données d’origine dans les systèmes sources et des copies transformées dans les environnements analytiques. Au fil du temps, expliquer une décision peut nécessiter de réconcilier plusieurs versions des mêmes données entre les systèmes. La traçabilité devient une information qu’il faudrait reconstituer. 

    Grâce à la fédération intégrée aux fonctionnalités de traçabilité des données (comme les outils de traçabilité des données de Cloudera), ce problème ne se pose plus. Comme les données sont accessibles là où elles se trouvent (plutôt que répliquées dans un environnement distinct), la traçabilité reste ancrée à la source d'origine. 

    Cette distinction est particulièrement importante dans les flux de travail hybrides et dépendants de la périphérie (ou edge computing). Avec une approche de fédération en place, vous pouvez être assuré que si un régulateur ou un nouveau CRO se présente des années plus tard pour demander comment une décision spécifique a été prise, la réponse ne sera pas enterrée dans une boîte noire qui nécessite un déchiffrement. C'est documenté, traçable et défendable. 

    3. Une base plus solide pour les systèmes d'intelligence artificielle réels 

    Dans les modèles axés sur la consolidation, l'IA opère à l'intérieur de l'environnement où les données ont été centralisées. Cela fonctionne, tant que le mouvement des données suit le rythme de la réalité opérationnelle. Dans les entreprises hybrides, c'est rarement le cas. 

    Lorsque l'IA est responsable de résultats concrets tels que la tarification dynamique ou les ajustements de la chaîne d'approvisionnement, elle doit opérer au sein de systèmes distribués en direct, et non pas sur des copies analytiques en aval. Chaque étape de réplication introduit des chaînes de dépendances, créant des délais de latence / d’ingestion et un potentiel de dérive entre les systèmes opérationnels réels et les modèles d’IA qui les utilisent. 

    La fédération sur place, d'autre part, maintient l'IA alignée avec la réalité opérationnelle, garantissant que le contexte est toujours actuel et alimentant les cas d'utilisation opérationnels de l'IA qu'une stratégie de fédération par consolidation ne pourrait pas suivre au-delà du cloud. 

    L'IA opérationnelle en pratique : industrie de la logistique

    Pour comprendre pourquoi tout cela est important dans la pratique, prenons un exemple. Considérez une entreprise de logistique mondiale déployant l'IA pour optimiser les itinéraires de livraison en temps réel. Une seule décision de routage peut dépendre de : 

    • Données de disponibilité des chauffeurs issues d’un système de gestion des effectifs
    • Flux GPS en temps réel issus de véhicules
    • Données sur le trafic et la météo provenant d'API externes
    • Disponibilité des stocks dans les entrepôts régionaux
    • Indicateurs d'efficacité énergétique issus de capteurs IoT
    • Contraintes réglementaires locales ou règles syndicales

    Si ce modèle d'IA fonctionne sur des instantanés copiés dans un seul cloud il y a des jours, voire des heures, il prend des décisions avec un contexte partiel. Il peut rediriger les conducteurs sans tenir compte des niveaux d’inventaire mis à jour ou optimiser la vitesse sans prendre en compte les contraintes régionales de conformité. Il pourrait s'appuyer sur des données de télémétrie obsolètes provenant de véhicules déjà hors de la route. 

    Lorsque les systèmes d'IA peuvent accéder en toute sécurité à des données distribuées là où elles se trouvent déjà, avec une sécurité sans redondance et une visibilité complète de la traçabilité, les organisations déploient une IA pleinement opérationnelle qui agit en temps réel, fonctionne dans le cadre des politiques définies et monte en charge dans différents environnements sans ajouter de risque. 

    Comment choisir un fournisseur de fédération : Questions que chaque entreprise devrait poser 

    Comme nous l'avons vu, les stratégies de fédération ne sont pas toutes conçues pour obtenir les mêmes résultats.  

    Certains privilégient la consolidation, d'autres la flexibilité hybride et l'accès réglementé. Lorsque vous évaluez Cloudera, Databricks et Snowflake (ou toute solution de fédération de données ou combinaison de celles-ci), les questions suivantes permettent de mettre en évidence les véritables différences : 

    • La fédération nécessite-t-elle un mouvement des données ? Pouvez-vous accéder aux données là où elles se trouvent déjà, ou faudra-t-il d’abord les copier dans un cloud centralisé ?
    • Où sont définies les politiques de gouvernance ? Les contrôles d'accès sont-ils définis une fois et hérités partout, ou recréés à travers les systèmes ?
    • L’hybride est-il considéré comme permanent ? L’architecture prend-elle en charge le cloud sur site et le multicloud à long terme, ou suppose-t-elle une éventuelle consolidation ?
    • La lignée peut-elle s'étendre au-delà de l'environnement du fournisseur ? La traçabilité est-elle assurée de bout en bout entre les sources distribuées, y compris les systèmes non natifs ?
    • La plateforme est-elle conçue pour l'IA opérationnelle ? L'IA peut-elle accéder en toute sécurité et en temps réel à des données gouvernées en direct, ou seulement à des instantanés centralisés ?

    Les réponses à ces questions vous aideront à déterminer si la fédération deviendra une fonction de commodité centrée sur les cas d'utilisation analytiques, ou le fondement à long terme d'une IA fiable, à coût contrôlé, à l'échelle de l'entreprise. 

    La fédération ne fonctionne que si elle est conçue intentionnellement 

    Concevoir un environnement fédéré signifie regarder sous le capot — aligner les modèles de gouvernance, les contraintes réglementaires, les exigences de performance et les intégrations existantes tout en connectant les systèmes de manière à soutenir une flexibilité à long terme. 

    L'équipe Professional Services & Training (PS&T) de Cloudera a guidé des organisations de tous les secteurs d'activité à de nombreuses reprises. Que ce soit pour établir une nouvelle stratégie de fédération ou pour optimiser un environnement existant, avoir des conseillers expérimentés à vos côtés peut vous aider à garantir que votre environnement fédéré est non seulement configuré correctement, mais qu'il est également véritablement prêt pour l'IA et conçu pour offrir des résultats mesurables. 

     

    Continuez à lire : comment fonctionne la fédération dans les services financiers 

    Le choix entre la consolidation d'abord et la fédération sur place détermine si l'IA reste en mode pilote ou si elle s'intègre en toute sécurité dans les opérations. 

    Nulle part ce n'est plus crucial que dans les services financiers, où la détection des fraudes, la gestion des risques et les rapports réglementaires dépendent de données fraîches et inter-systèmes. Dans notre prochain article, nous explorerons comment la fédération remodèle l'analyse en temps réel et la gouvernance de l'IA dans le secteur bancaire. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.