ClouderaNOW Découvrez les agents d'IA, le cloud bursting et les data fabrics pour l'IA | 8 avril

S'inscrire
  • Cloudera Cloudera
  • | Technique

    Combler le fossé entre le calcul haute performance et l'IA souveraine : troisième partie de trois

    Gabriele Folchi headshot
    Lama Itani headshot
    Personne marchant sur un pont entre une architecture moderne.

    Ce blog est le dernier d'une série en trois parties : la première partie couvre les bases du calcul haute performance (HPC), et la deuxième partie couvre l'importance d'un lac de données souverain. 

    L'avantage de Cloudera pour le HPC et l'IA souveraine

    Bien qu'un data lakehouse à lui seul ne prenne pas en charge le HPC — les simulations HPC nécessitent une plateforme technologique sensiblement différente — c'est le complément idéal pour opérationnaliser une stratégie centrée sur les ROM, offrant des capacités essentielles (MLOps structuré, support des expériences, archivage des données rentable, accès simplifié, chaîne d'outils de collaboration, et plus encore).

    Cloudera comble de manière unique le fossé entre les données spécialisées en physique à grande échelle (HPC) et les exigences agiles de l'entraînement moderne de l'IA (MLOps). En fournissant une architecture cloud-agnostique et souveraine, elle garantit la conformité et offre aux entreprises une voie sûre et viable pour opérationnaliser les ROM.

    Cloudera soutient cette convergence à travers les capacités spécifiques suivantes :

    1. Gestion des données à grande échelle avec un contrôle souverain

    Le défi : comme mentionné ci-dessus, le stockage et la gestion de pétaoctets d’instantanés historiques du modèle de commande complet (FOM) sont souvent coûteux et complexes dans les systèmes de stockage traditionnels. Néanmoins, les ingénieurs ont aussi besoin d’un moyen d’ingérer, de transformer et d’archiver ces immenses ensembles de données avec une gouvernance stricte tout en maintenant la « souveraineté opérationnelle », garantissant ainsi que les données ne quittent jamais la juridiction souhaitée.

    La solution Cloudera :

    • Cloudera DataFlow : En tant que moteur d'ingestion universel, Cloudera DataFlow permet aux ingénieurs de créer des pipelines multimodaux sans code, dans un environnement collaboratif. Il peut ingérer des fichiers solver bruts (journaux CFD/FEA), transformer des données non structurées en caractéristiques structurées, et les stocker directement dans le stockage d'objets du data lakehouse (stockage d'objets Cloudera basé sur Apache Ozone) pour faciliter l'accès lorsqu'il est nécessaire d'entraîner ou de réentraîner les ROMs.

    • Provenance et audit : DataFlow fournit des fonctionnalités intégrées sur l'historique et la provenance des données. Ceci garantit que chaque « fonctionnalité » utilisée pour entraîner une ROM peut être retracée jusqu'à son fichier source d'origine, fournissant la piste d'audit requise pour l'ingénierie critique pour la sécurité.

    • Cloudera SDX fournit ensuite un point unifié de conception et d'application des politiques d'autorisation pour chaque service de données et d'IA, garantissant ainsi une visibilité unique sur l'accès aux données sensibles contenues dans les ensembles de données FOM et les fonctionnalités ROM.

    2. Précision et réutilisation : suivi d'équipe des expériences de ML

    Le défi : développer des ROM précises implique des centaines d’itérations. Sans un système central de référence, les équipes de R&D sont aux prises avec le « chaos des versions », perdant la trace des hyperparamètres ou des ensembles de données qui ont produit les meilleurs résultats.

    Solution Cloudera :

    • Cloudera AI Workbench : Ce service fournit un environnement collaboratif avec des notebooks sécurisés et open source en tant que service (Jupyter). Pour améliorer davantage la productivité des développeurs, le poste de travail offre la flexibilité d'utiliser les éditeurs tiers préférés, y compris VS Code, PyCharm et RStudio, soit dans le navigateur, soit en tant qu'IDE locaux connectés aux ressources de calcul du poste de travail. De plus, le poste de travail s'intègre nativement à MLflow, permettant aux utilisateurs de créer une « source de vérité » documentée pour chaque projet ROM en enregistrant les hyperparamètres, les mesures d'évaluation et les versions des ensembles de données d'entraînement utilisées pour chaque version spécifique d'un modèle d'IA produit par n'importe quelle équipe. Ceci favorise la visibilité et la réutilisation, permettant à différentes équipes d'adapter facilement une architecture de modèle en fonction de leur expertise en la matière.

    3. Une expérience PaaS similaire à celle du cloud avec une économie prévisible

    Le défi : Les équipes de R&D ont besoin d'un accès instantané au calcul, non seulement pour l'entraînement itératif, mais aussi pour l'inférence du modèle d'IA au niveau de la production. Les services d'inférence dans le cloud public entraînent souvent un « choc de jetons » ou des coûts incontrôlés en raison de boucles d'inférence à haut volume. À l'inverse, l'informatique sur site manque souvent de la souplesse nécessaire pour provisionner rapidement des ressources.

    La solution Cloudera :

    • Architecture PaaS par conception : construite sur Kubernetes, Cloudera offre une plateforme moderne et multi-tenant où les services de données et d’IA sont auto-administrés par les praticiens. La plateforme s'auto-dimensionne en fonction des exigences actuelles de la charge de travail, qu'elle soit exécutée dans un centre de données souverain ou dans un abonnement à un cloud privé.

    • Cloudera AI Inference Service : Ce service en particulier permet aux ingénieurs de déployer des versions de modèles, ainsi que des API REST standard pour une utilisation immédiate en production. Parce qu'il fonctionne sur une infrastructure auto-hébergée, le modèle de tarification est basé sur les heures de calcul (par GPU/CPU) plutôt que « par jeton ». Il est ainsi possible de consolider des dizaines de modèles différents sur une seule grappe, ce qui permet de réaliser d'importantes économies d'échelle pour les charges de travail d'ingénierie à haut volume.

    4. Du centre de données au monde physique : déploiement en périphérie

    Le défi : La valeur ultime d'une ROM est souvent réalisée en dehors du centre de données — intégrée dans un atelier de fabrication ou dans un contrôleur de centrale électrique pour une maintenance prédictive en temps réel.

    La solution Cloudera :

    • Cloudera Edge Management : Ce service permet aux praticiens de construire et de déployer des pipelines de données incluant l’inférence de modèle « en cours » directement vers l’infrastructure en périphérie. Grâce à une interface visuelle sans code, les ingénieurs peuvent transmettre leurs ROM formés à des flottes d'agents distants, fermant ainsi la boucle entre le jumeau numérique et l'actif physique.

    5. À l'épreuve du futur grâce aux standards ouverts

    Le défi : Les cycles de vie techniques se mesurent en décennies. Les outils propriétaires ou les formats cloud fermés créent des risques inacceptables de dépendance aux fournisseurs pour les données de produits à long terme.

    La solution Cloudera :

    • Open Source Core : L'ensemble de la plateforme de données et d'IA de Cloudera repose sur des technologies communautaires ouvertes (par exemple, Apache Nifi, Apache Spark, Apache Iceberg, Apache Ozone, CNCF Kubernetes et bien d'autres).

    • Expérience améliorée : En intégrant ces normes dans un plan de contrôle unifié, sécurisé et convivial, Cloudera comble le fossé entre la liberté de l'open source et la facilité d'utilisation attendue d'une plateforme cloud moderne. Ceci garantit que votre PI critique reste portable et accessible pour toujours.

    Et surtout, une souveraineté de bout en bout sans compromis

    Contrairement aux autres plateformes Datalakehouse concurrentes du marché, qui fragmentent souvent le cycle de vie entre le stockage propriétaire et le calcul tiers, ou imposent un choix entre un format exclusivement cloud public, Cloudera offre toutes les fonctionnalités ci-dessus dans une plateforme unique et unifiée.

    Cloudera combine cette expérience utilisateur moderne, centrée sur le PaaS, avec la flexibilité unique de déployer l’ensemble de la plateforme dans un centre de données entièrement souverain. Cela permet efficacement aux clients de la fabrication avancée opérant sur des marchés réglementés ou sur des projets stratégiquement sensibles d’exécuter une stratégie d’IA de pointe dans l’environnement le plus sécurisé possible — satisfaisant les exigences les plus strictes tant pour la résidence des données que pour la souveraineté opérationnelle.

    Étapes suivantes

    L’avenir du HPC et de l’IA d’entreprise est souverain, ouvert et opérationnellement unifié — et cet avenir repose sur Cloudera. Notre plateforme Private AI Anywhere — qui fonctionne dans n’importe quel cloud et centre de données — assure un contrôle de bout en bout et gouverné sur toutes les données, modèles, agents et inférences critiques pour garantir la souveraineté, la conformité réglementaire et une valeur commerciale éprouvée à grande échelle. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.