L’indice de préparation aux données 2026 : Comprendre les fondements d’une IA réussie

Voir les résultats

1 octobre 2025 | Business

Renforcer l'IA d'entreprise avec des données synthétiques structurées : préserver la confidentialité et les propriétés statistiques de la source

9 minute de lecture • par Andreas Tsiartas , Yi-Hsun Tsai , et Robert Hryniewicz

AI Enterprise Ai

À l’ère de l’IA pilotée par les données, les entreprises ont besoin d’ensembles de données de haute qualité pour analyser ou entraîner des modèles d’IA, mais les réglementations sur la confidentialité des données et les préoccupations éthiques restreignent l’utilisation ou le partage de données réelles. Comment les organisations peuvent-elles innover sans compromettre les informations sensibles ?

Chez Cloudera, nous avons mis au point une solution qui comble cette lacune. Le Synthetic Data Studio de Cloudera — qui fait partie de l’ensemble d’outils Cloudera AI Studio — est un outil qui crée des ensembles de données entièrement synthétiques imitant les véritables schémas de données d’une organisation, afin que les organisations puissent innover sans risquer les informations confidentielles.

Les points essentiels à retenir

L'approche de Cloudera en matière de génération de données synthétiques offre un modèle pour les entreprises souhaitant utiliser ou partager des données structurées sensibles. L'approche illustre :

La confidentialité comme fonctionnalité : les données synthétiques deviennent un atout stratégique qui permet l'innovation dans des domaines restreints

La fidélité statistique est importante : les grappes et les instructions de base garantissent que les données synthétiques conservent les relations nuancées qui rendent les modèles efficaces

Évolutivité pour l'IA d'entreprise : les flux de travail automatisés réduisent le coût et le temps de génération de données synthétiques

Le défi commercial : exploiter les modèles d'IA tout en garantissant la conformité

Considérez une entreprise de services financiers s'efforçant de prédire les défauts de prêt. Les données du monde réel dans ce domaine sont une mine de détails sensibles : niveaux de revenus, historiques d'emploi et scores de crédit. Le partage de ces données avec des tiers ou des modèles d'IA comporte de nombreux obstacles réglementaires et éthiques.

Les méthodes traditionnelles de données synthétiques échouent souvent, car elles ne parviennent pas à saisir les relations logiques nuancées entre les variables — comme la manière dont les dettes existantes peuvent influencer le comportement de remboursement — ni la cohérence logique entre les points de données dans les lignes et les colonnes. Les entreprises ont besoin d'une solution de données synthétiques qui puisse s'adapter, préserver l'intégrité statistique des données originales et garantir le respect des normes de confidentialité.

Solution de Cloudera : génération de données synthétiques structurées

La solution de Cloudera suit un flux de travail en quatre étapes intégrant des techniques de regroupement, Cloudera Synthetic Data Studio et une validation rigoureuse.

Étape 1 : profilage des données

Le parcours commence par le partitionnement et la mise en grappes des données afin de créer des profils statistiques. En catégorisant les emprunteurs en groupes en fonction de leur niveau de risque (par exemple, les demandeurs à haut risque et ceux à faible risque) et en regroupant les variables numériques telles que les montants des prêts et les taux d'intérêt, nous distillons l'ensemble de données en « instructions de base ».

Les instructions de base encodent les propriétés statistiques de chaque groupe, telles que les moyennes, les écarts types et les corrélations, tout en intégrant les informations des emprunteurs telles que les notes de crédit ou les statuts des prêts. Cette étape garantit que les données synthétiques héritent de la structure des données originales sans exposer de détails sensibles.

Étape 2 : générer des données en utilisant Cloudera Synthetic Data Studio

Avec ces instructions initiales en place, la phase suivante exploite la génération alimentée par LLM. À l'aide de modèles avancés tels que Llama 3.3-70B-Instruct, nous synthétisons de nouveaux enregistrements en nous basant sur les plans statistiques figurant dans les instructions initiales. Cloudera Synthetic Data Studio agit comme une force créative, générant des données qui préservent les relations et les modèles définis dans les instructions initiales.

C’est là que la magie opère : le modèle ne produit pas seulement des chiffres aléatoires, mais construit des données qui reflètent la complexité des scénarios réels, comme la manière dont le revenu d’un emprunteur pourrait logiquement influencer son historique de remboursement.

Étape 3 : filtrer les données

Néanmoins, toutes les données générées ne répondent pas aux exigences de qualité. Pour garantir la fidélité, nous utilisons un flux de travail innovant où le LLM fait office de juge.

Cette étape évalue les résultats synthétiques selon un ensemble de critères, notamment la cohérence du formatage, la cohérence logique (par exemple, s’assurer que les comptes hypothécaires correspondent au statut de propriétaire) et le réalisme (par exemple, la génération de taux d’intérêt plausibles). Seules les données qui obtiennent un score élevé — atteignant un seuil de 9 sur 10 — sont conservées. Ce processus de filtrage agit comme une porte de qualité, garantissant que l'ensemble de données final est à la fois réaliste et statistiquement robuste.

Étape 4 : valider les données

La phase finale du flux de travail implique une validation statistique et visuelle. En comparant les données synthétiques à l’ensemble de données original, en utilisant des métriques comme la divergence KL pour les variables catégorielles et les différences moyenne/écart-type pour les caractéristiques continues, nous confirmons que les données synthétiques reflètent les distributions réelles.

L'impact : la confidentialité sans compromis

L’approche de Cloudera génère des données exemptes d’informations personnelles identifiables (PII) et de modèles sensibles, tout en préservant la fidélité statistique nécessaire pour entraîner des modèles précis. Cela permet aux entreprises de partager des données synthétiques avec des systèmes tiers ou de collaborer avec des partenaires externes sans craindre des violations de données ni des sanctions réglementaires.

Comme le montre le tableau 1, nous constatons qu'en utilisant un modèle Llama 3.3 70B-Instruct pour générer des données de prêt structurées (27 colonnes au total), 100 % des données générées correspondent à la sortie attendue, 97,2 % ne contiennent aucune erreur logique entre les colonnes lorsqu'elles sont jugées par un LLM, les moyennes statistiques s'écartent de 12 % de la distribution d'origine et les corrélations entre les colonnes s'écartent de 0,24.

Résultats de génération de données structurées utilisant Llama 3.3-70B-Instruct
Intégrité des données	Précision du format à 100 %	Les données synthétiques correspondent parfaitement à la structure originale.
Fidélité statistique	12 % écart moyen	Les données synthétiques imitent fidèlement les principales propriétés statistiques de l’original.
Cohérence logique entre les colonnes	2,8 % d'erreurs logiques	Les données générées reflètent des relations logiques réelles.
Préservation de la corrélation entre les colonnes	Différence de corrélation de 0,24 %	Les connexions clés entre les fonctionnalités sont authentiquement préservées.

Tableau 1 : Résultats de génération de données structurées utilisant Llama 3.3-70B-Instruct

Conclusion

À mesure que les modèles d'IA se complexifient et que les réglementations en matière de protection de la vie privée se renforcent, la demande de données de haute qualité et conformes à la protection de la vie privée ne fera que s'intensifier. Dans les années à venir, nous nous attendons à ce que les méthodologies de génération de données structurées redéfinissent les industries, de la santé à la finance, où la confidentialité des données est non négociable.

L'approche de données synthétiques structurées de Cloudera montre que les entreprises peuvent répondre à cette demande sans compromettre la confidentialité ou les performances. En combinant le regroupement en grappes, Cloudera Synthetic Data Studio et des évaluations rigoureuses, les organisations peuvent exploiter tout le potentiel des données structurées.

Si vous souhaitez en savoir plus, suivez notre visite guidée de Cloudera AI Studios ou veuillez contacter notre équipe à l'adresse suivante : ai_feedback@cloudera.com.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Plus d'articles de cet auteur ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Plus d'articles de cet auteur ›

Robert Hryniewicz

Director of Product Marketing

Plus d'articles de cet auteur ›

En relation

24 juin 2026 | Technique

Comment la souveraineté des données façonne la stratégie d'IA dans les secteurs réglementés

9 minute de lecture • Dario Perez

Vous êtes prêt(e) à vous lancer ?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.