À l’ère de l’IA pilotée par les données, les entreprises ont besoin d’ensembles de données de haute qualité pour analyser ou entraîner des modèles d’IA, mais les réglementations sur la confidentialité des données et les préoccupations éthiques restreignent l’utilisation ou le partage de données réelles. Comment les organisations peuvent-elles innover sans compromettre les informations sensibles ?
Chez Cloudera, nous avons mis au point une solution qui comble cette lacune. Le Synthetic Data Studio de Cloudera — qui fait partie de l’ensemble d’outils Cloudera AI Studio — est un outil qui crée des ensembles de données entièrement synthétiques imitant les véritables schémas de données d’une organisation, afin que les organisations puissent innover sans risquer les informations confidentielles.
Les points essentiels à retenirL'approche de Cloudera en matière de génération de données synthétiques offre un modèle pour les entreprises souhaitant utiliser ou partager des données structurées sensibles. L'approche illustre :
|
Considérez une entreprise de services financiers s'efforçant de prédire les défauts de prêt. Les données du monde réel dans ce domaine sont une mine de détails sensibles : niveaux de revenus, historiques d'emploi et scores de crédit. Le partage de ces données avec des tiers ou des modèles d'IA comporte de nombreux obstacles réglementaires et éthiques.
Les méthodes traditionnelles de données synthétiques échouent souvent, car elles ne parviennent pas à saisir les relations logiques nuancées entre les variables — comme la manière dont les dettes existantes peuvent influencer le comportement de remboursement — ni la cohérence logique entre les points de données dans les lignes et les colonnes. Les entreprises ont besoin d'une solution de données synthétiques qui puisse s'adapter, préserver l'intégrité statistique des données originales et garantir le respect des normes de confidentialité.
La solution de Cloudera suit un flux de travail en quatre étapes intégrant des techniques de regroupement, Cloudera Synthetic Data Studio et une validation rigoureuse.
Le parcours commence par le partitionnement et la mise en grappes des données afin de créer des profils statistiques. En catégorisant les emprunteurs en groupes en fonction de leur niveau de risque (par exemple, les demandeurs à haut risque et ceux à faible risque) et en regroupant les variables numériques telles que les montants des prêts et les taux d'intérêt, nous distillons l'ensemble de données en « instructions de base ».
Les instructions de base encodent les propriétés statistiques de chaque groupe, telles que les moyennes, les écarts types et les corrélations, tout en intégrant les informations des emprunteurs telles que les notes de crédit ou les statuts des prêts. Cette étape garantit que les données synthétiques héritent de la structure des données originales sans exposer de détails sensibles.
Avec ces instructions initiales en place, la phase suivante exploite la génération alimentée par LLM. À l'aide de modèles avancés tels que Llama 3.3-70B-Instruct, nous synthétisons de nouveaux enregistrements en nous basant sur les plans statistiques figurant dans les instructions initiales. Cloudera Synthetic Data Studio agit comme une force créative, générant des données qui préservent les relations et les modèles définis dans les instructions initiales.
C’est là que la magie opère : le modèle ne produit pas seulement des chiffres aléatoires, mais construit des données qui reflètent la complexité des scénarios réels, comme la manière dont le revenu d’un emprunteur pourrait logiquement influencer son historique de remboursement.
Néanmoins, toutes les données générées ne répondent pas aux exigences de qualité. Pour garantir la fidélité, nous utilisons un flux de travail innovant où le LLM fait office de juge.
Cette étape évalue les résultats synthétiques selon un ensemble de critères, notamment la cohérence du formatage, la cohérence logique (par exemple, s’assurer que les comptes hypothécaires correspondent au statut de propriétaire) et le réalisme (par exemple, la génération de taux d’intérêt plausibles). Seules les données qui obtiennent un score élevé — atteignant un seuil de 9 sur 10 — sont conservées. Ce processus de filtrage agit comme une porte de qualité, garantissant que l'ensemble de données final est à la fois réaliste et statistiquement robuste.
La phase finale du flux de travail implique une validation statistique et visuelle. En comparant les données synthétiques à l’ensemble de données original, en utilisant des métriques comme la divergence KL pour les variables catégorielles et les différences moyenne/écart-type pour les caractéristiques continues, nous confirmons que les données synthétiques reflètent les distributions réelles.
L’approche de Cloudera génère des données exemptes d’informations personnelles identifiables (PII) et de modèles sensibles, tout en préservant la fidélité statistique nécessaire pour entraîner des modèles précis. Cela permet aux entreprises de partager des données synthétiques avec des systèmes tiers ou de collaborer avec des partenaires externes sans craindre des violations de données ni des sanctions réglementaires.
Comme le montre le tableau 1, nous constatons qu'en utilisant un modèle Llama 3.3 70B-Instruct pour générer des données de prêt structurées (27 colonnes au total), 100 % des données générées correspondent à la sortie attendue, 97,2 % ne contiennent aucune erreur logique entre les colonnes lorsqu'elles sont jugées par un LLM, les moyennes statistiques s'écartent de 12 % de la distribution d'origine et les corrélations entre les colonnes s'écartent de 0,24.
Résultats de génération de données structurées utilisant Llama 3.3-70B-Instruct |
|||
Intégrité des données |
Précision du format à 100 % |
Les données synthétiques correspondent parfaitement à la structure originale. |
|
Fidélité statistique |
12 % écart moyen |
Les données synthétiques imitent fidèlement les principales propriétés statistiques de l’original. |
|
Cohérence logique entre les colonnes |
2,8 % d'erreurs logiques |
Les données générées reflètent des relations logiques réelles. |
|
Préservation de la corrélation entre les colonnes |
Différence de corrélation de 0,24 % |
Les connexions clés entre les fonctionnalités sont authentiquement préservées. |
|
Tableau 1 : Résultats de génération de données structurées utilisant Llama 3.3-70B-Instruct
À mesure que les modèles d'IA se complexifient et que les réglementations en matière de protection de la vie privée se renforcent, la demande de données de haute qualité et conformes à la protection de la vie privée ne fera que s'intensifier. Dans les années à venir, nous nous attendons à ce que les méthodologies de génération de données structurées redéfinissent les industries, de la santé à la finance, où la confidentialité des données est non négociable.
L'approche de données synthétiques structurées de Cloudera montre que les entreprises peuvent répondre à cette demande sans compromettre la confidentialité ou les performances. En combinant le regroupement en grappes, Cloudera Synthetic Data Studio et des évaluations rigoureuses, les organisations peuvent exploiter tout le potentiel des données structurées.
Si vous souhaitez en savoir plus, suivez notre visite guidée de Cloudera AI Studios ou veuillez contacter notre équipe à l'adresse suivante : ai_feedback@cloudera.com.
This may have been caused by one of the following: