Cloudera désignée leader dans The Forrester Wave™ : Plateformes de données, 4e trimestre 2025

Lire le rapport
  • Cloudera Cloudera
  • | Business

    3 étapes pour réduire les coûts liés au cloud grâce à la traçabilité des données

    Ron Pick headshot

    Avez-vous déjà promis la lune à quelqu’un ? Si c'est le cas, il est peu probable que vous connaissiez le prix à l'avance.

    Alors que, si vous promettez un cloud à quelqu'un, vous pouvez calculer vos coûts jusqu'à un millième de centime. 

    Amazon, Azure et Google proposent des calculateurs de coûts de stockage des données en cloud qui vous feront tourner la tête avec leur spécificité : de combien de TiB de données avez-vous besoin pour les lectures en streaming sur Google BigQuery ? Voulez-vous des instances ra3.4xlarge ou ra3.xlplus sur Amazon Redshift, et combien de nœuds ?

    Bien que le stockage des données dans le cloud soit souvent présenté comme plus rentable que l’utilisation du stockage sur site, en réalité, réduire le coût du stockage dans le cloud nécessite une investigation, une élimination et une optimisation. Allons-y étape par étape.

    Étape 1 : Enquête

    L’une des façons les plus simples de réduire les coûts de stockage des données est de stocker moins de données. Évidemment, oui. Facile, non.

    Ce n'est pas pour rien que vous avez toutes ces données. Parfois, une bonne raison — comme pour les processus opérationnels, administratifs et métier — mais parfois la raison n’est pas si forte, comme « nous ne nous en sommes pas encore débarrassés ». 

    Dans chaque écosystème de données, il y a des données obsolètes, redondantes et de mauvaise qualité dont vous pouvez et devez vous débarrasser. Mais comment les localisez-vous ?

    La réponse est la traçabilité automatisée des données : le fidèle compagnon de l’intendant des données.

    Imaginez que vous ayez une baguette magique qui vous aide à faire le ménage de printemps. Cette baguette vous indique où chaque objet de votre maison a été acheté, quand il a été utilisé pour la dernière fois, dans quel état il se trouve, si vous avez d'autres objets qui servent la même fonction, et ainsi de suite.

    Voici ce que la traçabilité automatique des données fait pour votre écosystème de données. En quelques minutes, vous disposerez d'une cartographie complète de votre data flow : quelles données alimentent quels rapports et remontent à quelles sources. La traçabilité complète des données montre cela à la fois au niveau global du système source, ainsi qu'au niveau détaillé, colonne par colonne. Il peut même s'intégrer aux processus ETL et montrer exactement quelles transformations ont été effectuées sur les données lors de leur déplacement. 

    Une fois que vous avez la vue d'ensemble complète cartographiée, vous pouvez passer à la deuxième étape : l'élimination.

    Étape 2 : Élimination

    Examinez attentivement votre traçabilité des données et posez les questions suivantes :

    • L’un de ces actifs de données ou utilisations de données (rapports, par exemple) est-il redondant ?
    • Est-ce que l’une de ces ressources de données ou utilisations de données est obsolète ou n’est plus pertinente ?

    Répondre « oui » vous dirige vers des données qui peuvent être déchargées, réduisant directement les coûts de stockage basés sur le cloud. Mais déléguez judicieusement ! Même si vous avez identifié deux ressources de données qui sont effectivement des doublons, si elles sont toutes les deux utilisées par des rapports en aval, vous ne pouvez pas simplement aller en supprimer une avant d'avoir mis en place son remplacement. 

    L'exploitation de la traçabilité de vos données pour l'analyse d'impact vous permet de prévoir l'impact du changement d'un processus métier et de prendre les mesures appropriées à l'avance pour prévenir les problèmes.

    Maintenant que vous avez identifié et éliminé les données inutiles (obsolètes, redondantes, de mauvaise qualité), il est temps de passer aux données que vous devez conserver, mais que vous pourriez stocker de manière plus efficace.

    Étape 3 : Optimisation

    Examinez à nouveau votre cartographie des données et posez-vous les questions suivantes sur les données que vous stockez :

    • À quoi utilisons-nous ces données ?
    • À quelle fréquence devons-nous y accéder ?
    • À quelle vitesse doit-il être disponible lorsque nous souhaitons y accéder ?

    Les fournisseurs de services de stockage des données dans le Cloud proposent généralement une gamme de niveaux de stockage qui varient en fonction de leur accessibilité. Par exemple, Amazon S3 propose un stockage standard pour les données fréquemment consultées (0,023 dollar par Go), un stockage standard à accès peu fréquent pour les données rarement consultées mais qui doivent être récupérées en millisecondes si nécessaire (0,0125 dollars par Go), un stockage Glacier Flexible Retrieval pour les données d'archivage et de sauvegarde qui doivent être récupérées en 1 minute à 12 heures (0,0036 dollar par Go), et le stockage Glacier Deep Archive pour les données d'archives consultées une ou deux fois par an et la récupération prendra 12 heures (0,00099 dollars par Go).

    Le stockage de 1 TB de données dans le stockage standard coûterait 23 dollars par mois. Stocker la même quantité de données (1 To) dans Glacier Deep Archive Storage coûterait 0,99 dollar par mois ! Si votre organisation stocke actuellement toutes ses données dans un espace de stockage Cloud standard sans les différencier en fonction des besoins d'accès, l'optimisation de votre stockage peut réduire de manière significative vos coûts de stockage. 

    Du stockage à l'informatique et retour

    Le lignage des données peut réduire vos coûts de stockage des données en vous montrant à la fois :

    • Quelles données pouvez-vous supprimer
    • Quelles données pouvez-vous stocker de manière plus efficace ?

    Mais ce n'est pas tout ! Bien que moins de données réduise les coûts de stockage cloud, cela peut également réduire les coûts de calcul. Les Data Warehouses basés sur le Cloud, comme Snowflake et Amazon Redshift, fonctionnent généralement selon un modèle de paiement à l'usage pour la puissance de calcul, facturant le temps nécessaire à l'exécution des requêtes sur les ensemble de données. Plus vous incluez de données dans votre requête, plus son exécution prendra de temps, et plus vos frais seront élevés. 

    La réduction de la quantité de données que vous stockez (ou que vous conservez dans un espace de stockage standard) se traduit généralement par une diminution du nombre de données incluses dans vos requêtes, ce qui réduit indirectement les coûts de calcul. Mais la traçabilité des données vous offre également un moyen direct de diminuer vos coûts de calcul : restreindre les requêtes d'exploration. 

    Les requêtes d'exploration ont tendance à utiliser beaucoup de puissance de calcul. Avec une carte claire de la traçabilité des données, votre équipe de données peut voir exactement où se trouvent les données pertinentes, leur permettant d'exécuter des requêtes beaucoup plus ciblées sur la plateforme, et d'éliminer ou de réduire le besoin de requêtes d'exploration générales. 

    Étapes suivantes

    Si les coûts de stockage des données dans le cloud vous découragent, il est temps d'inverser la tendance et de les faire baisser à votre place. Il suffit de sortir votre baguette magique de traçabilité automatisée des données et de suivre ces étapes : Investiguez! Éliminez ! Optimiser ! 

    Vous voyez ces coûts de stockage des données diminuer !? D'accord, cela peut demander un peu plus de travail que ça. Mais lorsque votre entreprise recevra sa prochaine facture, moins élevée, de son fournisseur de services de données cloud, elle aura toujours l'impression de vivre un moment magique. 

    Vous souhaitez en savoir plus ?  Demandez une démonstration pour commencer avec Cloudera Octopai Data Lineage— une solution automatisée de traçabilité des données qui peut vous aider à mettre en œuvre ces étapes et à réduire vos coûts de stockage cloud dès aujourd’hui.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.