Vue d'ensemble
Qu'est-ce que le traitement des flux ?
Cloudera Stream Processing permet aux clients de transformer les flux en produits de données. Ses capacités d'analyse identifient des modèles complexes dans les flux de données et extraient des informations exploitables.
Optimisé par Apache Flink et Kafka, Stream Processing fournit une solution complète et professionnelle de gestion de flux et de traitement avec état. La combinaison de Kafka en tant que base de stockage de flux, de Flink en tant que moteur central de traitement en flux et de la prise en charge optimale des interfaces standard telles que SQL et REST, permet aux développeurs, aux analystes de données et aux data scientists de mettre facilement en place des pipelines de flux de données hybrides pour alimenter des produits de données en temps réel, des tableaux de bord, des applications de business intelligence, des microservices ou encore des notebooks dédiés à la data science.
En déplaçant les composants de traitement des données en amont, il est possible de répondre à de nombreux besoins : détection de la fraude, analyse des menaces sur les réseaux, fabrication intelligente, optimisation du commerce, approbation des prêts en temps réel, et plus encore.
PIPELINES DE FLUX DE DONNÉES HYBRIDES
PAR STREAM PROCESSING
Cas d'utilisation de Stream Processing
Détection des fraudes
Analyses client
Surveillance du marché
Analyse des journaux
Détection des fraudes
Évitez des millions d'euros de pertes en détectant la fraude financière en amont.
Dans les secteurs de la vente et des services financiers notamment, les entreprises luttent pour protéger les données de leurs clients et empêcher la fraude financière. La solution Cloudera Streaming Processing permet de traiter les flux de transactions client en temps réel, d'identifier des tendances, de générer des alertes prédictives et de fournir des renseignements exploitables afin d'empêcher les fraudes éventuelles.
Analyses client
L'analyse des clients en temps réel améliore l'engagement, la fidélisation et la satisfaction.
Toutes les entreprises ont besoin d'outils d'analyse en temps réel pour améliorer l'engagement des clients, mais éprouvent des difficultés à les mettre en œuvre en raison de la quantité excessive de données. Cloudera Stream Processing permet de traiter d'énormes quantités de données avec un temps de latence inférieur à la seconde tout en détectant les interactions client et en suggérant des offres plus intéressantes en temps réel.
Surveillance du marché
Traitez des millions de transactions par seconde, soit des pétaoctets d'informations financières.
Les places boursières éprouvent des difficultés à répondre à la demande des clients, qui exigent des rapports en temps réel et des services toujours plus rapides. Or, cela nécessite de traiter des pétaoctets de données. Cloudera Streams Messaging permet de diffuser facilement d'importants volumes de données afin que les places boursières puissent rapidement mettre en place des analyses de marché en temps réel et respecter des SLA de plus en plus exigeants.
Analyse des journaux
Modernisez votre infrastructure de journalisation pour profiter des analyses en temps réel.
Les données de journalisation jouent un rôle de plus en plus important pour les entreprises. Mais les départements informatiques peinent à mettre en place des processus de collecte de journaux efficaces, à transmettre des informations pertinentes en amont et à générer des indicateurs clés. La solution Cloudera Stream Processing permet d'élargir le traitement des journaux, de fournir des informations en temps réel au sein de toute l'entreprise et de réduire considérablement les coûts d'exploitation.
Caractéristiques de Stream Processing
-
Streaming Analytics optimisé par Apache Flink
-
Streams Messaging optimisé par Apache Kafka
Analyse de flux
Optimisé par Apache Flink avec SQL Stream Builder, Cloudera Streaming Analytics comprend :
- Un traitement des flux à faible temps de latence
- Un développement simplifié grâce à la possibilité de mettre au point des applications de flux avec les langages SQL et APIS standard via des points de terminaison REST
- Des techniques avancées de fenêtrage pour procéder à des analyses avancées orientées événements
- La prise en charge des modèles de cloud hybride et multicloud
SQL Stream Builder (SSB) est une interface interactive complète qui permet de créer des tâches de traitement de flux avec état en SQL et de les convertir en tâches Flink optimisées. L'utilisation de SQL permet de déclarer simplement et rapidement des expressions pour filtrer, regrouper, acheminer et transformer les flux de données. Avec l'interface de gestion des tâches de SSB, vous pouvez composer et exécuter des requêtes SQL sur des flux, mais aussi créer des API de données durables pour consulter les résultats.
Veillez à ce que les données soient traitées une seule fois à tout moment, même en cas d'erreur et de nouvelles tentatives. Par exemple, les sociétés de services financiers peuvent utiliser le traitement des flux en vue de coordonner des centaines de systèmes de transactions back-office au moment où les consommateurs paient leur prêt immobilier.
Détectez et traitez les événements de flux qui n'arrivent pas dans l'ordre. Par exemple, les services anti-fraude en temps réel doivent veiller à ce que les données soient traitées dans le bon ordre, même si elles arrivent en retard.
Traitez les flux de données en mémoire, un par un. Par exemple, vous pouvez traiter les demandes de 30 millions d'utilisateurs actifs effectuant des paiements par carte bancaire, des transferts et des consultations de solde avec un temps de latence de quelques millisecondes.
Déclenchez des événements lorsque vous gérez des centaines de sources de flux et des millions d'événements par seconde et par flux. Par exemple, lorsqu'un patient se présente aux urgences, le système se connecte à des systèmes externes en vue de récupérer les données le concernant auprès de centaines de sources, de sorte qu'elles soient disponibles dans le DME au moment où il arrive dans la salle d'examen.
Les flux de données ont peu de valeur, sauf s'ils peuvent facilement intégrer, joindre et associer ces flux à d'autres sources de données au repos, notamment des entrepôts, des bases de données relationnelles ou encore des data lakes. Configurez les fournisseurs de données à l'aide de connecteurs prêts à l'emploi ou de votre propre connecteur vers n'importe quelle source de données. Une fois les fournisseurs de données créés, l'utilisateur peut facilement créer des tables virtuelles à l'aide d'un langage de définition de données (DDL). Les fonctions SQL courantes, telles que les jointures et les agrégations, facilitent l'intégration complexe entre plusieurs flux et sources de données par lots.
Streams Messaging
Optimisé par Apache Kafka, Cloudera Streams Messaging comprend :
- Streams Messaging Manager pour surveiller/exécuter les clusters
- Streams Replication Manager pour les déploiements haute disponibilité/de reprise après sinistre
- Schema Registry pour une gestion centralisée des schémas
- Kafka Connect pour faciliter le déplacement des données et la saisie des données de changement, et Cruise Control pour un rééquilibrage intelligent et une correction automatique
- La prise en charge des modèles de cloud hybride et multicloud
Prend en charge des millions de messages par seconde avec un temps de latence faible et un débit élevé, le tout assorti d'une évolutivité souple et transparente sans temps d'arrêt. Répond à un large éventail de besoins en matière de gestion des données en flux, ce qui permet aux entreprises de satisfaire les exigences de leurs clients, de fournir de meilleurs services et de gérer les risques de manière proactive.
Streams Messaging Manager vous offre une vue complète sur la circulation des données entre les clusters Kafka (c'est-à-dire entre les producteurs, courtiers, sujets et consommateurs), vous permettant ainsi d'assurer le suivi de la traçabilité et de la gouvernance des données entre l'edge et le cloud. La solution simplifie également le dépannage des environnements Kafka grâce à des fonctions intelligentes de filtrage et de tri.
Streams Replication Manager, basé sur Mirrormaker 2, est un outil évolutif, robuste et tolérant aux pannes qui permet de répliquer les sujets Kafka, mais aussi de suivre les réplications et de recueillir des indicateurs au niveau des clusters et des sujets. Voici quelques-unes de ses principales caractéristiques et fonctionnalités : haute disponibilité, reprise après sinistre, migrations cloud et proximité géographique.
Schema Registry vous permet de gérer tous les schémas client et producteur, de les partager et de contribuer à leur développement au sein d'un référentiel de schémas partagé qui permet aux applications d'interagir entre elles avec flexibilité dans l'environnement Kafka. Vous pouvez ainsi réduire les interruptions dues à la non-concordance des schémas en toute sécurité.
Cruise Control vous permet de gérer et d'équilibrer les charges des grandes installations Kafka, en plus de détecter et de corriger automatiquement les anomalies. Il permet de résoudre les problèmes les plus épineux tels que les pannes matérielles/virtuelles fréquentes, l'agrandissement/la réduction des clusters et la mauvaise répartition des charges entre les courtiers.
Cloudera SDX centralise la sécurité, les politiques de contrôle, la gouvernance et la traçabilité des données pour tous les composants. Ces paramètres sont définis une seule fois et appliqués automatiquement, quel que soit le fournisseur, ce qui vous permet de mettre en œuvre des stratégies multicloud et cloud hybride en toute sérénité. Il respecte les quatre grands principes de sécurité, à savoir l'identité, l'accès, la protection des données et la visibilité.
N'importe quelles données, n'importe où, avec des options de déploiement flexibles.
Traitement des flux dans le cloud
Cloudera propose un ensemble complet de fonctionnalités intégrées de traitement des flux qui peuvent être déployées dans le cloud public pour s'adapter facilement.
Cloudera Stream Processing s'appuie sur les moteurs Apache Kafka et Apache Flink avec des outils professionnels pour simplifier le déploiement et la gestion.
Streams Messaging Manager étend Apache Kafka en proposant tout un ensemble de fonctionnalités : gouvernance et surveillance des schémas, reprise après sinistre, rééquilibrage intelligent, contrôle d'accès et audit.
SQL Stream Builder étend Apache Flink avec une puissante console SQL qui permet aux analystes SQL d'interroger les flux de données mais aussi de collaborer et de contrôler la logique de traitement des versions pour les applications en aval.
Stream Processing sur site
Cloudera peut être déployé sur site avec des flux de données afin de contrôler les coûts et de minimiser les temps de latence pour les applications et les pipelines et en temps réel. Cloudera Stream Processing intègre Apache Kafka et Apache Flink avec les outils professionnels nécessaires à la gestion de ces déploiements.
Cloudera Streaming – Opérateurs Kubernetes
Les fonctionnalités Cloudera Stream Processing sont également disponibles en tant qu'opérateurs Kubernetes pouvant être déployés indépendamment via des clusters Kubernetes existants, ce qui facilite encore plus le déploiement et le dimensionnement de Kafka au sein de l'entreprise. L’opérateur Kubernetes est livré avec Kafka, Cruise Control et Zookeeper, permettant des cas d’utilisation de streaming sur Kubernetes avec un service de courtage de messages robuste, et Flink et SQL Stream Builder, fournissant un moteur de traitement de flux distribué moderne pour créer des applications de streaming en temps réel qui s’exécutent nativement sur des conteneurs.
Cloudera Stream Processing édition communautaire
CSP édition communautaire facilite le développement de processeurs de flux, et ce, directement depuis votre ordinateur de bureau ou tout autre nœud de développement.
Les analystes, les data scientists et les développeurs peuvent désormais évaluer les nouvelles fonctionnalités, développer localement des processeurs de flux en SQL, mais aussi des consommateurs/producteurs et des connecteurs Kafka, avant de passer en production.
Soyez opérationnel en 5 minutes grâce à Stream Processing édition communautaire
GigaOm Radar pour les plateformes de données en streaming
Cloudera nommé leader du marché des plateformes de streaming de données en 2024.
Vous êtes prêt(e) à vous lancer ?