Par définition, Un DataHub ou Hub de données est une plateforme de données qui collecte et stocke l’ensemble des données de l’entreprise en provenance d’une multitude de source de données distinctes.
Aujourd’hui, la majorité des dirigeants d’entreprise ont pris conscience de la nécessité de la « transformation digitale ». Cette prise de conscience aboutit à adopter de plus en plus de solutions digitales spécialisées (généralement en SaaS) et donc à éclater la vision traditionnelle du système d’information de l’entreprise construit autour d’un unique logiciel de gestion on-premise.
La conséquence de cela est la création de silos entre les différents départements qui utilise telle ou telle autre solution.
Pour capitaliser sur ses données et arriver à les exploiter, il faut donc d’abord réunifier ses informations et les réconcilier, en commençant donc par les regrouper en un endroit unique.
Dans cet article, nous allons aborder l’architecture technique à adopter pour mettre votre entreprise en capacité de réussir ce défi !
Le concept de Data Hub ou hub de données
Le concept de Data Hub est un défi plutôt ancien, car il repose sur un postulat assez simple : pour pouvoir tirer parti de données provenant de sources distinctes, il faut d’abord pouvoir les unifier dans un système unique.
Sans Data Hub ont peu schématiser les flux du système d’informations ainsi :
C’est l’organisation des données en spaghettis ! Les données sont un peu partout et finalement un peu nulle part. L’accès et la consolidation des données sont redoutablement compliqués et exigent une grande technicité de la part des utilisateurs.
Le schéma d’architecture d’un Hub de données est donc assez simple :
L’objectif du DataHub est donc d’offrir à l’entreprise une source unique d’information centralisée et unifiée, afin que les collaborateurs de différents départements puissent y accéder rapidement et facilement.
Quels sont les avantages du Data Hub ?
Disposer d’un véritable hub de données a de très nombreux avantages :
- Regrouper les données en un endroit unique simplifie l’accès aux données de l’entreprise et donc à leur exploitation.
- Le hub de données permet à vos collaborateurs de passer moins de temps à la collecte de données et plus de temps à leur analyse. Ce qui peut redonner du sens au travail de certains collaborateurs et leur donner l’impression de moins « perdre leur temps » sur des tâches sur lequel ils ne sont pas compétents. Et d’un autre côté, cela fait de vos collaborateurs des collaborateurs « augmentés » en leur permettant de bénéficier plus facilement d’une information pertinente ou de les alerter d’une anomalie ou d’une dérive au plus tôt.
- Le hub de données accélère l’innovation en favorisant l’émergence de cas d’usage concrets et de bonnes pratiques qui améliorent l’efficacité de votre entreprise.
- Centraliser des données en les décorrélant de leur système source permet aussi à l’entreprise d’être plus agile et plus flexible. Elle peut plus facilement étendre son système d’information et intégrer plus rapidement de nouvelles solutions logicielles ou IoT
Dans les faits et à des degrés de maturité divers, on peut considérer une transformation digitale réussit lorsque l’entreprise à réussit à mettre en place un véritable hub de données.
Data Hub, Data Warehouse, Data Lake, Master Data… sont complémentaires !
Au-delà du concept assez simple de hub de données en tant que plateforme de données, l’architecture de données qui la constitue est plus complexe.
Dans les faits, il ne suffit pas de mettre ses données de différents systèmes dans une même base de données pour réussir son Data Hub. C’est d’ailleurs l’écueil le plus fréquemment constaté. Certaines prestations abouties à la création d’une base de données nommée Data Hub et qui contient une copie des données des différents systèmes sources.
Si on fait cela, les données sont au même endroit, mais ne sont pas pour autant réconciliées !
L’objectif n’est alors pas atteint. Il ne suffit pas de nommer une base Data Hub pour que cela en soit une pour autant.
Il ne suffit pas d’appeler un chat un tigre pour que cela en soit vraiment un !
Le Data Hub en tant que Plateforme va agir comme une raffinerie de l’information. Elle va donc être constituer de plusieurs sous-systèmes.
Il faut retenir que le Data Lake, Data Hub, Data Warehouse, Master Data ne sont pas des notions à comparer ou à opposer !
Ce sont tous des systèmes qui ont des rôles précis et distincts, que l’on se doit de disposer pour réussir son Data Hub en tant que Plateforme de données.
Le schéma d’architecture actuel est celui du modern datawarehouse que je vous présente ci-dessous.
Data Hub en tant que base de données
Dans ce schéma d’architecture, il existe une base de données Data Hub.
Il s’agit d’une base de données dont l’objectif est de contenir les données opérationnelles métier.
Prenons l’exemple d’une société, constituée de plusieurs sites qui se sont équipés chacun de leur propre logiciel de gestion pour gérer leurs clients et leur facturation.
Le Data Hub va donc être constitué de tables regroupant les factures, les commandes, les opportunités commerciales, les encaissements de toutes les sociétés du groupe.
Ces tables sont montées sans aucune modélisation (ni schéma en étoile, ni même Merise), juste à plat, sans liaisons avec aucune autre table.
Le Data Hub contiendra ainsi la dernière version de toutes les commandes, factures, opportunités commerciales du groupe… sans distinction de leur logiciel d’origine.
Attention chacune de ces factures feront référence à des codes clients et à des codes produits non pas de chaque logiciel d’origine, mais de ceux du référentiel de données (ou Master Data).
La clé de la réussite de tous projet Data (Data Science, IA, Business Intelligence…) et donc du Data Hub, c’est le Master Data !
Un Data Hub nécessite un Master Data !
Le Master Data est une solution indispensable dans la mise en place de tout projet de données.
Le Master Data c’est le ciment qui va permettre de réconcilier vraiment les données en agissant de deux manières :
- En agissant comme tables de correspondance : en faisant correspondre des données de référence de chaque logiciel source vers une donnée de référence.
- En permettant d’enrichir vos données de référence de propriété qui ne sont présentes dans aucun système (et contenu généralement dans des fichiers Excel)
Le Master Data redonne la main à vos utilisateurs métier en leur permettant de devenir acteur de leurs données.
Le service informatique se doit donc de mettre à disposition un Master Data dans son data Hub afin de permettre l’implication et la responsabilisation des utilisateurs métier et d’éviter un écueil du Data Hub.
Le rôle du Data Warehouse dans la plateforme de données
Pour simplifier l’accès aux données qui vont servir à l’analyse, il faut donner accès aux utilisateurs à une base de données très simple, à la structuration très lisible.
Le Data Warehouse va réconcilier les données du Master Data et de la base Data Hub et va leur donner de la profondeur en historisant leurs données.
Le Data Warehouse a donc pour objectif :
- De simplifier l’accès aux données
- D’historiser les données
Le Data Warehouse est donc la dernière brique du Data Hub en tant que Plateforme de données. Il ne s’agit pas d’un projet différent et contrairement aux idées reçues ce n’est pas plus coûteux ou long de mettre en place cette base de données à partir du moment où toutes les autres sont en place.
Cependant, il s’agit d’une finalité, car on peut estimer par expérience que 85% des consultations utilisateurs se feront au travers du Data Warehouse. 10% dans le Master Data et 5% dans la base Data Hub. Et moins d’1 % de ces consultations seront réalisés par des Data Scientists directement dans la zone Landing du Data Lake, ce qui a toutefois son importance car ils y trouveront des trésors.
La base audit ou le monitoring des flux de données
Enfin une base n’apparait pas sur le schéma d’architecture « modern datawarehouse » présenté plus haut, mais elle est essentielle au processus de qualité de données, il s’agit de la base d’audit ou de monitoring des flux de données.
Tous les flux de données alimentant ou mettant à jour les différentes bases de données agissent comme autant de points de contrôle qui permet de vérifier les données, leur validité, leur intégrité, leur complétude…
Toutes les anomalies ou évènements en erreur doivent être consignées dans cette base de données et remontées aux utilisateurs concernés.
Il s’agit d’une condition nécessaire à l’obtention d’un processus vertueux d’amélioration continue de la qualité de l’information.
Car il faut garder à l’esprit que proposer de l’information à ses utilisateurs c’est bien, mais insuffisant. En effet, l’information n’est exploitable que si elle est de qualité, complète et récente.
Pour conclure...
Le concept de Data Hub est assez simple, mais son architecture et sa mise en œuvre demande une certaine technicité et une certaine expérience.
L’écueil le plus évident est de remonter en vrac ses données dans un base que l’on nomme Data Hub. Au-delà de l’échec évident d’une telle démarche, elle est aussi contre-productive voire catastrophique dans la communication. Car cela amène généralement à stopper net tout projet Data durant quelques années et à créer la confusion chez les utilisateurs.
Cependant, la mise en place d’un Data Hub (en tant que plateforme de données) transforme l’entreprise en profondeur et lui apporte une flexibilité et une souplesse indispensable pour affronter les défis modernes. Elle contribue aussi à donner du sens au travail quotidien des collaborateurs qui vont plus facilement à l’essentiel et qui se heurte moins au cloisonnement de l’entreprise.
Udicat au travers de notre expérience, peut vous accompagner de deux manières :
- Soit au travers de prestation d’expertise à la mise en place d’un tel système sur toutes les phases du projet : de l’étude de cadrage initiale à la réalisation successive par lot projet.
- Soit à la mise à disposition de Bineo, une plateforme de données complète et dédiée. Bineo permet ainsi d’accélérer grandement la mise en place et la réussite du projet de Data Hub, et garanti également sa pérennité par la mise en place d’un service managé performant et sans surcout.