Decideo - Data Science, Big Data, Intelligence Augmentée: #1.4 Le mot de la semaine : entrepôt de données

#1.4 Le mot de la semaine : entrepôt de données

Apr 8, 2020

Un entrepôt de données (Data Warehouse) sert à regrouper les informations provenant des applications de production. Les données sont dénormalisées (voir ce terme), harmonisées, mises en cohérence les unes par rapport aux autres, et conservées pour analyse. Les outils de requêtage et d’analyse vont ensuite interroger l’entrepôt de données, pour ne pas pénaliser les temps de réponse des applications opérationnelles.
Les entrepôts de données ont remplacé les infocentres (voir ce terme). Pour passer de l’infocentre (non modélisé) à l’entrepôt de données, la phase essentielle est la modélisation. On parle le plus souvent de modélisation en étoile ou en flocon (voir ces termes). L’entrepôt de données est alors organisé autour d’une table des faits (voir ce terme).
L’entrepôt de données impose donc de connaitre en amont, la structure des données qui y seront chargées - ce qui conduira à la création du concept de lac de données (Data Lake) lors du développement de l’usage des données non structurées (voir ces termes).
La modélisation de l’entrepôt de données peut évoluer dans le temps, mais le risque est toujours présent de perdre alors le lien avec les données historiques. Deux grandes approches ont été proposées par Ralph Kimball et Bill Inmon (voir ces termes). Sans être fondamentalement différentes, l’approche de Bill Inmon est plus stratégique, celle de Ralph Kimball est plus tactique. Chacun a développé sa vision dans son propre ouvrage; ces ouvrages restent aujourd’hui une lecture essentielle pour comprendre les architectures possibles d’un entrepôt de données.
L’entrepôt de données est alimenté à partir des données de production, en passant par l’outil d’alimentation/intégration (ETL). Parfois une étape intermédiaire de stockage (Operational Data Store - ODS) est proposée, pour répondre à certaines contraintes techniques de l’architecture.
En théorie, un entrepôt de données n’est jamais purgé, afin de permettre les comparaisons sur plusieurs années. Dans le même temps, les bases de production auront été nettoyées afin d’optimiser leur temps de réponse. L’entrepôt de données devient alors la mémoire centrale, et unique, des données décisionnelles.
Autre règle de cohérence, on ne devrait jamais modifier ou supprimer une donnée dans un entrepôt de données. Si une donnée est erronée ou de mauvaise qualité, il faudrait passer par une importation de la correction, afin de conserver la trace de l’ensemble des opérations.
En sortie de l’entrepôt de données, on pourra compléter par des magasins de données (Data Marts) qui regrouperont une partie des données pour en faciliter l’analyse. Mais l’entrepôt de données peut également être directement interrogé par les outils d’analyse.