Apr 8, 2020
Un entrepôt de données (Data Warehouse) sert à regrouper les
informations provenant des applications de production. Les données
sont dénormalisées (voir ce terme), harmonisées, mises en cohérence
les unes par rapport aux autres, et conservées pour analyse. Les
outils de requêtage et d’analyse vont ensuite interroger l’entrepôt
de données, pour ne pas pénaliser les temps de réponse des
applications opérationnelles.
Les entrepôts de données ont remplacé les infocentres (voir ce
terme). Pour passer de l’infocentre (non modélisé) à l’entrepôt de
données, la phase essentielle est la modélisation. On parle le plus
souvent de modélisation en étoile ou en flocon (voir ces termes).
L’entrepôt de données est alors organisé autour d’une table des
faits (voir ce terme).
L’entrepôt de données impose donc de connaitre en amont, la
structure des données qui y seront chargées - ce qui conduira à la
création du concept de lac de données (Data Lake) lors du
développement de l’usage des données non structurées (voir ces
termes).
La modélisation de l’entrepôt de données peut évoluer dans le
temps, mais le risque est toujours présent de perdre alors le lien
avec les données historiques. Deux grandes approches ont été
proposées par Ralph Kimball et Bill Inmon (voir ces termes). Sans
être fondamentalement différentes, l’approche de Bill Inmon est
plus stratégique, celle de Ralph Kimball est plus tactique. Chacun
a développé sa vision dans son propre ouvrage; ces ouvrages restent
aujourd’hui une lecture essentielle pour comprendre les
architectures possibles d’un entrepôt de données.
L’entrepôt de données est alimenté à partir des données de
production, en passant par l’outil d’alimentation/intégration
(ETL). Parfois une étape intermédiaire de stockage (Operational
Data Store - ODS) est proposée, pour répondre à certaines
contraintes techniques de l’architecture.
En théorie, un entrepôt de données n’est jamais purgé, afin de
permettre les comparaisons sur plusieurs années. Dans le même
temps, les bases de production auront été nettoyées afin
d’optimiser leur temps de réponse. L’entrepôt de données devient
alors la mémoire centrale, et unique, des données
décisionnelles.
Autre règle de cohérence, on ne devrait jamais modifier ou
supprimer une donnée dans un entrepôt de données. Si une donnée est
erronée ou de mauvaise qualité, il faudrait passer par une
importation de la correction, afin de conserver la trace de
l’ensemble des opérations.
En sortie de l’entrepôt de données, on pourra compléter par des
magasins de données (Data Marts) qui regrouperont une partie des
données pour en faciliter l’analyse. Mais l’entrepôt de données
peut également être directement interrogé par les outils
d’analyse.