Les étapes et notions d’un projet BI

Tout d'abord pour bien commencer le sujet et poser le contexte je vous propose une définition de la Business Intelligence aussi connue sous le nom d'informatique décisionnelle :

L'informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données immatérielles d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d'avoir une vue d'ensemble de l'activité traitée. Source Wikipédia

Dans ce post je vais présenter les différentes étapes qu'il est nécessaire de mettre en place dans une chaine décisionnelle afin de profiter pleinement et efficacement d'une plateforme de business intelligence. Le but étant de comprendre le rôle et l'intérêt de chacune des étapes afin de saisir l'importance de celles-ci.

Les étapes

La chaîne décisionnelle comprend différentes phases :

  • La phase d'alimentation : Cette phase va faire intervenir des processus ETL qui se chargeront de récupérer toutes les données nécessaires depuis les différentes sources de stockage.
  • La phase de modélisation : Cette phase est le moment où les données sont stockées sous une forme adaptée pour les analyses que nous souhaitons effectuer. Elle contient notamment le datawarehouse chargé de centraliser les données. Elle fait aussi intervenir les notions de cubes et de datamarts nécéssaire pour coller au plus près des attentes métiers.
  • La phase de restitution : C'est dans cette phase que les différents outils de restitution vont intervenir. Nous trouverons des outils de reporting, des portails d'accès à des tableaux de bord, des outils de navigation dans des cubes, ou des outils de statistiques.
  • La phase d'analyse : C'est dans cette phase que les utilisateurs finaux interviennent et analysent les informations qui leurs sont fournies. Elle peut aussi faire intervenir des spécialistes en analyse pour utiliser des outils de statistique et ressortir des prévisions ou des estimations futures (datamining).

chaine BI

Les processus ETL

Les processus ETL (Extraction, Transformation et Chargement) sont en charge de récupérer les données depuis l'ensemble des sources opérationnelles existantes et de les charger vers le système décisionnel :

  • Extraction de données des bases de données opérationnelles (ERP, SGBDR, fichiers en dur, etc.)
  • Transformation de ces données pour nettoyer, conformer, standardiser, documenter, corriger et dé dupliquer.
  • Chargement des données dans le système décisionnelles : Datawarehouse, Datamarts, ou Cube.

Pourquoi est-il intéressant d'utiliser un outil ETL ?

  • Les données à traiter pour les systèmes décisionnelles sont généralement très volumineuses, les ETL sont adaptés à cette volumétrie en croissance exponentielle.
  • D'autres part, les ETL proposent un grand nombre de composant permettant de se connecter facilement à tout type de source. Ils implémentent aussi des outils qui offrent des services annexes comme par exemple un envoi d'alertes pour prévenir les administrateurs en cas de problèmes.
  • La représentation graphique des scripts offre une prise en main facile et rapide. Ces outils permettent de clarifier et standardiser les processus ce qui est un gain en matière d’évolution et de maintenance du système.

Le Datawarehouse

Le Datawarehouse est le point de stockage de toutes les données utilisées par le système pour analyser les informations. Il assure dans un premier temps une étanchéité entre le système opérationnel et le système décisionnel. Il n’y a donc pas de risque que les outils décisionnels affectent les performances du système déjà en place.

Il suit 4 grands principes :

  • Orienté métiers : C'est à dire que sa structure est conçus en fonction des besoins utilisateurs. Il se base généralement sur une topologie en étoile et va privilégier les performances de réponse au détriment de la normalisation.
  • Non volatile : Un datawarehouse est dans son utilisation une base en lecture seule.
  • Intègre : Nécessaire pour obtenir des résultats fiables et cohérents.
  • Historisé : Toutes les informations sont datés et aucune n'est supprimés.

Son unicité permet une centralisation et une uniformisation de l’information au sein de l’entreprise. Tous les services pourront se baser sur une information commune et sûre.

Les Datamarts

Les datamarts peuvent être considérer comme un sous ensemble du datawarehouse. De ce fait il suivent les mêmes principes que celui-ci, leur différence se situe sur le fait qu'un datamart va répondre à un besoin métier plus spécifique que le datawarehouse.

Les Cubes

Les Cubes OLAP (ou hypercubes) permettent une représentation multidimensionnelle de l'information et le calcul de mesures aggrégées.

Chaque dimension a la possibilité d'être hiérarchisée en fonction des besoins de l'utilisateur. Une dimension temps pourra par exemple utiliser la hiérarchie : Année, Trimestre, Mois, Semaine.

Il est ainsi possible d’accéder facilement et rapidement à l'information souhaiter en fonction de plusieurs dimensions.
La navigation au sein d'un cube peut être faite soit en utilisant le langage MDX (Multidimensional Expressions), soit à travers des outils proposant des interfaces intuitives ne nécessitant pas de connaissance spécifique en informatique.

Le Reporting

Les outils de reporting permettent de restituer les données sous forme de rapport. Il existe deux grand domaines dans le reporting : le reporting ad hoc et le reporting de masse.

  • Le reporting ad hoc offre la possibilité à l’utilisateur de créer lui-même le rapport qui l’intéresse avec les données qu’il souhaite. L’utilisateur aura accès à des vues métiers spécialement conçu en fonction de ses besoins qui lui permettront de choisir facilement l’information qu’il souhaite. Aucune connaissance en base de donnée n'est nécessaire, les vues font la passerelle entre les données stockés et les besoins de l’utilisateur.
  • Le reporting de masse quant à lui va permettre de créer à l’avance des modèles de rapport qui seront susceptible d’être souvent demandé par les utilisateurs. Le reporting de masse permet de répondre rapidement à un besoin régulier de beaucoup d’utilisateurs.

Le Datamining

Les outils de datamining ouvrent de nouvelles perspectives sur l’utilisation de la masse d’information disponible dans le système opérationnel.
Le datamining est l'utilisation d'outils statistiques ou d'algorythmes mathématiques sur les données afin de prédire, expliquer, ou de classer des informations. Les outils sont variés, on peut citer : la régression linéaire multiple, les arbres de décisions, les réseaux de neurones...

7 commentaires

  1. Je voulais te féliciter pour ton explication, elle est très clair.
    Ca m’aidera énormement pour mon stage.
    Merci

  2. Merci Pour cet article!! il est très bien détaillé.
    Il a pu m’éclaircir beaucoup de notions BI.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Captcha *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.