Architecture des données et des informations
Architecture des données définition
Qu'est ce que l'architecture des données ?
L'architecture des données produit une organisation logique et physique des données et des informations, afin d'en optimiser les utilisations actuelles et futures.
La Data Architecture a son importance dans chaque application, mais est essentielle pour le partage des données (entre applications, processus, silos organisationnels).
L'architecture des données est particulièrement critique pour la Business Intelligence (BI) et l'Intelligence Artificielle (IA, AI).
La Data Architecture délivre à l'entreprise une vue d'ensemble des gisements et des flux d'information (inventaire, cartographie).
L'architecture des données fournit aux décideurs un outil de pilotage global de l'évolution des systèmes d'information.
Architecture des données et informations
Le terme usuel de "données" est réducteur, car l'architecture des données adresse plus largement :
- Les données (élément numérique brut dépourvu d'interprétation et de mise en contexte)
- Les informations (donnée enrichie d'éléments d'interprétation et mise en contexte)
- Les connaissances (information comprise assimilée et utilisée)
Menu Architecture des données
Composantes de l'architecture des données
Business
- Les capacités business (Les business capabilities)
- Les processus business
- la gouvernance des données
Applications et technologies
- les logiciels
- les moteurs de bases de données (SGBD)
- les interfaces (API, ETL)
Données et informations
- les informations et leur granularité
- les liens logiques entre les informations
- les utilisations des informations
- les flux d'informations
- les obligations réglementaires
- la sécurité des données
- la qualité et la fiabilité des données
Coûts et performances
- les volumes de données à stocker
- les contraintes de performances des accès aux données
Data architect définition
Rôle du Data Architect
Le Data Architect est le "chef d'orchestre" de la création, du stockage et de l'utilisation de la donnée à l'échelle d'une organisation. Le Data Architect est responsable de l'efficience de l'organisation dans le traitement de la donnée. Il analyse la fiabilité des données, leur coût d'acquisition et leur valeur d'usage. Il veille à la cohérence des instances d'une donnée dans les systèmes où elle est présente.
Le Data Architect évalue les usages actuels et anticipe les risques et opportunités à venir. Le Data Architect synthétise les besoins "métiers" (business) et "applicatifs" ainsi que l'évolution des technologies. La Data Architect en déduit une feuille de route de transformation pour son entreprise. Il conseille la direction de l'entreprise et éclaire ses choix budgétaires. Il participe au pilotage des projets approuvés.
Périmètre du Data Architect
Un data architect peut avoir une compétence globale pour son organisation, comme un architecte d'entreprise.
Un data architect peut être spécialisé dans un domaine : CRM-SRM, ERP-Produits, RH-Paie.
Le Data Architect a un rôle central pour le design des solutions de Business Intelligence, Data Engineering et d'entreposage de la donnée (data warehouse, data lake).
Sélection d'un nouveau progiciel : seul le Data Architect peut valider l'adéquation des progiciels candidats avec le méta-modèle de données.
Data Dictionary : bien que l'utilité de cet outil ne fasse pas l'unanimité, quand il existe, il est du ressort du Data Architect.
Profil du data architect
- Expérience opérationnelle des métiers "business" de son organisation.
- Vision claire des véritables besoins des clients internes et externes.
- Connaissance des formats et standards d'échanges de données.
- Maitrise des langages et outils de bases de données (SQL, ETL).
- Aisance en modélisation de données (MCD, MLD, MPD).
- Talents pour la communication et la vulgarisation.
- Capacité à jongler avec les détails opérationnels et la vision conceptuelle globale.
- Persévérance dans l'adversité : le Data Architect est généralement le seul à comprendre son sujet.
L'utilité de l'architecture des données
L'intérêt collectif doit primer sur les intérêts particuliers
Par analogie, l'architecture des données peut être comparée à un plan d'urbanisme. Dans cette métaphore, l'entreprise correspondra à la ville, une application métier correspondra à une maison. Il est possible de construire une belle maison sans plan d'urbanisme, en étant centré sur les besoins de son propriétaire. Par contre, sans plan d'urbanisme, l'environnement de la maison (réseau routier, eau, électricité, télécommunication, etc) sera anarchique et inadéquat. La maison va devoir investir dans des solutions de substitution, subissant ainsi des surcoûts importants ainsi que des désagréments d'utilisation.
L'architecture des données rationalise et optimise l'environnement partagé par les applications métiers. Ainsi, grâce à l'architecture des données, la performance globale de l'organisation est supérieure à la performance individuelle des silos et applications.
Contenir et optimiser les investissements en informatique
Les business leaders ont toujours été prompts pour réclamer une application informatique pour résoudre un problème opérationnel. Dans certaines entreprises, cela tourne même au "Jeu des 7 familles" Gartner et Forrester.
Verbatim
- "Nous n'arrivons pas à concilier les données clients de notre ERP et de notre site de e-commerce : il nous faut un nouveau CRM."
- "Les données produits que nous fournissons à nos revendeurs sont mauvaises, il nous faut un nouveau PIM."
- "Notre PIM est trop rudimentaire : il nous faut une application MDM."
- "Nos données de production sont inadéquates pour l'Intelligence Artificielle, il nous faut des Data Engineers."
Certes, aux dires des leaders, 100% les projets sont des réussites. ;-)
Mais en réalité, combien de projets s'avèrent finalement inopérants pour cause de diagnostic erroné et d'absence d'architecture globale des données ?
Sans architecture des données, pas d'intelligence artificielle
Pour réussir un projet d'application métier, il est nécessaire de se limiter aux données indispensables au processus business, et de structurer ces données selon le progiciel choisi. Cette focalisation semble légitime à court terme, mais elle rend impossible toute analyse innovante, faute de données appropriées. En effet, les données capturées par les applications métiers ont été calibrées pour un traitement humain.
L'intelligence Artificielle ne reproduit pas le comportement humain. L'IA tire profit de la capacité de calcul massive de la machine pour trouver d'autres traitements aboutissant à un résultat optimal. Le rôle de l'architecture des données est régler le curseur entre les besoins applicatifs à court terme et les opportunités potentielles d'IA et de ML.
Le problème de la granularité des données
Certaines données necéssitent simultanément des niveaux de précision variables selon leurs différents usages. Non seulement ces degrés de précision doivent être anticipés, mais leur cohérence doit être garantie en tous cas.
- Exemple 1 : le temps. Année / Mois / Semaine / Jour / Heure / Minute / Seconde / Centième.
- Exemple 2 : les couleurs. Gris / Gris clair / RAL Classic 7001.
- Exemple 3 : l'adresse. Pays / Région / Département / Code postal / Localité / Zone IRIS / Voie et N° / Coordonnées GPS.
Mise en oeuvre de l'architecture des données
Sortir du cercle vicieux de l'urgence opérationnelle
Sous la pression des opérations business, les applications métiers évoluent dans l'urgence. Sous la contrainte des coûts et des délais, les projets d'application métier sont centrés sur les besoins immédiat de leur propriétaire business. Les processus objets des projets sont souvent conservés en l'état, sans amélioration significative de la productivité. L'amont et l'aval du processus ne sont pas questionnés pour éviter de compliquer le projet et de partager les décisions.
Lorsqu'une donnée est partagée, chaque entité veut bien qu'on s'aligne, à condition que ce soit sur ses propres vues.
Cette approche fragmentée aboutit à un paradoxe : beaucoup de projets informatiques mais peu de progrès.
Sans une approche globale rationnelle (l'architecture des données), les mêmes causes vont continuer à produire les mêmes effets.
Les orientations de l' architecture de données
- Remplacer la perspective "Logiciels" par la perspective "utilisateurs".
- Rester simple et concentré sur l'essentiel, tout en anticipant les besoins futurs.
- Passer de l'échange de données (entre applications) à l'organisation du partage des données.
- Transformer progressivement l'architecture : feuille de route globale, mais scénario progressif et breakdown.
- Développer l'utilisation des données en libre-service tout en maitrisant la sécurité et la confidentialité.
- Favoriser l'utilisation pertinente des données : glossaires, méta-data, dictionnaire des données (data dictionary).
- Fournir une vue synthétique des risques de sécurité et de conformité réglementaire.
- Automatiser la validation et la mise en forme des données pour chaque usage (le Data Engineering doit rester provisoire).
- Favoriser la mise en oeuvre de l'intelligence artificielle (IA, Machine learning).
- Intégrer le Cloud, l'internet des objets (IoT) et la blockchain.
Principes d'architecture
Parmi les principes IT et Data, voici les plus importants pour l'Architecture des Données :
- Maximiser le bénéfice pour l'entreprise
- La gestion de l'information est conforme aux lois, réglementations et politiques.
- La donnée est partagée entre fonctions et organisations selon leurs besoins dans l'accomplissement de leurs missions
- Les données sont définies de façon cohérente à l'échelle de l'entreprise
- Capture de l'information à la véritable source, fidélité des données à la réalité
- Unicité de la donnée maintenue, propagation de la données aux applications utilisatrices
- Automatisation des tâches manuelles, réduction au strict nécessaire des transformations
Article sur les Principes en Data Management
L'approche globale : end-to-end
Pour maximiser l'efficacité collective d'une entreprise, il faut donc :
- Identifier et définir les processus transverses dans leur intégralité
- Cartographier ces processus de façon simplifiée pour mettre en lumière les dépendances
- Détecter les potentiels d'amélioration avec une démarche type Hoshin Kanri
- Elaborer des scenarii, chiffrer les projets pour priorisation et prise de décision
Exemple d'architecture end-to-end : les données produits
Voici un schéma très simplifié d'une architecture end-to-end des données produits, avec les phases du développement produit et les progiciels associés :
- Phases : Idéation → Développement → Industrialisation → Production → Logistique → Marketing → Vente → Après-vente.
- Logiciels : VOC, PDM, PLM, CAD (CAO), ERP, PIM, DAM, configurateurs, publishing, e-commerce, problem management, CRM.
Différence entre Architecture des données et Architecture d'entreprise
Selon le logiciel d'EA utilisé, il est possible de documenter les flux de données entre applications et interfaces. Toutefois, le niveau de détail très limité ne permet pas d'analyse. Un logiciel d'EA ne parle qu'à une audience d'experts IT et ne convient pas aux leaders du Business.
Différence entre Architecture des données et Modèles de données
Les modèles de données ne constituent qu'une partie des outils de l'architecture des données. Ces représentations schématiques sont trop détaillées pour fournir une vue globale sur un domaine de données (tel que les produits, les interactions avec les clients).
En simplifiant à l'extrême :
- Les modèles conceptuels (MCD) sont une base de discussion entre business analystes et architecte des données.
- Les modèles logiques (MLD) sont un outil de discussion entre architecte et développeurs, en particulier pour les interfaces entre applications.
- Les modèles physiques (MPD) sont l'affaire des développeurs, dans le cadre des modèles logiques convenus avec l'architecte.
Dernière mise à jour : 9 septembre 2024