#1 - De Roger le berger à la gouvernance des données
Cet article vise à expliquer le QUOI et le POURQUOI de la gouvernance des données, grâce à Roger le berger.
Hello world,
vous avez probablement entendu parler de données (les “data”), mais avez-vous déjà entendu parler de la gouvernance des données ?
La donnée, un outil créé par l'être humain
La donnée, mot issu du latin datum ("quelque chose de donné"), est un outil créé par l'être humain pour générer une valeur ajoutée vis-à-vis d’un phénomène particulier. Pour ne rien vous cacher, les données existaient déjà avant l’apparition d’internet et de l’ordinateur.
Voici plusieurs siècles, Roger - un berger des Landes - comptait (le traitement des données) ses moutons (les données) tous les jours pour détecter les pertes d’animaux dues à l’impact d'un prédateur. Ce comportement lui a permit d'engager Grichka, un chasseur venu d'ailleurs, capable de minimiser la perte d'animaux de Roger dans le temps.
À cette époque, les données étaient stockées localement (principalement dans le cerveau de Roger) ce qui limitait fortement les risques de fuite de données.
Puis Internet est apparu, cet outil fabuleux ayant permit aux êtres humains de créer plus de données et de les partager facilement, en interagissant avec des machines et leur pairs connectés.
Alors, les données sont devenues moins silotées, transitant entre les ordinateurs. Sans surprise, le principal inconvénient de cette technologie était l’erreur humaine, et plus particulièrement le manque de connaissances face à cette nouvelle technologie qu’était internet. C'est pourquoi des failles de sécurité (condition nécessaire à des fuites de données) ont commencé à apparaître: demandez à Edward Snowden ce qu’il a constaté en se rendant sur le site web du laboratoire de recherche nucléaire de Los Alamos (LANL) lorsqu'il était adolescent1.
Le Big Data, où le moment où Roger a acquis un smartphone
Puis vint notre époque, l'ère des smartphones, du cloud et de l'internet des objets (IoT). Dès lors, la majeure partie de l’humanité ainsi que chaque capteur IoT (votre iBidule et autre iMachin...) a commencé à générer beaucoup (mais alors, BEAUCOUP) de données partout et à tout moment. Et toutes ces données se sont accumulées - quasiment désilotées - dans le cloud ☁️ , cette sorte de réseau d'ordinateurs situés ailleurs que chez vous et disposant de grandes quantités de mémoire.
En 2021, Roger (et oui, Roger est un berger landais immortel) dispose d'un smartphone ainsi que d'un forfait internet. Cela lui permet de générer et stocker des données dans le cloud. Cela arrive lorsqu'il poste une photo de son repas préféré sur un réseau social, lorsqu'il utilise une application GPS pour se rendre chez son meilleur ami ou lorsqu'il paie avec sa carte de crédit ce délicieux Irouléguy AOP 2009 (un vin français du Pays basque).
La plupart de ces phénomènes se produisent avec pour finalité que quelque chose d'utile apparaisse sur l'écran du smartphone / ordinateur portable / tablette de Roger. Tout cela est rendu possible parce que les données sont générées partout, collectées quelque part, traitées ailleurs pour être publiées (on appelle cela le cycle de vie de la donnée2).
De Roger à vous et moi, les données ont toujours été utilisées :
"pour mettre en évidence (la loupe) et agir (le levier) sur un phénomène donné3".
Ces énormes quantités de données recueillies via internet à partir de smartphones, d'ordinateurs portables, de capteurs IoT ont un nom: le “Big Data”.
Mais, comme toute nouvelle technologie, le Big Data s'est accompagné de quelques inconvénients : les fuites de données et leurs usages non-souhaités.
Big Data sans gouvernance = chaos
Par analogie, la donnée peut être comparée à une photo prise de quelque chose, à un endroit et à un moment donné.
Cependant, lorsque Roger prend trop rapidement une photo de Shaun - son mouton - l'image sera floue, comme une donnée dont la signification n'a pas été clairement définie.
De même, Roger ne peut pas deviner le lieu de prise de vue de la vieille photo papier de ses parents si le lieu n'a pas été noté au stylo au dos. De la même manière, une donnée peut être énigmatique si sa source n'est pas connue.
De même que l'une des premières photos numériques apparaît aujourd'hui laide sur un écran haute définition (demandez à Roger d'essayer d'ouvrir une photo numérique prise il y a 20 ans depuis son dernier smartphone…), la qualité d'une donnée peut diminuer avec le temps et doit être évaluée en fonction du contexte dans lequel elle est utilisée.
Le problème est que des décisions sont prises tous les jours sur la base de données floues, non sourcées et non qualifiées.
Alors que Roger n'avait aucunement besoin de suivre des normes et des bonnes pratiques pour compter ses moutons en toute sécurité il y a quelques siècles, la gouvernance globale des données a été mise en place plus récemment pour surmonter les problèmes suivants inhérents au Big Data, au Cloud et à l'intelligence artificielle (IA) : fuites de données, utilisations non désirées des données, sens des données, traçabilité et qualité des données.
La gouvernance des données, depuis le navire jusqu’à la confiance
Le mot "gouverner" provient du latin gubernare (et du grec kubernân), faisant référence à la direction donnée à un navire4.
Selon Gartner, la gouvernance des données se définit comme :
"La spécification des droits de décision et un cadre de responsabilité pour assurer le comportement approprié dans la valorisation, la création, la consommation et le contrôle des données et leurs analyses.5"
De même, la gouvernance des données peut être décrite comme :
"Une opportunité de créer une relation de confiance avec le Client.6"
La variété des définitions disponibles autour de la gouvernance des données montre à quel point il peut être difficile de la contextualiser dans les interactions que nous avons avec les données d’où qu’elles viennent.
Heureusement, une définition plus consensuelle vous sera proposée à la fin de cet article.
Pourquoi gouverner les données?
Vous n’étiez pas au courant ? Comme Roger l'a fait pour ses moutons, vous gouvernez déjà votre nourriture dans votre frigo, vos fichiers dans des dossiers ou vos vêtements dans un dressing !
Sur ce dernier exemple, la gouvernance de votre dressing vous permet d'accéder rapidement aux bons vêtements (vêtements de sport, pyjama, ...) pour le bon usage (télétravail, télétravail, etc ...).
Imaginez maintenant que vous puissiez accéder à ces vêtements hyper-classe dont vous avez toujours rêvé, sans les acquérir pour la vie, au moment précis où vous en auriez besoin (par exemple, pour fêter votre retour au bureau).
Pour ce faire, il faudrait d'abord que certaines personnes (physiques ou morales) partagent leurs vêtements avec vous. Ensuite, en tant que consommateur potentiel, il vous faudrait connaître l'existence de ces vêtements, leur disponibilité et leur description (marque, taille,...). Et enfin, il vous faudrait connaître la qualité de ces vêtements évaluée par d'anciens consommateurs de ceux-ci.
En quelques mots, la gouvernance des données peut être définie comme suit :
À l'ère du Big Data, du Cloud et des capacités en intelligence artificielle (IA), la gouvernance des données est l'ensemble des normes (ce que vous devez faire), des bonnes pratiques (ce que vous feriez mieux de faire) et des responsabilités (qui fait quoi) pour aider les organisations à créer plus de valeur à partir des données, tout en étant en conformité d’avec les politiques de sécurité et réglementations quant à la collecte et le traitement des données personnelles (comme le RGPD ou le CCPA).
En l’occurrence, la gouvernance des données doit permettre de minimiser les fuites de données, d'éviter les données mal utilisées (en explicitant le sens des données), de se prémunir de certains risques juridiques (par non-conformité des traitements et de l'utilisation des données) et d'éviter une surcharge de travail (par le temps perdu à déterminer signification, source et qualité de ces données que vous avez fait apparaître sur ce tableau de bord à destination de votre patron).
A la prochaine ?
Bonne nouvelle ! Les algorithmes ne sont pour la plupart pas encore capables d'effectuer un tel travail de contextualisation des données (sauf GPT-3, mais c'est une autre histoire). En tant qu'êtres humains, nous avons encore des compétences clés à faire valoir !
Mais pour atteindre un tel objectif, les organisations doivent faire en sorte que les gens soient plus enclins à partager et à consommer des données, et c'est là que la relation de confiance intervient.
Ne manquez pas le prochain article pour comprendre qui sont ces personnes, c'est-à-dire les bénéficiaires de la gouvernance des données, ainsi que leurs attentes.
#RestezCurieux
Gartner (IT Glossary)
Julien Levy, Professeur associé (HEC Paris, 2019)