Les données non structurées, c'est comme les bandes non dessinées…
Ces deux expressions – données structurées et données non structurées – sont aujourd'hui répandues et acceptées. C'est la première et principale façon de caractériser les données dans la société de l'information, dans les entreprises et leurs directions des systèmes d'information (DSI) mais aussi, de plus en plus, pour les responsables métiers, pour les juristes et pour les professionnels de l'information.
Le sens est clair:
Données structurées: informations (mots, signes, chiffres…) contrôlées par des référentiels et présentées dans des cases (les champs d'une base de données) qui permettent leur interprétation et leur traitement par des machines.
Données non structurées: le reste, tout ce qui n'est pas organisé en base de données, c’est-à-dire la bureautique, la messagerie, les images, les vidéos, etc.
Je voudrais faire sur ces expressions trois remarques:
La première est que parler de données structurées ou non structurées est d'abord un point de vue d'informaticien spécialiste de la gestion de valeurs (noms, nombres, couleurs, etc.) réparties dans des tables (le mot valeurs est ici au pluriel). On nomme ce que l'on connaît, ce que l'on contrôle. Et le reste, eh bien, c'est "non" ceci ou cela.
L'identification d'un objet par la négative, par ce qu'il n'est pas, par une non-qualité, est réducteur et ne constitue pas un critère de gestion très efficace. Enfin, dans le monde des sciences dures, on peut comprendre la distinction entre métaux ferreux et les métaux non ferreux. Mais dans le monde de l'information, c'est très insuffisant. A titre de comparaison, je prends les toiles à la place des données: c'est comme si on parlait des toiles cirées et des toiles non cirées: c'est très bien pour les quincaillers et les marchands de déco mais c'est très flou pour la gestion des autres toiles (émeri, de tente, de Jouy, d'araignée…). Idem pour les bandes dessinées et les bandes non dessinées: c'est clair pour les libraires mais ce n'est pas opérant pour les bandes Velpeau, les bandes annonces, les bandes passantes, les bandes organisées et j'en passe).
Ceci pour dire que la famille éclatée des "données non structurées" recouvre des quantités de réalités qu'on ne saurait réduire à une anti-définition. Il y a bien les données semi-structurées mais cette précision se cantonne toujours au format technique de l'information et n'atteint pas le niveau de la gouvernance.
Il est temps de gouverner l'ensemble des données avec des définitions positives pour mettre en relief la valeur de l'information (poids, portée, risque, richesse… - le mot valeur est là au singulier) et non son seul format.
La deuxième remarque est que cette existence encombrante de données non structurées commence à préoccuper sérieusement un nombre croissant d'acteurs, alertés en quelque sorte par le RGPD, comme en témoignent, parmi d'autres, les deux articles suivants:
GDPR, quelle méthodologie adopter pour la gestion des données non structurées ? Raphael Feddawi / Responsable Architecte - Avant vente, avril 2018. Extrait: "Les données non structurées sont celles qui ont toujours posé le plus de problèmes dans leur gestion."
Données non structurées : pourquoi sont-elles plus difficiles à sécuriser ?, juillet 2018 par Vincent Dely, Solutions Architect chez Digital Guardian Extrait: "De nombreuses initiatives de protection des données se focalisent sur la sécurisation des données structurées sans protéger suffisamment des données tout aussi sensibles mais plus difficiles à sécuriser : les données non structurées."
Le défi des données non structurées est qu'elles sont partout, créées par tout un chacun, échappant aux règles du management comme aux logiques des outils, à la manière d'un liquide qui se répand dans tous les interstices à sa portée.
Le point d'attention ici est que le problème ne relève pas de la nature "non structurée" de l'information mais de la négligence, de l'indiscipline ou simplement de l'insouciance des auteurs de ces informations: expéditeurs et réexpéditeurs de mails (dont quelques-uns sont effectivement du courrier), rédacteurs de notes (dont quelques-unes sont pertinentes), amateurs compulsifs d'appareils de prise de vues (dont quelques-unes sont effectivement des photographies), producteurs de foutoirs qui sont des foutoirs avant d'être des données non structurées!
La troisième réflexion porte sur ce qui est en train de se passer pour une meilleure maîtrise des données, pour transformer les données non structurées en données structurées, pour qu'elles puissent être exploitées et rentables, par exemple, la démarche de Google qui crée des données structurées en analysant les vidéos.
Cependant, le résultat d'une intervention de l'intelligence artificielle sur des "données non structurées" dépend, d'une part, de la façon dont on alimente l'algorithme au départ, d'autre part, de la façon dont sont produits les écrits et les images analysés. Or, la qualité du texte initial est une notion subjective: on peut trouver des textes d'apparence très carrée mais dénué d'intérêt voire de sens, tandis que d'autres documents portent des idées fortes mais dans une langue élaborée et pleine de subtilités. Et les images, plus encore que les textes, peuvent être "lues" différemment selon la préoccupation du lecteur ou son degré d'expertise.
Le risque est que l'humanité abandonne complètement le regard humain sur un texte ou une image pour se contenter de l'interprétation machine qui, toute puissante qu'elle soit, sera différente de l'interprétation humaine.
Il y a donc une réflexion "humaine" à promouvoir pour construire des modèles de connaissances, dans le but à la fois de nourrir les algorithmes et de créer un vertueux contrepoids à l'intelligence artificielle, histoire de ne pas perdre ses racines et la mémoire de pensée des générations qui nous ont précédés. Personnellement, je n'aime pas mettre tous mes œufs dans le même panier, ni penser que l'œuf ne vient pas de la poule…
C'est l'idée qui soutient la méthode Arcateg™: une grille de lecture des données de l'entreprise ( structurées ou non), basée sur mon expertise diplomatique (plusieurs siècles de critique du document) et sur mon expérience humaine de l'entreprise de plus de trente ans, mais enrichi par les capacités de l'IA, au travers du logiciel C3 et de la solution Mosaïk.
CQFD.
Cet article est la version courte de l'article Données structurées et données non structurées publié sur mon site professionnel (qui comprend également une liste de définitions): http://www.arcateg.fr/2018/09/06/donnees-structurees-et-donnees-non-structurees/
Transformation Officer
6 ansBel article, merci MAC
Chercheur indépendant sur Cryptomonnaies et Blockchain
6 ansPour moi il vaudrait mieux utiliser l'adjectif 'sémantisées', cad contextualisees par un schema s'appuyant sur des ontologies standardusees (ex: schema.org de Google) Les 'structures' dont il est question dans l'article sont nommées des schéma en ingenierie logicielle et le probleme vient du fait que les schemas (en particulier ceux des SGBDR) sont d'une part statiques, d'autre part arbitraires, non standardisés et trahissent un biotope propriétaire cad hermertique et non extensible (ex: schema SQL d'une application métier)
😎 Let's supercharge your marketing with Salesforce & AI. 3️⃣1️⃣ x Certified.
6 ansEn fait les données non structurées sont également stockées en base de données, mais ces dernières sont qualifiées de no-sql (généralement au format json).
Avocat associé | DPO externe | Lead auditor (#Europrivacy) | Doctorant en droit privé à Paris I Panthéon Sorbonne
6 ansD'accord avec Eryck FENOT. Excellent article, que tous les DPO devraient lire ! Je partage avec un #MustRead Il va falloir que je m'intéresse de plus près à la méthode ARCATEG quand j'aurai moins le nez dans le guidon.
Airbus DS- Product Data Analyst-CFTC
6 ansExcellent article éclairant et pertinent ! As usual.