Les données non structurées, c'est comme les bandes non dessinées…

Marie-Anne Chabin

Critique de l’information, archivage, méthode Arcateg™

Publié le 7 sept. 2018

Ces deux expressions – données structurées et données non structurées – sont aujourd'hui répandues et acceptées. C'est la première et principale façon de caractériser les données dans la société de l'information, dans les entreprises et leurs directions des systèmes d'information (DSI) mais aussi, de plus en plus, pour les responsables métiers, pour les juristes et pour les professionnels de l'information.

Le sens est clair:

Données structurées: informations (mots, signes, chiffres…) contrôlées par des référentiels et présentées dans des cases (les champs d'une base de données) qui permettent leur interprétation et leur traitement par des machines.

Données non structurées: le reste, tout ce qui n'est pas organisé en base de données, c’est-à-dire la bureautique, la messagerie, les images, les vidéos, etc.

Je voudrais faire sur ces expressions trois remarques:

La première est que parler de données structurées ou non structurées est d'abord un point de vue d'informaticien spécialiste de la gestion de valeurs (noms, nombres, couleurs, etc.) réparties dans des tables (le mot valeurs est ici au pluriel). On nomme ce que l'on connaît, ce que l'on contrôle. Et le reste, eh bien, c'est "non" ceci ou cela.

L'identification d'un objet par la négative, par ce qu'il n'est pas, par une non-qualité, est réducteur et ne constitue pas un critère de gestion très efficace. Enfin, dans le monde des sciences dures, on peut comprendre la distinction entre métaux ferreux et les métaux non ferreux. Mais dans le monde de l'information, c'est très insuffisant. A titre de comparaison, je prends les toiles à la place des données: c'est comme si on parlait des toiles cirées et des toiles non cirées: c'est très bien pour les quincaillers et les marchands de déco mais c'est très flou pour la gestion des autres toiles (émeri, de tente, de Jouy, d'araignée…). Idem pour les bandes dessinées et les bandes non dessinées: c'est clair pour les libraires mais ce n'est pas opérant pour les bandes Velpeau, les bandes annonces, les bandes passantes, les bandes organisées et j'en passe).

Ceci pour dire que la famille éclatée des "données non structurées" recouvre des quantités de réalités qu'on ne saurait réduire à une anti-définition. Il y a bien les données semi-structurées mais cette précision se cantonne toujours au format technique de l'information et n'atteint pas le niveau de la gouvernance.

Il est temps de gouverner l'ensemble des données avec des définitions positives pour mettre en relief la valeur de l'information (poids, portée, risque, richesse… - le mot valeur est là au singulier) et non son seul format.

La deuxième remarque est que cette existence encombrante de données non structurées commence à préoccuper sérieusement un nombre croissant d'acteurs, alertés en quelque sorte par le RGPD, comme en témoignent, parmi d'autres, les deux articles suivants:

GDPR, quelle méthodologie adopter pour la gestion des données non structurées ? Raphael Feddawi / Responsable Architecte - Avant vente, avril 2018. Extrait: "Les données non structurées sont celles qui ont toujours posé le plus de problèmes dans leur gestion."

Données non structurées : pourquoi sont-elles plus difficiles à sécuriser ?, juillet 2018 par Vincent Dely, Solutions Architect chez Digital Guardian Extrait: "De nombreuses initiatives de protection des données se focalisent sur la sécurisation des données structurées sans protéger suffisamment des données tout aussi sensibles mais plus difficiles à sécuriser : les données non structurées."

Le défi des données non structurées est qu'elles sont partout, créées par tout un chacun, échappant aux règles du management comme aux logiques des outils, à la manière d'un liquide qui se répand dans tous les interstices à sa portée.

Le point d'attention ici est que le problème ne relève pas de la nature "non structurée" de l'information mais de la négligence, de l'indiscipline ou simplement de l'insouciance des auteurs de ces informations: expéditeurs et réexpéditeurs de mails (dont quelques-uns sont effectivement du courrier), rédacteurs de notes (dont quelques-unes sont pertinentes), amateurs compulsifs d'appareils de prise de vues (dont quelques-unes sont effectivement des photographies), producteurs de foutoirs qui sont des foutoirs avant d'être des données non structurées!

La troisième réflexion porte sur ce qui est en train de se passer pour une meilleure maîtrise des données, pour transformer les données non structurées en données structurées, pour qu'elles puissent être exploitées et rentables, par exemple, la démarche de Google qui crée des données structurées en analysant les vidéos.

Cependant, le résultat d'une intervention de l'intelligence artificielle sur des "données non structurées" dépend, d'une part, de la façon dont on alimente l'algorithme au départ, d'autre part, de la façon dont sont produits les écrits et les images analysés. Or, la qualité du texte initial est une notion subjective: on peut trouver des textes d'apparence très carrée mais dénué d'intérêt voire de sens, tandis que d'autres documents portent des idées fortes mais dans une langue élaborée et pleine de subtilités. Et les images, plus encore que les textes, peuvent être "lues" différemment selon la préoccupation du lecteur ou son degré d'expertise.

Le risque est que l'humanité abandonne complètement le regard humain sur un texte ou une image pour se contenter de l'interprétation machine qui, toute puissante qu'elle soit, sera différente de l'interprétation humaine.

Il y a donc une réflexion "humaine" à promouvoir pour construire des modèles de connaissances, dans le but à la fois de nourrir les algorithmes et de créer un vertueux contrepoids à l'intelligence artificielle, histoire de ne pas perdre ses racines et la mémoire de pensée des générations qui nous ont précédés. Personnellement, je n'aime pas mettre tous mes œufs dans le même panier, ni penser que l'œuf ne vient pas de la poule…

C'est l'idée qui soutient la méthode Arcateg™: une grille de lecture des données de l'entreprise ( structurées ou non), basée sur mon expertise diplomatique (plusieurs siècles de critique du document) et sur mon expérience humaine de l'entreprise de plus de trente ans, mais enrichi par les capacités de l'IA, au travers du logiciel C3 et de la solution Mosaïk.

CQFD.

Cet article est la version courte de l'article Données structurées et données non structurées publié sur mon site professionnel (qui comprend également une liste de définitions): http://www.arcateg.fr/2018/09/06/donnees-structurees-et-donnees-non-structurees/

Francois Guerin

Transformation Officer

6 ans

Bel article, merci MAC

J’aime

Réagir

1 réaction

Michel Kern

Chercheur indépendant sur Cryptomonnaies et Blockchain

6 ans

Pour moi il vaudrait mieux utiliser l'adjectif 'sémantisées', cad contextualisees par un schema s'appuyant sur des ontologies standardusees (ex: schema.org de Google) Les 'structures' dont il est question dans l'article sont nommées des schéma en ingenierie logicielle et le probleme vient du fait que les schemas (en particulier ceux des SGBDR) sont d'une part statiques, d'autre part arbitraires, non standardisés et trahissent un biotope propriétaire cad hermertique et non extensible (ex: schema SQL d'une application métier)

J’aime

Réagir

François Perret

😎 Let's supercharge your marketing with Salesforce & AI. 3️⃣1️⃣ x Certified.

6 ans

En fait les données non structurées sont également stockées en base de données, mais ces dernières sont qualifiées de no-sql (généralement au format json).

J’aime

Réagir

1 réaction

Pascal ALIX

Avocat associé | DPO externe | Lead auditor (#Europrivacy) | Doctorant en droit privé à Paris I Panthéon Sorbonne

6 ans

D'accord avec Eryck FENOT. Excellent article, que tous les DPO devraient lire ! Je partage avec un #MustRead Il va falloir que je m'intéresse de plus près à la méthode ARCATEG quand j'aurai moins le nez dans le guidon.

J’aime

Réagir

2 réactions

DIANE phoebe SCIANDRA

Airbus DS- Product Data Analyst-CFTC

6 ans

Excellent article éclairant et pertinent ! As usual.

J’aime

Réagir

1 réaction

Voir plus de commentaires

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Marie-Anne Chabin

Lecture de "L'enfer numérique" de Guillaume Pitron

14 oct. 2021

Lecture de "L'enfer numérique" de Guillaume Pitron

Le livre de Guillaume Pitron, Guillaume Pitron, L’enfer numérique. Voyage au bout d’un Like (éditions LLL) est un des…

13 commentaires
Des documents engageants aux archives engagées

10 déc. 2018

Des documents engageants aux archives engagées

Chacun peut constater la polysémie du mot archives, entre le point de vue des informaticiens, celui des archivistes…

6 commentaires
La critique des faux a un nom : la diplomatique

20 juin 2018

La critique des faux a un nom : la diplomatique

De faux documents circulent et sont utilisés à des fins économiques et politiques frauduleuses. Cela ne date pas d’hier.

4 commentaires
Production des données en pleine conscience

22 mai 2018

Production des données en pleine conscience

Produire les données en pleine conscience, n’est-ce pas, finalement, la meilleure façon de bien gérer les données à…
Un livre papier pour parler des données numériques

18 avr. 2018

Un livre papier pour parler des données numériques

Est-ce bien raisonnable ? Mon livre Des documents d'archives aux traces numériques. Identifier et conserver ce qui…

4 commentaires
La charrue, les bœufs et le RGPD

6 mars 2018

La charrue, les bœufs et le RGPD

Ne faut-il pas s’émerveiller de cette grande vague technologique et commerciale qui s’élance à la rencontre du RGPD…

14 commentaires
La data et la RGPD : oh la la !

6 févr. 2018

La data et la RGPD : oh la la !

Féminisation des noms de métiers, écriture inclusive, revendication d’une égalité réelle des droits entre les personnes…

13 commentaires
La Galaxie Internet

15 nov. 2017

La Galaxie Internet

Comment de temps faudra-t-il pour que l’on cesse de considérer l’écrit numérique comme un papier numérisé ? C’est la…
Transformation ou transition numérique?

10 avr. 2017

Transformation ou transition numérique?

Quelle est l’expression la plus appropriée pour désigner ce phénomène d’une société de plus en plus connectée, avec la…

2 commentaires
Linkedin, je t’aime moi non plus

6 mars 2017

Linkedin, je t’aime moi non plus

Cher réseau, je t’aime, à n’en pas douter. Je t’aime comme ce lieu public où l’on passe le matin, le soir ou à…

8 commentaires

See all articles

Les données non structurées, c'est comme les bandes non dessinées…

Marie-Anne Chabin

Critique de l’information, archivage, méthode Arcateg™

Plus d’articles de Marie-Anne Chabin

Autres pages consultées

ARTIMA qui ?

La peste graphique : les camemberts sont le Comic Sans de la visualisation

L'INCONNU AUX 100 VISAGES

Le numérique a-t-il tué les histoires ?

Art of map

Publication d'une bande dessinée numérique en ligne : Le portrait d'Esther

Illustration pour la chaine TFO - Le projet Aquazette pour les éditions Boukili

Le Design d'information au service d'une expédition scientifique polaire

La recette des Planètes de papier par Philippe Rivière

Mieux que la Comic Sans, la Comic Neue

Explorer les sujets

Plus d’articles de Marie-Anne Chabin

Lecture de "L'enfer numérique" de Guillaume Pitron

Des documents engageants aux archives engagées

La critique des faux a un nom : la diplomatique

Production des données en pleine conscience

Un livre papier pour parler des données numériques

La charrue, les bœufs et le RGPD

La data et la RGPD : oh la la !

La Galaxie Internet

Transformation ou transition numérique?

Linkedin, je t’aime moi non plus

Autres pages consultées

ARTIMA qui ?

La peste graphique : les camemberts sont le Comic Sans de la visualisation

L'INCONNU AUX 100 VISAGES

Le numérique a-t-il tué les histoires ?

Art of map

Publication d'une bande dessinée numérique en ligne : Le portrait d'Esther

Illustration pour la chaine TFO - Le projet Aquazette pour les éditions Boukili

Le Design d'information au service d'une expédition scientifique polaire

La recette des Planètes de papier par Philippe Rivière

Mieux que la Comic Sans, la Comic Neue

Explorer les sujets