Trop de données... tue les données.
Nous avons récemment présenté le Matching Cognitif au services des RH comme une application disruptive de l'IA (Intelligence Artificielle) et du Machine Learning en particulier. En décrivant les données nécessaires à l'établissement d'un bon match entre un collaborateur et son futur job, nous évoquions l'élargissement de la collecte des données par cercles concentriques autour de la personnalité du collaborateur, de ses valeurs, de son environnement... La question qui se pose ici est de savoir jusqu'où élargir ces cercles. Autrement dit, de savoir à quel moment dispose-t-on de suffisamment de données et donc à quel moment commence-t-on à collecter trop de données, et avec quel impact ?
La faute au Big Data
Lorsque le Big Data a explosé dans le monde des affaires, les entreprises ont collecté tout ce qui tombait du ciel, puis se sont souvent retrouvées embourbées dans des marécages de données inutilisables. Plutôt que de naviguer sereinement sur des lacs de données (data lakes) propres et clairs, comme elles l'avaient espéré.
Aujourd’hui l’expérience nous montre clairement que nous devons penser plus petit et nous concentrer sur la qualité plutôt que sur la quantité. Nous ne devons pas nous préoccuper d'analyser toutes les données disponibles. Au lieu de cela, nos efforts doivent nous permettre de déterminer la quantité de données nécessaires pour arriver à quelque chose d’utile.
Avant de se lancer dans le grand nettoyage, commençons par comprendre la différence entre un marécage boueux et un lac de données.
Data Lake vs. Data Swamp (marécage de données)
Un Data Lake est un système de stockage de diverses données, provenant de différentes sources, sous tous types de format (données numériques, textes, images, sons...). Ces données sont stockées à l’état brut, c’est à dire dans une copie quasi-exacte, voire exacte, du format source. Le but d'un Data Lake est de présenter aux analystes une vue non raffinée des données pour les aider à explorer les techniques d'analyse et de raffinement des données, indépendamment de tout compromis avec les systèmes d'enregistrement existants, c’est à dire ces bonnes vieilles bases de données relationnelles qui gouvernent encore nos systèmes d’information mais sont trop rigides pour accepter la variété de données collectées tous azimuts.
Un marécage de donnée, techniquement, c’est la même chose. Sauf que la quantité, la diversité des données et des types de données rendent difficiles, voire impossibles, toutes tentatives d’exploitation rationnelle et efficace de ces données.
Pourtant, même dans les marécages les plus boueux, les bonnes données sont là. Mails il faut peut-être un peu patauger avant des les atteindre. Voyons quelques bonnes pratiques pour nous aider à y voir plus clair.
Le grand nettoyage
Première bonne pratique : définir clairement quels types de données sont utiles pour l’entreprise, ainsi que qui va en être responsable. Travailler dans les limites spécifiques des objectifs fixés pour l’utilisation des données et en attribuer la propriété dès le début permet de rester concentré et de maîtriser l’ensemble du process.
Il est tout aussi important de travailler très tôt sur les métadonnées, c’est à dire sur des extractions compréhensibles à un niveau métier, consultables et utiles à l’entreprise. Ces méta-modèles doivent être établis en concertation avec les différents services, en accord avec les objectifs de l’entreprise. On voit souvent que les silos poussent les entreprises à collecter trop de données, par manque de consolidation des besoins. A l’inverse une bonne stratégie de consolidation permet de garder les lacs de données propres.
Un autre bon conseil pour réduire les volumes de données est d'utiliser la technologie déjà disponible et, si possible, de l’automatiser au maximum. L'automatisation allège la charge de travail des employés, gère plus efficacement les flux de données et assure une qualité constante et contrôlée des données.
Enfin, une fois les données propres, il faut les garder propres. Empêcher la création d'un « marécage de données » en établissant des lignes directrices claires pour définir où et comment les données doivent être collectées. Plus l’entreprise est efficiente dans le nettoyage de ses données et dans sa capacité à les garder propres, plus il sera facile de se concentrer sur les données les plus importantes. Et ce travail sera réellement bénéfique sur le long terme.
Savoir s'arrêter
TripAdvisor, est un excellent exemple. Le site de voyage a mis en place une politique de tests des performances de ses modèles prédictifs en y ajoutant progressivement plus de données, pour arriver à définir le seuil à partir duquel les volumes de données étaient suffisants. En regardant de près les nombres d’itérations nécessaires pour traiter un hôtel spécifique et une offre client spécifique, TripAdvisor a atteint un plateau stable à 100000 et réalisé que c’était suffisant. Toute autre donnée serait inutile, ayant très peu d'influence sur les résultats. Ceci est juste un exemple de la classique Loi des Rendements Décroissants.
Uber est un autre très bon exemple. Grâce à ses applications côté chauffeurs et clients, c’est typiquement une entreprise qui croule sous des quantités de données gigantesques. Bien qu’ayant révolutionné le service de taxi traditionnel, Uber travaille essentiellement en utilisant les mêmes ensembles de données que ses prédécesseurs. Ayant compris que « plus n'est pas forcément meilleur », Uber a réduit la quantité de données collectées et a cessé d'exécuter certains algorithmes complexes, consommateur de données, et non critiques. Aujourd'hui, les données essentielles qui sont traitées sont : qui a besoin d'une course, et à quel endroit. Comme on le voit ici, ce n'est pas la quantité de données collectées qui est importante mais bien le focus sur le bon type de données.
Pour des entreprises telles que TripAdvisor ou Uber, déterminer quels ensembles de données étaient les plus pertinents a consisté à déterminer ce qui réduisait leur avantage concurrentiel. En se concentrant sur ces « déchets », ils ont pu extraire les types et les quantités de données qui signifiaient moins de dépenses et plus de productivité.
Une bonne pratique illustrant ce processus de « filtration » consiste à identifier les pertes (produits, temps, énergie, process…) de l'entreprise. Que ce soit dans la production, la vente au détail ou d'autres services, la détermination des sources de gaspillage montre le chemin, par élimination, des données utiles. Une fois les sources ciblées, il est possible de commencer à automatiser certaines décisions. Celles qui sont simples, répétitives et opérationnelles sont optimales pour l'automatisation et sont les premières à prendre en compte. Enfin, en se demandant quelles informations sont nécessaires pour réduire efficacement et de façon durable les gaspillages, on fait un pas très important vers la définition des données réellement utiles.
Connaitre les limites de l’IA
Une fausse idée très répandue sur l'IA est que plus elle a de données, plus elle peut en faire. Mais il est important de noter que l'IA n'analyse pas toutes les données, mais seulement les bonnes données. La réalité, c’est que nous devons beaucoup travailler en amont sur les données avant que l'IA ne puisse entrer en jeu. Les entreprises qui peuvent se concentrer sur l'impact qu'elles veulent avoir et donc se concentrer sur la mise en correspondance de données adéquates avec ces objectifs ont la meilleure chance de générer des résultats vraiment percutants avec l'IA.
Ce qui ne veut pas dire que le « Big Data » est vaste escroquerie, mais simplement que l’IA produit des meilleurs résultats avec des objectifs clairs et des jeux de données simples. L'IA ne consiste pas à gagner la guerre des données. Il s'agit de gagner les batailles qui nous rapprochent de la victoire, pas à pas. Nous avons aujourd’hui des programmes d'IA qui savent déterminer combien de données sont nécessaires pour générer une analyse pertinente et utile. Encore une fois, il est clair que des petits jeux de données, mais de haute précision, obtiennent de bien meilleurs résultats.
Ce dont on dispose...
Clairement, la question n'est donc pas d’utiliser les données les plus volumineuses, mais bien d’utiliser les données à bon escient. Malgré l'augmentation constante des volumes de données disponibles, la plupart des analystes utilisent des ensembles de données de même taille qu'il y a dix ans. Les modèles prédictifs n'exigent pas des centaines de champs, ils nécessitent des ensembles de données solides et des technologies qui savent en tirer le meilleur parti. Souvent, les entreprises constatent qu'elles n'ont pas besoin d'une profusion de données ou même de nouvelles informations. Il est probable qu'elles ont déjà collecté les données dont elles ont besoin en termes de produit, de clients, de marché, de collaborateurs...
Et ce qu'une nouvelle technologie peut nous apporter
Tout ce que nous avons dit plus haut implique-t-il un « statu quo » sur la collecte des données ? Clairement non. Mais il y a deux questions à se poser avant d'aller explorer des nouvelles sources de données : quels sont les objectifs métiers ? quelle technologie pour exploiter ces données et en tirer un résultat concret ?
Dans le cadre du Matching Cognitif, nous proposons à partir d'une même technologie différents cas d'usage : Relation Client, Ressources Humaines, Hyper-segmentation commerciale... Ces usages débouchent sur des collectes de données spécifiques à chaque contexte. C'est ainsi le cas métier, avec ses objectifs, ses contraintes, ses indicateurs clés... qui est le « driver » pour l'enrichissement et la diversifications des sources de données. En sachant en amont que l'on a la capacité d'exploiter pleinement ces données.
Retrouver toutes nos solutions de Matching Cognitif sur cognitve-matchbox.com.
Responsable Socles Data Covéa
7 ansUn des apports du Big Data est de permettre de collecter et traiter un maximum de données pour en extraire celles à valeur ajoutée, les raffiner puis en faciliter l’usage. La richesse en données permet plus de corrélations (ex : text mining d’un questionnaire de satisfaction lié à un évènement client, analyse de parcours digitaux selon un profil client, …). Je partage le fait que les « n » usages rendus possibles n’ont de sens que si l’objectif du métier est clairement posé et que « trop de données » ne produira pas une génération spontanée de valeur... Cependant, si l’on abandonne l’approche exploratoire ou analytique basée sur les corrélations rendues possibles par la richesse en données, ne se prive t’on pas d’une des principales attente que le métier peut avoir d’une démarche Big Data ? et bien malin qui peut savoir de quelles données les métiers auront besoin dans 1 an vu la dynamique de transformation digitale ou de l’IOT.
Head of Insurance EMEA chez Salesforce Industries
7 ansPratiquement toutes les sociétés qui ont fait des projets de data lakes en partant bille en tête sans définir auparavant de cas d'usage connaissent actuellement une phase de désillusion, à la fois en termes de ROI et de next steps. Je dis pratiquement mais je n'ai pas encore rencontré le cas inverse... Avoir une approche itérative basée sur des cas d'usage précis et des résultats quantifiables permettant de progressivement définir les sources et jeux de données nécessaires est impératif. Et cela permet en plus d'avoir une application productive rapidement, démontrant ainsi le bien-fondé de la démarche. Tout l'inverse de tous les projets de data lakes que j'ai vu jusqu'ici.
DG Harmonie Mutuelle - Directrice Assurance Protection Sociale Groupe VYV
7 ansRappel d'un des fondamentaux du commerce : quels sont les objectifs métier ?