Les maths, nerfs de la guerre du big data et du prédictif... Des nerfs à maîtriser
Photo extraite du site Le Big Data : le magazine cloud and big data

Les maths, nerfs de la guerre du big data et du prédictif... Des nerfs à maîtriser

(Tribune parue le 3 novembre 2016 sur le Cercle des Echos)

Un article paru dans Les Echos le 31 octobre dernier, sous la plume de Yann Verdo, rappelle la place essentielle des mathématiques dans la configuration du monde numérique tel que nous le vivons aujourd’hui. De fait, les maths comme nerf de la guerre, ce n’est pas totalement nouveau. Si leur place et leur impact ont considérablement progressé ces dernières années avec l’émergence d’une société de plus en plus numérisée, les maths ont toujours été au cœur de nombre d’interactions humaines et de profondes mutations et révolutions. Ce que l’on appelle le MSO (Modélisation-Simulation-Optimisation), l’une des disciplines clés des mathématiques est par exemple source d’applications puissantes depuis près de 40 ans. La discipline permet de modéliser des phénomènes particulièrement sensibles tels la propagation des fissures dans les cuves réfrigérantes des centrales nucléaires ou dans les ailes d’avion en matériaux composites, ou bien encore la discrétion acoustique des sous-marins nucléaires. Des secteurs sensibles et stratégiques s’accommodant mal de l’imprécision....

Cependant, pour précises et scientifiques qu’elles soient, les démarches mathématiques pour modéliser des phénomènes physiques ou des activités humaines, se doivent d’être accompagnées de trois précautions que chaque mathématicien doit conserver ancrées au plus profond de lui pour ne pas « se prendre pour Dieu » ni considérer son approche et ses résultats comme fruits d’une véritable omniscience. En premier lieu, un modèle possède un champ d’application parfaitement circonscrit, au-delà duquel s’aventurer expose à des résultats singulièrement erronés. Deuxièmement, tout modèle porte en lui, y compris dans son domaine d’application, des marges d’erreur qu’il faut savoir évaluer. Enfin, un modèle se nourrit de données, qui reflètent des sous-jacents dont il convient de s’assurer en permanence de la fiabilité. Ce sont là trois préalables qu’il ne faut jamais oublier si l’on veut mettre à profit la puissance des mathématiques sans tomber dans le mythe du « tout mathématique ».

C’est l’oubli, intentionnel ou pas, de ces principes qui a conduit à nombre de catastrophes et de mauvaises interprétations des enseignements mathématiques, notamment dans ans laquelle on pourrait penser que se cantonnent les mathématiciens ...le domaine financier. Les modèles ont alors été vilipendés alors que c’est leur usage abusif qui en fait était en cause. L’existence d’une « tour d’ivoire », pour reprendre les termes de Yann Verdo dans les Echos, dans laquelle les mathématiciens se réfugieraient est somme toute bien utile pour beaucoup de managers, soucieux de se protéger, et de s’affranchir de leurs erreurs ou prises de risque extrêmes, en exposant des boucs émissaires commodes... « Science sans conscience n’est que ruine de l’âme » disait Rabelais. Cette vérité n’a jamais été aussi juste qu’aujourd’hui. L’émergence du monde numérique et la place de plus en plus importante prise par les mathématiques et la modélisation sont sûrement une chance pour notre société. Mais nous devons aborder cette évolution avec humilité et conscience de ses limites, en prenant le recul nécessaire pour tirer tout le bénéfice des plus puissants outils et pensées mathématiques. 

L'exemple de l’assurance

S’il est un domaine où la puissance des mathématiques et l’explosion des « datas » viennent considérablement bouleverser les approches et les systèmes de gestion, c’est celui de l’assurance. La quantité presque infinie d’informations générées par nos activités tant dans le monde physique que dans le monde virtuel, la surpuissance des capacités de traitement informatique actuelles, le machine learning et les algorithmes prédictifs ont de fait ouvert la voie à une nouvelle approche du risque, matière première de l’assurance.

Les big data n’ont cependant pas révolutionné les fondamentaux mathématiques : les théories, équations et modèles restent bel et bien probabilistes. L’usage fréquent, notamment en assurance santé, des termes « prédictifs » et « personnalisés » qui semblent condamner chaque individu à un déterminisme absolu et à un sort inéluctable, objectivé scientifiquement, peut donc être trompeur.

L’aléa subsiste bel et bien. Et c’est une bonne nouvelle. Mais son évaluation peut désormais être considérablement affinée à partir de données beaucoup plus riches, variées et vivantes que dans toutes les démarches antérieures. Une nouvelle approche de l’exploitation des données vient même réformer nos démarches scientifiques : non seulement les traitements de masse permettent d’étayer beaucoup plus vite certaines hypothèses imaginées par un chercheur, mais ils permettent aussi de former eux-mêmes de toutes nouvelles hypothèses à partir de rapprochements et de catégorisations opérés automatiquement par des algorithmes apprenant. D’un point de vue technique - et parfois encore un peu théorique, la voie est donc grandement facilitée vers l’identification de facteurs de risque individuels, comportementaux, environnementaux ou génétiques. Et donc vers l’émergence de communautés d’individus de plus en plus restreintes et de plus en plus homogènes en termes de risques.

Nombre d’assureurs prétendent ainsi rétablir « l’asymétrie d’information » qu’ils jugeaient jusqu’ici en faveur de l’assuré (au sens où celui-ci en savait jusqu’ici plus sur son propre risque que l’assureur), et envisagent fort logiquement de récompenser « tarifairement » l’assuré qui lui communiquerait un maximum de données personnelles lui permettant d’affiner l’appréciation du risque individuel. Une telle évolution, si elle peut représenter un véritable progrès pour l’assurance, devra cependant s’assurer de respecter le bon équilibre entre d’une part dimension individuelle de l’assurance et facteurs personnels, et d’autre part enjeu collectif, tant on sait que la santé dépend tout aussi bien de déterminants exogènes que de facteurs plus attachés au comportement de l’individu. Ici, une fois encore, il ne s’agira pas de laisser la décision aux seules mathématiques mais bel et bien d’en faire un usage efficace et raisonné.

Bien appréhender les data et se méfier du « tout experts » 

Compte tenu de la puissance que recèlent les modèles mathématiques et les modèles d’aide à la décision et de la meilleure compréhension des activités humaines qu’ils nous permettent d’établir, les données recueillies à des niveaux multiples (à travers les méandres des réseaux sociaux, des sites internet, des bases publiques et privées, de tous les canaux et silos de l’entreprise), leur compréhension, leur description, leurs conditions d’utilisation, et la performance de leur traitement éclairé deviennent des facteurs clés de succès déterminants. Mais avant d’être « grosses », les data dans nombre d’entreprises nées avant le numérique sont trop souvent des données « sans emploi » car emprisonnées par des services cloisonnés de l’entreprise, et « sans papier » car insuffisamment décrites au sein de référentiels ad’hoc. Une nouvelle population a vu le jour pour les recueillir, les interpréter et les exploiter de manière optimum : les data scientists, sourciers et sorciers de la donnée, entre mathématiciens et informaticiens. Ils vont devenir un temps une nouvelle denrée rare et convoitée. Mais ils ne doivent pas devenir une caste à part et doivent être intégrés à l’entreprise, s’y fondre pour en appréhender tous les rouages de façon à ne pas travailler sur une matière théorique mais être en prise directe avec le réel, condition essentielle du succès de leur démarche.

Pour autant la donnée et son traitement ne doivent pas devenir le monopole d’une poignée d’experts et transformer par là-même l’entreprise en une sorte de boîte noire pour des managers trop étrangers aux sophistications mathématiques. La crainte d’une dérive « technocratique » peut parfois naître d’un pouvoir toujours croissant laissé aux « professionnels » des sujets abscons, plus à même par leur formation et leur expérience d’absorber rapidement les nouvelles complexités inhérentes aux décisions à prendre dans un environnement toujours plus turbulent et technique. Seul un dialogue permanent, des efforts pédagogiques incessants, une complète clarification des rôles des uns et des autres, et une confiance absolue entre les différentes composantes de la gouvernance permettront de maintenir un équilibre vertueux.

Les domaines de la santé et de l’assurance, comme l’économie en général, se différencient d’autres domaines d’application par l’extrême difficulté à intégrer le vertigineux amoncellement de données en interaction. Dès lors, il apparaît comme quasiment illusoire d’espérer isoler un corpus de principes fondamentaux et de relations causales déclinables en systèmes d’équations à résoudre. Et c’est précisément là que toute la puissance des approches adaptées aux big data peut enfin permettre aux mathématiciens de franchir un cap et apporter leur pleine valeur ajoutée dans ces domaines clés pour notre société. Entre l’excellence de ses mathématiciens et sa longue tradition philosophique, la France devrait théoriquement figurer en bonne position mondiale pour réussir la synthèse entre d’une part la performance mathématique et d’autre part l’indispensable discernement dans son usage et dans les enseignements à en tirer.

Par Jean-Louis Davet, Directeur général de la MGEN, Docteur ès-mathématiques et Centralien ; anciennement chercheur en mathématiques au CNRS, enseignant à Paris 6 et à Centrale Paris.

Thomas Gerbaud, Ph.D

Chief data officer | Chief AI officer | Ph.D | noInfluencer

8 ans

On n'apprend pas les maths en 3 jours.

De quelles math(ématique)s parle t on : Logique, Analyse, .... ?

Etienne de Rocquigny

Entrepreneur-Advisor | Sustainable AI advocate | Conférencier Essayiste

8 ans

Beau papier sur lequel je suis bien d'accord ! Les décideurs ne devraient pas oublier que: (a) sans modèle pas d'usage possible des data, (b) tous les modèles sont faux même si certains sont utiles (cf. George Box), (c) sans maîtrise structurée et responsable des incertitudes, de graves désillusions menacent le bigdata ...

Marc Pagnier

Directeur de Programme de Transformation SI et Urbaniste / Architecte SI

8 ans

Tout à fait d’accord avec l’omni-présence des mathématiques dans notre société, et l’importance des garde-fous à établir et du discernement à conserver en permanence dans les applications et conclusions des modèles. Cette omni-présence n’est en effet plus à prouver mais donne parfois le vertige, même lorsque l’outil mathématique n’est pas un étranger, tant les domaines d’application sont nombreux et élargis : au-delà de sa mise en œuvre multiformes en sciences physiques, optimisation de processus avec le Lean Six Sigma, actuariat dans l’assurance, finance stochastique en économie et finance, sociologie quantitative et modèles stochastiques en sciences humaines, modélisation des systèmes dynamiques via les EDO en biologie et santé,… Notre monde serait-il à ce point si rationnel ? Parmi tous les garde-fous qu’il est important de mettre en place, il en est un à l’intersection du domaine juridique, celui de la protection des données individuelles et de la vie privée. Il est déjà en place en France avec la loi Informatique et libertés, et le rôle et les actions que mène la CNIL. Mais l’approche s’élargit aujourd’hui avec le règlement européen sur la protection des données personnelles qui a été adopté le 27 avril 2016 et publié au Journal Officiel le 4 mai 2016. Il sera applicable en 2018 dans tous les pays de l’Union Européenne. Cette réforme globale va permettre à l'Europe de s'adapter à la généralisation des technologies digitales aux différents pans de l’économie. Dans le même temps, de nouveaux acteurs se positionnent sur ce créneau du respect des données personnelles, et peuvent en faire un facteur différenciateur. C’est le cas du moteur de recherche DuckDuckGo créé et lancé en 2008, nouvelle entreprise avec encore les réflexes d’une start-up, et qui est arrivée à 10 millions de recherches par jour fin 2015. Son créneau ? Celui de s’engager à respecter la vie privée des utilisateurs tout en garantissant un environnement sécurisé et des résultats pertinents. Par ailleurs, Google, Facebook, IBM, Microsoft et Amazon ont officialisé dans un communiqué commun la création du « Partnership on Artificial Intelligence to Benefit People and Society » (« partenariat pour l’intelligence artificielle au bénéfice des citoyens et de la société »). Ce partenariat prendra la forme d’une organisation à but non lucratif, qui « mènera des recherches, recommandera de bonnes pratiques, et publiera les résultats de ses recherches sous une licence ouverte ». La notion d’éthique ne pourrait-elle pas prendre toute sa place dans les mois et années qui viennent ? Devant l’incertitude générée par les technologies digitales en croissance, la nouvelle valeur ajoutée pour l’individu ne pourrait-elle pas justement être celle de lui garantir sa sécurité et celle de ses données ? Car en contrepartie, un engagement sur l’éthique de la part d’une entreprise devient vital. En effet, prendre un tel engagement et ne pas le respecter peut tout simplement jeter un discrédit total et définitif pour l’acteur qui aura pris ce risque. Devenant ainsi vital, il devient infalsifiable. La croissance de Duckduckgo révèle une telle attente. Toutefois, la difficulté actuelle de vérifier et de contrôler la réalité des engagements est telle qu’il sera très complexe de s’assurer qu’il est bien respecté. Et malgré l’expression d’une réelle préoccupation, la mémoire collective semble bien éphémère. L’éthique tant décriée est-elle pour autant vraiment désirée ? Et qu’en est-il de la suprématie et de l’omni-présence des mathématiques autour de nous ? Est-elle incontournable et définitive ou une autre voie est-elle possible ? Pour nous autres scientifiques, notamment de formation d’ingénieur, la première réponse nous conviendrait bien car permettant de conforter notre avance de compréhension et de maîtrise du monde sur nos compatriotes. Mais pour ceux qui ont eu à conduire de grands projets ou programmes, même dans le domaine informatique ou scientifique, le succès ne repose pas sur la justesse des modèles, mais bien sur celles et ceux qui les mettent en œuvre et en pratique, qui les comprennent, les valorisent et leur donnent vie. La complexité et le succès des grandes réalisation de nos sociétés se fonde avant tout sur des équipes d’hommes et de femmes compétentes et clairvoyantes, qui en s’adaptant et en réagissant chaque jour, atteignent l’objectif et réalisent le système imaginé. Alors et si le domaine clé de demain devenait celui de la psychologie et du comportement humain, domaine infiniment plus complexe que toute équation ou modèle ? Car ce domaine ne restera-t-il pas en définitive l’ultime facteur de différenciation de l’humain face à modélisation et à la numérisation généralisée, jusqu’à l’intelligence artificielle ? Dans tous les cas, la notion même de modèle peut aujourd’hui être questionnée, certains outils, s’appuyant sur des théories mathématiques poussées et modernes, commençant à s’en affranchir. Ainsi, c’est le cas de l’outil MondoBrain, basé sur des algorithmes d’Intelligence Augmentée qui cherchent à expliquer le pourquoi (i.e. les causes racines) de phénomènes complexes sous la forme de règles scientifiques qui sont 100% factuelles. Le fondement des algorithmes de MondoBrain repose sur les travaux récents de Laurent Schwarz et d’Alexandre Grothendieck sur la géométrie algébrique à la fin du XXème siécle. Ce dernier a introduit de nouvelles notions, celles de faisceaux, de schémas (généralisation des variétés) et surtout celle des topos (unifiant géométrie algébrique continue et arithmétique discrète). Considérant alors l’ensemble des données disponibles comme un ensemble de dimension n, l’outil permet une exploration exhaustive de toutes les combinaisons de règles possibles dans un espace où il n’existe aucun biais, modèles ou hypothèses. MondoBrain est ainsi en mesure de gérer simultanément des données quantitatives, qualitatives, manquantes et bruitées sans aucun a priori, donc en laissant ouvert tout le champ des possibles. On voit ainsi ici un exemple d’outil « prédictif » basé sur des théories mathématiques récentes et capable de produire des résultats pertinents et révélateurs de nouvelles interactions, sans l’application d’aucun modèle a priori. Du coup, l’outil peut s’adresser en direct aux experts métiers et non plus aux data scientists (mais en relation avec eux). Il reste néanmoins toujours vrai de garder son sens critique et le recul nécessaire pour analyser les résultats, qui pourront être utilisés comme compléments à d’autres approches pour les enrichir, les confirmer ou les amender en partie.

Yves-Roland Beilleau

ENSEIGNEMENT - FORMATION chez Ministère de la Défense

8 ans

Le monde étant ce que nous pouvons en observer, il est en effet important de ne jamais oublier que c'est au travers de modèles que nous tentons d'en comprendre ces mécanismes et que ces modèles sont forcément des points de vue réducteurs de la réalité objective, en connaitre les limites est donc primordial.

Identifiez-vous pour afficher ou ajouter un commentaire

Autres pages consultées

Explorer les sujets