C'est quoi un bon #data #scientist ?
Le titre est accrocheur, mais contrairement à ce qu'il peut laisser penser, je ne vais pas vous expliquer ce qu'il faut faire et ne pas faire en matière de #data et de #DataScience. Chacun est #libre, de vendre ce qu'il veut, d'acheter ce qu'il veut. Alors voici :
Quand en 1998, alors en DEA de sociologie sous la direction de Raymond Boudon, je travaillais avec Karl M. van Meter et avec l'aide de Philippe Cibois à mon mémoire de recherche secondaire portant sur l'usage des mots-clé. J'avais utilisé une méthodologie particulière, certainement inconnue de nombreux consultants de nos jours. Les #statistiques.
Le but était, en étudiant les revues de sciences humaines US que j'avais OCRisées (certains vendors diraient aujourd'hui scannées avec mon logiciel IA), de reconnaître les récurrences des termes en leur donnant un poids (encore l'IA) : le titre par exemple vaut 3, le sous-titre 2 et le corps du texte 1. Je les identifiais simplement... par leur typographie.
Bref, j'obtenais des occurrences sur lesquelles j'ai pu utiliser des algorithmes statistiques (IA...).
Au final, j'avais ainsi produit une analyse factorielle (car données qualitatives pour lesquelles on veut étudier la proximité des occurrences) et grâce au % à l'écart maximum de Philippe Cibois, j'identifiais la force des liens entre les concepts liés (IA deep learning !).
Vous allez me dire, à quoi cela peut-il servir ? Et bien le résultat était qu'en projetant les liens entre les concepts, année par année (les revues étaient bien entendu datées et je disposais d'un historique de 10 ans), j'avais pu déterminer que les nouvelles tendances qui allaient émerger et seraient étudiées dans un avenir proche seraient "women" et "silver economy" (IA de SF). En 1998, je trouve que c'était plutôt pas mal comme résultat (IA hyper espace). Evidemment, j'avais obtenu un beau 18/20 pour ce mémoire, mais encore une fois, ceux qui m'avaient tout appris c'étaient bien Karl M. van Meter et Philippe Cibois. J'avais simplement réussi à comprendre ce qu'ils m'avaient appris.
Alors, revenons à notre sujet. C'est quoi un bon #data #scientist ?
Un très bon marketeur ? Un commercial qui se reconvertit dans la data parce qu'il sait coder en Python (comme mon fils de 13 ans) et faire des corrélations linéaires (comme mon fils de 18 ans) ? Un cabinet qui emploie ce type de compétences ? Ou plutôt quelqu'un qui sait utiliser des statistiques ?
En fait, aucune de ces propositions n'est la bonne. Un bon #data #scientist, c'est avant tout quelqu'un qui sait ce qu'il cherche et qui utilise des statistiques pour valider son hypothèse. Si on ne sait pas ce qu'on cherche, la probabilité de trouver est plus faible (tautologie de statisticien). Et pour savoir ce qu'on cherche, il faut connaître le métier qu'on étudie.
Alors vous me direz : l'homme sur la machine. Big Blue a battu Kasparov (oui j'ai regardé Queen's Gambit), non pas parce qu'il est plus intelligent (c'est un ensemble d'algorithmes), mais plus puissant en logique mathématique pure. Alors avec une IA surpuissante, pas besoin de connaître ce que l'on recherche.
OK, c'est un bon point. Mais comment une IA d'aujourd'hui, qui ne sait pas créer à partir de rien comme l'Homme sait le faire, peut-elle construire notre futur ? Le #data #scientist influence le futur. Le data scientist est pour moi un #sociologue. Un #sociologue #cognitif qui sait ce que peut assimiler une structure et ce dont elle est incapable en l'état. Devenir son propre devenir suppose de rester piégé d'un certain schéma. Qui dit "sortir du cadre", dit qu'il existe un cadre. Ce recul, ce dépassement du cadre, cette faculté de prendre son destin en main comme seul l'Homme sait le faire - et on le voit particulièrement aujourd'hui - ce ne sont pas des algorithmes (pardon une IA) qui vont nous y aider. Ce ne sont pas des statistiques non plus d'ailleurs. C'est notre intime conviction d'être humain. Rien d'autre.
Un #data #scientist, - pour moi - c'est un #sociologue #cognitif, qui sait manier des statistiques avancées, éclairées de la connaissance du sujet étudié, en prenant en compte l'intime conviction (et donc l'intention) des dirigeants (humains).
# Réagissez, #Contactez-moi pour en savoir plus :-)
#SternConsulting
C est aussi rassérénant de savoir que l intuition humaine est une donnée primordiale même si elle est non exhaustive