Computer vision, reconnaissance visuelle, compréhension de l'environnement; Ok !... Mais où en est-on dans tout ça ?
Intelligence Artificielle, Blockchain, ordinateur quantique … Aujourd'hui la technologie avance vite et nous avons parfois du mal à suivre toutes les nouveautés qu'elle peut apporter et à comprendre son impact potentiel sur notre quotidien. Innovations révolutionnaires parfois controversées, j'ai voulu vous présenter succinctement l'avancée technologique faite autour du computer vision et vous donner des exemples de scénarios concrets que vous pourriez rencontrer.
Computer vision ? Quésako ?
Très simplement, le computer vision est un système qui consiste à extraire des informations à partir de données d'images (densité de pixel, couleurs, etc..), d'images elles-mêmes ou de vidéos. Le système va examiner les données et extraire des informations sémantiques pour pouvoir les exploiter. Le but étant de reconnaître des objets, identifier des scénarios ou différentes parties d'une scène pour ensuite provoquer une notification ou une action.
Cette technologie a connu un essor avec le développement de l'intelligence artificielle car cette dernière rend le système plus précis et plus intelligent dans sa compréhension de l'image. Grâce à l'IA, on va pouvoir faire évoluer le système :
- En lui apprenant à reconnaître un objet en lui montrant une multitude d'exemples de ce même objet. Des bases de données d'objets déjà caractérisés et identifiables sont disponibles sur internet et ouvertes à tous. Pour ne donner que quelques exemples : Google's Open Image, une collection de 9 millions d'images sur internet qui ont été identifiées et classifiées sous 6 000 catégories, LabelMe du centre de recherche du MIT, qui compte plus de 186 000 images traitées , ou COCO : 330 000 images analysées, je vous invite à tester l'onglet "Dataset" > "Explore" pour vous rendre compte de la capacité de la machine.
- En lui montrant ce que représente une scène "standard" afin qu'il puisse ensuite détecter des anomalies et envoyer une notification en cas de non-conformité.
Cette phase d'apprentissage de la machine est ce qu'on appelle le "Machine Learning" et permet d'avoir un système de plus en plus pointu.
Pour l'anecdote, nous avons tous contribué lors de l'authentification CAPTCHA via les formulaires internets à entrainer nos systèmes d'IA à mieux reconnaitre les images. L'acronyme signifie : "Completely Automated Public Turing test to Tell Computers and Humans Apart", un outil permettant d'identifier qui de l'humain ou de la machine a réalisé une action. CAPTCHA aide les chercheurs en IA en vous donnant des images à identifier là où la machine a échoué afin de la faire évoluer. Scénario similaire avec Google qui vous présente des images de Street View avec des numéros de voie ou des signalétiques difficiles à lire pour améliorer son système pour devenir plus précis.
Jusqu'à aujourd'hui, le computer vision a été exécuté sur des plans 2D (une image ou une vidéo). Or, avec l'apparition de la technologie "Time-of-flight" et des capteurs de profondeur dans des appareils, nous ajoutons une 3ème dimension à exploiter ce qui multiplie les capacités du système. Il arrive désormais à analyser l'environnement qui l'entoure et à identifier ce qui le compose.
Pourquoi on avance vite ?
L'appareil de réalité mixte HoloLens a la capacité de comprendre son environnement grâce à sa technologie Kinect embarquée (cette caméra que vous avez utilisée avec votre Xbox dans sa première version). Cette caméra de profondeur permet à l'appareil de cartographier son environnement en détectant des points d'ancres spatiales pour ensuite les faire analyser par le système (reconnaissance d'un mur, du plafond, du sol ou d'obstacles).
Le maillage que vous voyez est constitué par la liaison de chaque points d'ancres spatiales et permet à l'appareil de comprendre son environnement. Avec l'ancienne version du HoloLens 1 (ci-dessus), les points d'ancres spatiales étaient moins nombreux qu'avec la nouvelle version du HoloLens 2 (ci-dessous) ce qui rendait l'identification des objets plus difficile.
Aujourd'hui, avec la sophistication des caméras et des logiciels embarqués, le système a largement évolué et arrive à être beaucoup plus précis. Pour donner un exemple, nous sommes passés de 7 points spatiaux analysés sur notre main à 25, ce qui permet désormais de manipuler les hologrammes intuitivement.
La technologie Time-of-flight de Kinect for Azure, embarquée dans Azure Kinect DK et le HoloLens 2. Vous remarquerez que le niveau de détail est tel que la caméra arrive à identifier les mouvements de tissu du T-shirt. Pour accéder à toute la vidéo : Tech Showcase: Project Kinect for Azure depth sensor technology
Il existe d'autres appareils possédant des caméras 3D qui possèdent cette technologie, comme par exemple les smartphones LG pour avoir une reconnaissance accrue de l'image et de la gestuelle : Déverrouillage du téléphone avec les veines de la main ou contrôle du téléphone avec des gestes (monter le volume, décrocher, passer à la chanson suivante, etc...), ce qui peut être utile pour une utilisation en voiture.
D'une part, le software est de plus en plus sophistiqué avec le développement de l'IA et du Machine Learning et de l'autre, les appareils (hardware) sont de plus en plus puissants pour capter et comprendre leur environnement. Grâce à la constitution de "bibliothèques d'images 2D & 3D" connues du système, l'appareil parvient à détecter s'il s'agit d'une chaise, d'une table, d'un outil, d'un muscle ou de tout autre objet.
Et tout ça, en moins de 10 ANS !
Des capteurs de son ont été rajouté à la caméra Azure Kinect DK pour avoir encore plus de données à traiter. Elle peut donc analyser le comportement du son ambiant et détecter des anomalies ou des situations d'urgence. Par exemple, arrêter ou signaler une machine en fonction du bruit qu'elle émet.
C'est bien beau la technologie, mais ça nous sert à quoi ?
Avec de telles capacités, les possibilités d'usage sont multiples sur plein de secteurs différents :
- Secteur Industiel & Logistique Nous pouvons mesurer des produits, des objets ou des colis pour les trier ou les redistribuer. (Pensez par exemple au tri des déchets. Ces derniers doivent être assignés à la bonne chambre de combustion. S'ils sont mal triés, cela encrasse la machine et peut provoquer un arrêt de l'activité). C'est aussi être plus précis dans la dépallétisation ou même s'assurer que les normes et les consignes de sécurité soient respectées. C'est aussi accompagner les collaborateurs lors de leur formation afin de valider la bonne exécution d'un geste ou d'une production.
Secteur de la Santé : La démocratisation du computer vision bénéficiera aussi au secteur de la santé. Chaque année, des milliers de patients tombent dans leur chambre d'hôpital, créant un risque léthale. Avec ces caméras intelligentes, une notification pourra être envoyée pour prévenir l'infirmière d'une chute certaine d'un patient. Cette technologie pourra également aider dans le rétablissement et la rééducation des patients en analysant par exemple les mouvements de la structure corporelle.Enfin, elle pourra aider pour le placement des patients lors d'un scanner afin d'obtenir un meilleur rendu.
Secteur Retail : Déjà utilisée dans les concepts store d'Amazon grab-and-go, cette technologie permet d'identifier quels sont les produits récupérés par le consommateur afin d'avoir une vision en temps réel sur les stocks et sur les achats des clients. Elle permet aussi une analyse plus poussée du trafic en magasin afin d'optimiser les linéaires et les campagnes marketing.
- Secteur de la robotique : Grâce à l'évolution du hardware et du software, nos robots sont plus à même de comprendre leur environnement et deviennent ainsi plus précis dans leurs tâches. On peut penser par exemple à des contrôles qualité effectués par des robots, ou une modification d'un produit préalablement conçu depuis un modèle CAD.
Que ce soit au service de l'industrie, du secteur civil ou même de l'agriculture, cette technologie promet de belles avancées.
Vous l'aurez compris, le computer vision est aujourd'hui en expansion et nous permet d'explorer de nouveaux cas d'usage que nous voyons habituellement dans les films de science fiction. Désormais, nombreux sont les appareils qui se dotent de cette technologie (smartphones, caméras et casques de réalité mixte), démontrant bien le développement de ce nouveau marché. Imaginez bien que couplé à la réalité mixte, le computer vision nous proposera des expériences dignes des scènes de Tony Stark dans un futur proche.
Si vous aimez ces sujets, je serais ravi d'échanger avec vous. Loin d'être un expert, mon expérience dans le secteur de la réalité mixte me permet d'avoir une bonne vision du marché et des dernières tendances, comme ici celle du computer vision.
Vous pouvez venir me rencontrer lors du salon VivaTech 2019 sur les 3 jours. J'y animerai une présentation sur HoloLens 2 le samedi 18 Mai à 14:00 sur le Stand Microsoft.
Basile [)-)
Cet article fait partie d'une série de tribunes publiées dans le cadre de l'évènement annuel Viva Technology, qui aura lieu à Paris du 16 au 18 mai #VivaTech
Fondateur et Président chez DEM MATVISIO et MATVISIO Omnes
5 ansBon article 👍 à bientôt sur Vivatech
Fondateur et Président chez DEM MATVISIO et MATVISIO Omnes
5 ansBon article 👍 à bientôt sur Vivatech
Head of Communications, Rugby World Cup & CSR
5 ansSuper article !!
Consultant at Wavestone | Speaker & Entrepreneur | Explorer of the Immersive technologies, Blockchain, AI & Metaverse
5 ansTrès intéressant ! À quand le prochain sujet ?
Génépi Éditions
5 ansPierre Deruyter ultra clair ! Je comprends enfin