Le défi de l'indexation du web
"L'indexation du web représente, aujourd'hui, un des défis les plus importants des professions en documentation et veille. Les usagers, optant de plus en plus pour les ressources électroniques, doivent être assurés, de trouver rapidement des informations grâce à des outils efficaces. Aussi, malgré leur réticence, les professionnels de l'information doivent prendre le train en marche : les folksonomies offrent un nouveau champ de réflexion qu'il convient d'explorer ou de codifier" (Conférence de Danielle Culiez sur les Folksonomies ADBS).
La question de l'indexation du web est un sujet qui revient souvent dans le domaine des sciences de l'information et de la documentation. Indexer c'est classer, ordonner, simplifier, clarifier. Il s'agit quelque part de créer les bonnes routes et autoroutes de l'information du web afin de ne pas se perdre dans cette masse d'informations. Il est aussi question de mettre des codes afin de protéger, sécuriser les publics les plus fragiles. Le web est aujourd'hui accessible à tous, il fait partie de notre quotidien et il remplace malheureusement pour certains la recherche papier ou encore la simple interrogation d'un dictionnaire pour une définition.
Le web est synonyme d'accès à la connaissance et au partage de celle-ci. Le web est aussi l'accès à l'information dans tous les domaines et gratuitement. Aujourd'hui, la personne qui détient l'information et la connaissance exerce une forme de pouvoir sur celui qui ne les possède pas. Le fait même de vouloir "cadrer" ou "normaliser" et de ce fait de vouloir "indexer" le web va permettre de régir ou tout du moins clarifier l'accès à l'information. Il existe bien un code de la route pour conduire convenablement ? Il existe également des cartes, des itinéraires et des GPS pour arriver à la bonne adresse sans faire de détour inutile ? L'indexation du web fonctionne avec la même logique. Codifier et indexer le web permet de sécuriser les autoroutes de l'information, de permettre une meilleure accessibilité pour garantir une qualité et une fiabilité optimales.
Les techniques utilisées pour indexer le web peuvent être par exemple : les robots d'indexation (ou araignée du web) qui sont des logiciels qui explorent automatiquement le web. Ils sont conçus pour collecter les ressources (pages web, vidéos, images...) afin de permettre à un moteur de recherche de les indexer. Des collecteurs analysent finement les contenus afin de ramener qu'une partie de l'information.
"Le Web 3.0 définit des technologies avancées et de nouveaux principes de recherche sur internet qui devront s'appuyer en partie sur les normes du web sémantique. Les robots du Web 3. exploiteront des méthodes d'indexation impliquant des associations personne-machine plus intelligentes que celles pratiquées aujourd'hui. Le Web sémantique se distingue de la sémantique appliquée aux langues : tandis que la sémantique linguistique comprend les significations des mots composés ainsi que les relations entre tous les mots d'une langue, le Web sémantique ne représente que l'architecture des relations et des contenus présents sur le web". (Source Wikipédia)
Des exemples de robots d'indexation : Heritrix, OrangeBot, HTTrack...
A l'ère du numérique, nous assistons à un élargissement du concept d'indexation. Le numérique offre une indexation synonyme d'enrichissement, d'annotation, de marquage, de métadonnées ou encore de balisage. Le clustering, la catégorisation font partie de la définition élargie de l'indexation du web. La diversité des supports de l'information est très présente. Les langages d'indexation sont variés pour indexer le web : indexation libre, indexation contrôlée, indexation avec code de classement...