Le défi de l'indexation du web

Soaz Digital

Soazig Courtois

Publié le 23 juil. 2018

"L'indexation du web représente, aujourd'hui, un des défis les plus importants des professions en documentation et veille. Les usagers, optant de plus en plus pour les ressources électroniques, doivent être assurés, de trouver rapidement des informations grâce à des outils efficaces. Aussi, malgré leur réticence, les professionnels de l'information doivent prendre le train en marche : les folksonomies offrent un nouveau champ de réflexion qu'il convient d'explorer ou de codifier" (Conférence de Danielle Culiez sur les Folksonomies ADBS).

La question de l'indexation du web est un sujet qui revient souvent dans le domaine des sciences de l'information et de la documentation. Indexer c'est classer, ordonner, simplifier, clarifier. Il s'agit quelque part de créer les bonnes routes et autoroutes de l'information du web afin de ne pas se perdre dans cette masse d'informations. Il est aussi question de mettre des codes afin de protéger, sécuriser les publics les plus fragiles. Le web est aujourd'hui accessible à tous, il fait partie de notre quotidien et il remplace malheureusement pour certains la recherche papier ou encore la simple interrogation d'un dictionnaire pour une définition.

Le web est synonyme d'accès à la connaissance et au partage de celle-ci. Le web est aussi l'accès à l'information dans tous les domaines et gratuitement. Aujourd'hui, la personne qui détient l'information et la connaissance exerce une forme de pouvoir sur celui qui ne les possède pas. Le fait même de vouloir "cadrer" ou "normaliser" et de ce fait de vouloir "indexer" le web va permettre de régir ou tout du moins clarifier l'accès à l'information. Il existe bien un code de la route pour conduire convenablement ? Il existe également des cartes, des itinéraires et des GPS pour arriver à la bonne adresse sans faire de détour inutile ? L'indexation du web fonctionne avec la même logique. Codifier et indexer le web permet de sécuriser les autoroutes de l'information, de permettre une meilleure accessibilité pour garantir une qualité et une fiabilité optimales.

Les techniques utilisées pour indexer le web peuvent être par exemple : les robots d'indexation (ou araignée du web) qui sont des logiciels qui explorent automatiquement le web. Ils sont conçus pour collecter les ressources (pages web, vidéos, images...) afin de permettre à un moteur de recherche de les indexer. Des collecteurs analysent finement les contenus afin de ramener qu'une partie de l'information.

"Le Web 3.0 définit des technologies avancées et de nouveaux principes de recherche sur internet qui devront s'appuyer en partie sur les normes du web sémantique. Les robots du Web 3. exploiteront des méthodes d'indexation impliquant des associations personne-machine plus intelligentes que celles pratiquées aujourd'hui. Le Web sémantique se distingue de la sémantique appliquée aux langues : tandis que la sémantique linguistique comprend les significations des mots composés ainsi que les relations entre tous les mots d'une langue, le Web sémantique ne représente que l'architecture des relations et des contenus présents sur le web". (Source Wikipédia)

Des exemples de robots d'indexation : Heritrix, OrangeBot, HTTrack...

A l'ère du numérique, nous assistons à un élargissement du concept d'indexation. Le numérique offre une indexation synonyme d'enrichissement, d'annotation, de marquage, de métadonnées ou encore de balisage. Le clustering, la catégorisation font partie de la définition élargie de l'indexation du web. La diversité des supports de l'information est très présente. Les langages d'indexation sont variés pour indexer le web : indexation libre, indexation contrôlée, indexation avec code de classement...

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Soaz Digital

La veille est-elle une pratique à risque ?

26 juil. 2018

La veille est-elle une pratique à risque ?

Dans le cadre de son activité professionnelle, le veilleur prend le risque d'enfreindre la loi sur la propriété…
Qu'est-ce que la folksonomie ? Quesako ?

24 juil. 2018

Qu'est-ce que la folksonomie ? Quesako ?

"Une folksonomie représente en même temps ce qu'il y a de meilleur et de pire dans l'organisation de l'information"…
"Nouvelles générations nouveaux paradigmes " Théâtre des variétés - Paris

22 mars 2018

"Nouvelles générations nouveaux paradigmes " Théâtre des variétés - Paris

Le 24 juin 1807, les parisiens découvraient un nouveau théâtre situé entre Montmartre et Paris. Il s’agit de l’un des…
Le carrefour des créateurs

22 mars 2018

Le carrefour des créateurs

Le carrefour des créateurs est une manifestation dédiée à l’entrepreneuriat et à la création d’entreprise. Ce…

Le défi de l'indexation du web

Soaz Digital

Soazig Courtois

Plus d’articles de Soaz Digital

Autres pages consultées

DIGIPROD, UN PORTAIL WEB UNIQUE DANS SON GENRE NAIT DE DIVERSES OPTIONS TECHNOLOGIQUES VENUES D’AILLEURS

Qu'est ce que le Web 3.0 ?

La Revue des Liens des Outils du Web #362

À la découverte de nos métiers : Quand le développement web se fait en interne !

Le web a t-il vraiment changé ?

SemWeb & dWeb : Un mariage mal engagé !

La Revue des Liens des Outils du Web #338

La Revue des Liens des Outils du Web #246

Les Outils du Web #5 Revue de liens de la semaine

Coucou la qualité web !

Explorer les sujets

Plus d’articles de Soaz Digital

La veille est-elle une pratique à risque ?

Qu'est-ce que la folksonomie ? Quesako ?

"Nouvelles générations nouveaux paradigmes " Théâtre des variétés - Paris

Le carrefour des créateurs

Autres pages consultées

DIGIPROD, UN PORTAIL WEB UNIQUE DANS SON GENRE NAIT DE DIVERSES OPTIONS TECHNOLOGIQUES VENUES D’AILLEURS

Qu'est ce que le Web 3.0 ?

La Revue des Liens des Outils du Web #362

À la découverte de nos métiers : Quand le développement web se fait en interne !

Le web a t-il vraiment changé ?

SemWeb & dWeb : Un mariage mal engagé !

La Revue des Liens des Outils du Web #338

La Revue des Liens des Outils du Web #246

Les Outils du Web #5 Revue de liens de la semaine

Coucou la qualité web !

Explorer les sujets