Passer au contenu

Les moteurs de recherche, indispensables mais imparfaits

Internet recèle une quantité d’information astronomique. Copernic, Google, Altavista et bien d’autres s’efforcent de faciliter l’accès au contenu souhaité. Mais un manque de pertinence des réponses aux requêtes subsiste.

Les chercheurs sont formels : contrairement aux idées reçues, le net ne ressemble pas à une toile d’araignée mais plutôt à un papillon. En effet, il est bien difficile de remonter le même fil pour aller d’un site à l’autre. Et pour cause, ces sites ou ces pages web ont été créées de façon anarchique. Les spécialistes préfèrent désormais l’image du papillon : au centre du réseau, se trouvent les sites incontournables parce qu’ils sont référencés dans de nombreuses pages web, à la périphérie des ailes, les sites ignorés. Plusieurs milliards de pages vivent dans cette structure en forme de papillon. La majorité des internautes y navigue avec plus ou moins d’aisance et passe plus de temps à chercher l’information qu’à la consulter réellement. Les moteurs de recherche ne manquent pas. Copernic ? Google ? Payant ou gratuit ? Il y a l’embarras du choix. Mais les moteurs de recherche existants sont loin d’être satisfaisants, la technologie ayant peu évolué depuis les premières solutions. Dans les laboratoires publics (CNRS et l’Inria) ou privés comme IBM, les chercheurs se sont attelés à la création de moteurs plus performants, ciblant leurs recherches sur les sites faisant référence sur un sujet. Le nombre d’occurrence des mots clés de la recherche peut être l’un des critères de sélection. La tâche est vaste. ” La toile s’est créée de façon totalement libre, chacun y greffant les pages qu’il souhaite “, commente Olivier Nérot, fondateur de la start-up française Amoweba, spécialisée dans les sciences cognitives.Les moteurs de recherche contiennent trois parties : le crawler (programme de recherche de site à partir de liens), l’indexation et le moteur de requêtes. Les pages visitées par le crawler sont référencées dans l’index où sont puisées les informations demandées par les internautes. Mais la fraîcheur des données recueillies n’est pas garantie. Il peut se passer des semaines entre l’apparition ?” ou la disparition ?” d’un site et son indexation. Cependant, certains moteurs permettent d’accéder en temps réel à des sites d’actualités. C’est le cas d’Altavista, dans sa dernière version, et de Google.Ce dernier est l’un des plus efficaces. Cependant son milliard de pages référencées ne représente que 2 % du web ! Autre faiblesse des technologies de recherche existantes, le manque de pertinence des réponses apportées aux internautes. Pour mieux cerner les demandes, Exciteathome vient de lancer un outil de recherche qui s’affranchit des termes ” et ” et ” ou “. Il propose à la place une sélection de termes proches.Mais la complexité reste entière : comment traite-t-on les synonymes ou la polysémie (mot à plusieurs significations) ? La mission est peut-être impossible. D’autant plus qu’au-delà du texte, on commence à vouloir ajouter la recherche de photos, ou de films. Une solution est explorée : l’incontournable peer to peer, qui permet une puissance d’indexation sans commune mesure, “ tout en visant la pertinence plutôt que l’exhaustivité “, explique Olivier Nérot, qui travaille au développement de Human Links. Ce moteur reliera les internautes en fonction de leurs centres d’intérêt et s’enrichira à chaque nouvelle requête.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Agathe Remoué