Trois méthodes d'investigation

Exploiter les liens reliant les pages

Les pages Web contiennent bien plus que du texte. On y trouve aussi des hyperliens, des adresses qui mènent à d’autres sites. Pourquoi ne pas exploiter ces informations ? ‘ Nous pensons que les hyperliens sont une marque d’adhésion et confèrent aux sites un statut de référence, affirme Ravi Kumar, chercheur pour IBM, qui sépare le Web en deux. Il y a les pages qui font autorité et celles qui servent de pivot. Les premières sont les meilleures sources d’information sur un sujet précis, les secondes contiennent des groupes de liens, au contenu voisin, qui pointent vers les premières. ‘Son moteur de recherche, nommé Clever, donne deux notes, une de référence et une de pivot, à chaque document. Les pages sont liées ainsi à celles qui présentent des points de vue similaires. Sont éliminées aussi celles qui n’ont pas de lien avec le thème abordé. IBM soutient que ses résultats sont identiques ou même meilleurs que ceux de Yahoo! pour 81 % des requêtes. Unique défaut : le système avantage les sites en position dominante et n’offre qu’avec retard un espace aux nouveaux venus.

Analyser le contenu des documents

Pour trouver le bon document, encore faut-il connaître son contenu. Facile à dire… L’idéal est de chercher les éléments de langage qui définissent le sens du document. Olivier Corby, chercheur à l’Inria de Sophia-Antipolis, utilise des réseaux sémantiques, de gigantesques dictionnaires où figurent les relations entre les mots, les règles qui régissent le langage.Si l’internaute tape ‘ pollution ‘, le moteur saura qu’il peut s’agir de mercure, d’ozone, de fumées, etc. Il saura aussi que le mazout est polluant, même si le terme ‘ pollution ‘ n’est pas utilisé dans la page. De son côté, à Honolulu, un spécialiste des dauphins, Herbert Roitblat, s’est inspiré de la façon dont ces mammifères marins se dirigent et se repèrent dans leur environnement pour imaginer un moteur de recherche plus intuitif, capable d’analyser le document dans son ensemble, pour définir des niveaux de langage (scientifique, populaire…), et classer les documents par type (témoignage, article…). Pour des recherches plus ciblées.

Accompagner l’internaute dans sa quête

Amanda Spink, chercheuse au département Informatique de l’université Penn State, en Pennsylvanie, aux Etats-Unis, a étudié le comportement des utilisateurs des moteurs de recherche. Selon elle, seuls 5 % d’entre eux ont recours aux options de recherche avancées, comme les opérateurs booléens (ET, OU…), exploités pour affiner les critères. C’est très peu. C’est pourquoi la société Hitachi a développé un moteur qui permet de préciser automatiquement les requêtes. Une fois le premier mot clé entré, le moteur propose une arborescence, suggérant d’autres termes en rapport avec le premier.De fenêtre en fenêtre, on affine ainsi la recherche en sélectionnant le vocable le plus pertinent. De son côté, l’entreprise Nec a développé un moteur nommé Inquirus qui précise pour chaque document sélectionné plusieurs mots clés significatifs, choisis à l’intérieur même de la page Web.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

La rédaction