Avec quelque 30 milliards de pages Web recensées en 2007, Internet est la plus grande bibliothèque au monde. En perpétuel mouvement puisque de nouveaux sites s’ouvrent et se ferment sans cesse. Dans ces conditions, une solution s’impose pour s’y retrouver : utiliser les services d’un moteur de recherche. Comme un bibliothécaire qui connaîtrait par c?”ur tous les ouvrages qu’il référence, le moteur pointe immédiatement les sites susceptibles de répondre à votre requête.
Des pages digérées à la pelle
Il n’y a pas de magie. Pour être capable de vous guider sur la Toile, il doit avoir déjà lui-même parcouru l’ensemble du Web. Mais il le fait avec méthode, en séparant les tâches.Première étape, la récupération des données. C’est le rôle dévolu aux robots d’indexation (appelés ‘ bots ‘, ‘ crawleras ‘ ou ‘ spiders ‘). Ces programmes complètement autonomes surfent sans relâche en suivant tous les liens qu’ils rencontrent. Ils passent de site en site et aspirent le contenu des pages. En fait, les robots naviguent sur le Web comme vous le feriez vous-même avec, toutefois, une différence de taille : la rapidité de lecture. Chaque jour, un seul de ces robots peut ainsi récupérer des millions de pages.Lors de l’étape suivante, les pages aspirées par les robots d’indexation sont stockées sur des serveurs. La clé pour un moteur est donc sa capacité de stockage. Google dispose d’une centaine de ‘ data-centers ‘ à travers le monde : des salles entières remplies de PC connectés en réseau et qui se chargent du traitement des données. Au total, le moteur de recherche revendique un millier de PC reliés au Web ! Résultat : Google peut s’enorgueillir de référencer 8 milliards de pages, contre 5 milliards pour ses concurrents Live Search de Microsoft et Yahoo!.Ensuite, une fois aspirées et stockées, les pages sont digérées par un moteur d’indexation. Pour chaque page, celui-ci va retenir chacun des mots présents dans la page. Les ‘ mots vides ‘ que sont les conjonctions de coordination et les articles vont être écartés. Il va aussi s’intéresser à la position des mots dans la page, à leur répétition, à l’adresse Web de la page, au nombre de liens pointant vers la page, aux noms des images, etc. Tous ces éléments sont alors intégrés dans une gigantesque base de données, ‘ l’index ‘, en perpétuel mouvement.De nouveaux sites sont en effet sans cesse intégrés à l’index ?” Google ajoute un nouveau site à sa base en deux jours ! Concrètement, la base de données est organisée comme l’index terminologique d’un livre. Pour chaque mot, le moteur pointe les pages qui le contiennent. Mais l’index va plus loin : pour chaque page, le moteur attribue un score qui hiérarchise les résultats d’une recherche pour un mot-clé ou un groupe de mots-clés donnés.
Une question d’organisation
En la matière, le géant Google a lancé une vraie révolution avec son concept de ‘ Page Rank ‘. Le principe est simple : tout lien d’une page A pointant vers une page B est considéré comme un vote de la page A en faveur de la page B. Du coup, la page B gagne en popularité et le moteur considérera que son contenu est plus pertinent. Outre la prise en compte des liens, Google procède à une analyse du contenu, sur le titre de la page, le texte, les noms des images… Lorsque vous interrogez un moteur, c’est donc dans sa base de données qu’il trouve les pages contenant les mots recherchés. Et si l’index n’a pas été mis à jour entre-temps, la page Web disparue figurera toujours dans la base de données, mais vous obtiendrez un lien mort. Chaque seconde, le moteur de recherche opère des millions de calculs pour répondre aux requêtes des internautes. Quant aux différences d’index et d’algorithme, elles expliquent les variations de résultats d’un moteur à l’autre.D’où l’intérêt pour l’internaute d’utiliser plusieurs moteurs pour croiser ses informations et ne rien perdre du Web !
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.