Quand les moteurs de recherche aident les pirates

Les robots des moteurs de recherche explorent inlassablement le Web, au profit de tous les internautes. Mais lorsque les pirates s’en mêlent, ces robots peuvent aussi se transformer en mouchards bien pratiques pour trouver numéros de
cartes bancaires, mots de passe, documents confidentiels et autres bases de données.L’affaire n’est pas récente puisque, dès 1996, le très officiel CIAC (du ministère de l’énergie américain) s’inquiétait dans un de ses bulletins que ‘ les moteurs de recherche soient peut-être devenus un peu trop
puissants ‘.

Des listes de mots de passe accessibles grâce à Google

A l’époque déjà, des requêtes avec les mots ‘ root ‘, ‘ daemon: ‘ ou ‘ passwd ‘ donnaient, au milieu de quelques milliers de documents techniques, accès à de
véritables listes de mots de passe de systèmes Unix mal administrés.Mais tout cela fait aujourd’hui sourire le moindre pirate en herbe tant les choses ont bien évoluées. Google est devenu le standard de fait des moteurs de recherche, et aussi le meilleur ami des pirates grâce à deux innovations
majeures : l’archivage des documents bureautiques et la mise en cache de tout son contenu.On peut ainsi désormais consulter sur Google de nombreux documents Office (Excel, Word…), Adobe PDF ou encore des fichiers de bases de données (.dbf, .mdb), qui se trouvent sur des serveurs mal configurés. Ces documents sont souvent
de véritables mines d’information : listes de mots de passe, de clients, de commandes, d’employés, bilans… tout y passe. Aujourd’hui encore, une simple requête avec Google combinant les termes ‘ password ‘, ‘ admin ‘ et
orientant la recherche vers des documents Microsoft Word ou Excel révèle des listes de mots de passe, comme nous avons pu le constater lors de la rédaction de cet article.

Les moteurs ne laissent pas de traces

Tout ce contenu peut alors être consulté directement depuis Google, qui en conserve une copie. Avantage pour le pirate : il ne laisse ainsi aucune trace dans les journaux de sa victime, puisque c’est le robot du moteur de recherche
qui est allé exhumer les fichiers. Calamité pour l’administrateur : même s’il retire la page ‘ secrète ‘ de son site, elle restera dans la mémoire de Google, à moins de demander expressément son retrait.Tout cela a déjà été largement exploité : dès l’annonce par Google de l’archivage des documents aux formats ‘ exotiques ‘, en 2001, un étudiant de l’INSA de Lyon publiait ses découvertes avec quelques requêtes devenues
célèbres, telle la fameuse ‘ “Index of /” +banques +filetype:xls ‘, qui a dévoilé les secrets d’une grande banque française.Mieux : en essayant ces quelques techniques, armé d’un simple navigateur, le site guerreco.com démontrait peu après comment il avait pu prendre le contrôle complet d’une dizaine de sites internet, de quelques routeurs et
d’applications de CRM. Reste à savoir comment toutes ces informations peuvent, aujourd’hui encore, se retrouver à la portée du premier venu.

Des administrateurs trop négligents

Coupables évidents : ces administrateurs qui stockent des données sensibles dans un répertoire ‘ caché ‘ de leur site web, en négligeant tout contrôle d’accès ou tout chiffrement. Même si ces données sont stockées dans un
répertoire isolé, vers lequel ne pointe aucun lien extérieur, elles ne sont pas à l’abri des moteurs de recherche. Il suffit par exemple que l’administrateur se dirige, depuis ce répertoire ‘ caché ‘, vers un autre site pour laisser dans
les journaux de ce dernier l’adresse de son répertoire privé. Et si le site visité dispose d’un générateur automatique de statistiques tel Analog, cette adresse apparaîtra dans ses rapports web. Ces derniers ne sont généralement pas protégés et
souvent visités par les robots des moteurs de recherche… qui pourront dès lors visiter le pseudo répertoire ‘ caché ‘.

Des serveurs mal configurés

Autre coupable : la configuration par défaut des serveurs web. Ainsi, Apache (à l’opposé du serveur IIS de Microsoft) présente-t-il par défaut le contenu de tout répertoire qui ne dispose pas d’un fichier index valide. Si
l’administrateur n’a pas placé un tel fichier ou n’a pas spécifiquement interdit l’affichage du contenu des répertoires, ces derniers seront accessibles avec une simple recherche des termes ‘ Index of ‘ dans Google ! Pourtant,
entre une configuration correcte des droits d’accès, la mise en oeuvre de vraies mesures de contrôle daccès (même simples, tel .htaccess), voire le recours au chiffrement, rien de tout cela ne serait exploitable. Rien de bien difficile à corriger,
donc… mais rien de corrigé depuis des années !

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Jérôme Saiz