Près de 12 000 informations sensibles, comme des clés API et des mots de passe, ont été découvertes au sein de Common Crawl par des chercheurs de Truffle Security. Common Crawl est le nom d’un vaste corpus de données open source. Collectées depuis 2008 à travers le web, ces données sont notamment utilisées pour entraîner des modèles d’IA. Des géants comme OpenAI, DeepSeek, Google, Meta, Anthropic et Stability se servent du répertoire de données pour former leurs modèles linguistiques (Large Langage Model, ou LLM). C’est en partie grâce à ces données que les IA comme ChatGPT évoluent et apprennent à répondre aux requêtes de leurs utilisateurs.
« Nous soupçonnions que les informations d’identification codées en dur pourraient être présentes dans les données de formation, ce qui pourrait influencer le comportement du modèle », explique Truffle Security.
A lire aussi : ChatGPT passe au niveau supérieur avec GPT-4.5, qu’est-ce que ça change ?
Près de 12 000 informations confidentielles fournies aux IA
Selon les chercheurs, qui ont épluché 400 téraoctets de données en provenance de 2,67 milliards de pages web, le référentiel comprend 11 908 informations confidentielles. Le scan s’est appuyé sur TruffleHog, un outil de sécurité open source conçu pour rechercher des informations sensibles, comme des clés API, des mots de passe ou d’autres secrets.
Elles se sont donc retrouvées entre les mains des intelligences artificielles au cours de leur formation. Cette découverte « souligne un problème grandissant : les LLM entraînés sur du code non sécurisé peuvent involontairement produire des résultats à risque ». En clair, les IA pourraient divulguer les informations d’une manière ou d’une autre, et produire des réponses qui incluent des données sensibles. On rappellera néanmoins que les données utilisées pour entraîner les grands modèles de langage sont toujours traitées en amont. Ce traitement permet de nettoyer les données en excluant les doublons, les informations nuisibles ou inutiles.
Parmi les données dénichées dans le corpus, on trouve des clés API valides offrant l’accès à des services comme Amazon Web Services (AWS) ou MailChimp. Les chercheurs ont surtout trouvé une profusion de clés pour MailChimp, la plateforme d’automatisation d’envois de mails.
À lire aussi : Cette IA peut détecter précocement des cancers en cherchant des nanoparticules rares
L’erreur des développeurs
Comme l’explique Truffle Security dans son rapport, les développeurs ont fait l’erreur d’insérer directement des données sensibles (comme des identifiants ou des clés API) dans le code des formulaires HTML et des scripts JavaScript. Certaines clés revenaient même à plusieurs reprises, ce qui maximise les risques.
Suite à sa découverte, Truffle Security est entré en contact avec toutes les entités dont les clés et les mots de passe se sont retrouvés entre les mains de l’IA. Avec l’aide des chercheurs, les entreprises ont pu « faire tourner/révoquer collectivement plusieurs milliers de clés » par mesure de sécurité.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Truffle Security