En parcourant le web début septembre, Chris Vickery, un chercheur en sécurité chez la société UpGuard, est tombé sur d’étranges archives de données créées par le Pentagone et stockées sur des serveurs de stockage virtuel du service S3 d’Amazon Web Services (AWS). Ces archives – qui ne sont plus accessible à l’heure actuelle – n’étaient pas du tout sécurisées : il suffisait d’avoir un compte AWS pour y accéder et tout télécharger.
Ces archives ouvertes contenaient « plusieurs téraoctets » de données extraites depuis des sites web publiques : des articles d’actualités, des textes Facebook, des commentaires YouTube, des tweets, des messages de forums, des blogs, etc. Ces données étaient réparties sur trois serveurs intitulés « centcom-backup », « centcom-archive » et « pacom-archive ». Centcom et Pacom désignent respectivement les Etat-major US Central Command et US Pacific Command.
https://twitter.com/VickerySec/status/931570731325865985
Sur l’un des serveurs, Chris Vickery a détecté plus de 1,8 milliard de messages. Ils ont été collectés depuis 2009 et provenaient d’un grand nombre de pays avec un focus particulier sur les langues arabe et farsi, ainsi que les dialectes d’Asie centrale et du sud. Toutefois, ces données contenaient également un grand nombre de messages postés par des citoyens américains. Au niveau du contenu, il y avait un peu de tout. Certains messages exprimaient des opinions politiques, d’autres parlaient simplement de sport ou de choses banales.
D’après le chercheur, certaines de ces données étaient collectées par un logiciel Big Data baptisé « Outpost ». Edité par la société VendorX, il s’agit d’un outil « d’analyse sociale multilingue » utilisé de manière exclusive par le Pentagone. Il permettrait même de créer des campagnes d’influence dans « les régions instables du monde ». D’autres données étaient visiblement destinées au logiciel « Coral Reef », un outil interne du Pentagone qui permet d’analyser les relations entre personnes. Bref, toutes ces données faisaient manifestement partie d’un programme de surveillance militaire. Il est étonnant qu’elles aient été aussi peu protégées. Même s’il ne s’agit sur le fond que de données publiques, elles montrent des techniques d’analyse utilisées par les militaires américains.
Ce n’est pas la première fois que le Pentagone laisse traîner des données sur le web. En juin dernier, UpGuard avait déjà mis la main sur un espace de stockage Amazon S3 dans lequel figurait, entre autres, des identifiants de personnes habilitées Top Secret.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.