L’intelligence artificielle moderne est née du Web et de son corollaire, le Big Data. Pour que l’apprentissage machine fonctionne, il lui faut des ensembles de données très importants et centralisés. Les données de milliers, voire de millions d’utilisateurs doivent donc être réunies dans un data center ou, pour les expériences plus modestes, dans une machine. Elles servent ensuite à entraîner des algorithmes qui vont peu à peu apprendre à réaliser une tâche : reconnaître un visage sur une photo, transcrire un texte dicté, etc.
Une nouvelle étape dans la confidentialité différentielle
Ce regroupement de données pose évidemment de nombreuses questions, dont celle du respect de la vie privée. Sur ce point, Apple a commencé à apporter des éléments de réponse en mettant en lumière ce qu’on appelle la differential privacy, la confidentialité différentielle – on pourrait schématiquement dire que du bruit, des « fausses » données sont injectées dans l’ensemble des datas récoltées pour qu’il soit impossible de savoir quelle information provient de qui.
Il semblerait que Google explore désormais une nouvelle voie dans cette même direction visant à préserver nos vies privées. Ses chercheurs pourraient avoir trouvé une solution évitant l’envoi de données personnelles. Elle s’appelle federated Learning, ou apprentissage fédéré.
Ne plus envoyer d’informations personnelles dans le cloud
Cette nouvelle approche permet à des smartphones d’apprendre et améliorer en collaboration entre eux un modèle prédictif (qui sert par exemple à détecter des visages dans une photo ou encore à scanner un code bar 2D) sans envoyer les informations servant à l’apprentissage dans le cloud.
Dans les faits, le smartphone télécharge la dernière version du modèle établi par Google. Ce modèle va ensuite être confronté à vos données personnelles, stockées sur votre appareil, pour être amélioré. Le modèle amélioré est alors utilisé localement mais est aussi renvoyé dans le cloud sous la forme d’un concentré du modèle enrichi par son apprentissage sur votre appareil.
Evidemment, Google indique que ces communications sont chiffrées. Dès que le retour de votre téléphone est reçu sur les serveurs du géant américain, ses améliorations sont croisées avec celles des autres modèles retournés pour faire une sorte des moyennes des améliorations du modèle. Mais à aucun moment, à en croire, les ingénieurs de Mountain View, vos données ne quittent l’enceinte physique de l’appareil que vous tenez entre vos doigts. Mieux, pour éviter que les retours en provenance de votre téléphone puissent être identifiés, Google dit avoir développé un protocole appelé Secure Aggregation, qui ne permet le déchiffrement des données reçues que si le serveur a reçu entre 100 et 1000 mises à jour en provenance des utilisateurs. Ce qui pourrait alors encore être considéré comme vos données sont noyées parmi d’autres.
Le cas Gboard pour Android
Pour le moment, Google n’applique son apprentissage fédéré qu’à son clavier Gboard pour Android. Ainsi, à chaque fois que l’application suggère une recherche, le smartphone conserve une trace de votre choix, à savoir si vous avez retenu la suggestion. L’apprentissage fédéré analyse alors l’historique localement, fait un retour aux serveurs de Google pour améliorer le modèle qui est alors retourné aux smartphones.
Evidemment, cette solution n’est pas sans difficulté. Les ensembles de données soumis aux intelligences artificielles sont généralement homogènes, centralisés, accessibles avec des connexions rapides et toujours disponibles. Tout ce que n’est pas le federated learning. Car, en fractionnant l’ensemble de données puisqu’il y en a autant qu’il y a d’utilisateurs en définitive, les ingénieurs de Google ont dû résoudre la question de latence et de la disponibilité des périphériques à entraîner. Ils ont ainsi réussi à produire des algorithmes, des intelligences artificielles, qui peuvent être entraînés avec 10 à 100 fois moins de communication que des algorithmes probabilistes équivalents classiques.
Pour réussir cette économie de bande passante et d’échanges, les ingénieurs de Google utilisent la puissance de calcul sans cesse croissante des processeurs de nos smartphones. Les puissants SoC de nos appareils permettent de calculer des mises à jour de meilleure qualité, comparé à celles obtenues par de simples itérations successives. Evidemment, cette puissance de calcul n’est pas sollicitée quand vous en avez également besoin que ce soit pour travailler ou jouer. Ainsi, les phases d’entraînement sont planifiées de telle sorte qu’elles n’interviennent que lorsque votre appareil est inutilisé et branché au secteur. Dernier critère respecté, le smartphone doit être connecté à un réseau gratuit.
Et pour économiser encore plus votre connexion à Internet, les mises à jour « montantes et descendantes » sont également compressées, réduisant par un autre facteur 100 la bande passante nécessaire au téléversement.
Intelligence artificielle et vie privée cohabitent
Si le federated learning est prometteur, il ne résoudra pas tous les problèmes de l’apprentissage machine. Néanmoins, en plus de respecter davantage notre vie privée, il pourrait permettre de personnaliser encore plus les services proposés par des géants tels que Google.
Dans le cadre du Gboard, il pourrait ainsi servir à améliorer les modèles de langage en fonction de ce que vous tapez, des mots que vous utilisez. De même, il pourrait servir à rendre encore plus pertinentes les recommandations de photos en fonction de ce que les utilisateurs regardent, partagent ou effacent. Google serait alors capable de savoir ce que vous aimez… sans savoir que c’est vous.
Source :
Blog de Google
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.