Comme tous les géants de l’IA, Apple pille le web pour entraîner son intelligence artificielle

Les grands modèles de langage (LLM) qui sont au cœur de la révolution de l’IA générative sont des gouffres à données, et tout est bon pour les entraîner. Pour ses propres LLM, Apple a acheté des licences auprès d’éditeurs, mais le constructeur a aussi moissonné un maximum de données sur le web avec le robot Applebot.

Applebot moissonne à tout va

Applebot est le robot d’indexation que le constructeur a lancé il y a des années sur le web pour améliorer les résultats de recherche dans Siri et dans Spotlight. Il a aussi été mis à contribution pour collecter des données servant à l’entraînement des modèles IA de l’entreprise. Cela signifie que du contenu provenant de l’« open web » pourra se retrouver dans les contenus générés par les différentes fonctions d’Apple Intelligence.

Les éditeurs qui voudraient ne pas travailler gratuitement pour Apple ont la possibilité de refuser le pillage de leurs contenus par Applebot, mais c’est trop tard pour tout ce qui a été collecté jusqu’à présent. L’information a été confirmée par cet article du blog d’Apple dédié à l’apprentissage automatique, ainsi que par les dirigeants du groupe.

John Giannandrea, le grand patron de l’IA chez Apple, l’a aussi expliqué durant une conférence post-keynote : « Nous commençons avec l’investissement que nous avons dans la recherche web, et nous avons commencé avec les données du web public ». Seule consolation : pour les modèles de diffusion (pour générer des images), « une grande quantité de données a été créée par Apple ».

Autrement dit, à moins d’être un éditeur puissant qui a les moyens de réclamer une licence, l’IA d’Apple va exploiter des données issues de sites web qui n’ont jamais autorisé l’exploitation de leurs contenus. Interrogé par le Washington Post sur les opportunités offertes par l’IA pour les éditeurs de presse, Tim Cook a expliqué que les licences étaient une « idée intelligente » et qu’il n’existait pas réellement de raison de refuser de telles licences. Encore faut-il avoir eu la possibilité de le demander.

Apple n’est bien sûr pas la première entreprise à avoir moissonné le web public pour entraîner ses modèles d’IA. Tous l’ont fait et continuent de le faire, à moins que les sites web le refusent expressément. Mais cela confirme, s’il en était besoin, que les petits éditeurs et les sites web indépendants forment, parfois à leur corps défendant, l’ossature de l’IA.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : MacStories