Wikimedia, la fondation à but non lucratif qui héberge et soutient Wikipedia, a du mal avec les robots moissonneurs de données des entreprises de l’IA. Ces derniers sont très gourmands et font pression sur l’infrastructure de l’organisation. En fait, depuis le début de l’année, l’activité de ces robots a fait grimper de 50 % la bande passante utilisée pour le téléchargement de contenus multimédia.
Plutôt que subir, Wikipedia choisit de servir
Pour soulager ses serveurs, Wikimedia propose désormais une base de données d’articles de Wikipedia en anglais et en français. Cette base structurée a été spécifiquement conçue pour les usages en apprentissage automatique : elle facilite l’accès à des articles déjà traités qui sont immédiatement exploitables pour des tâches comme la modélisation, le fine-tuning, l’alignement ou encore l’analyse.
Techniquement, la base de données exploite l’API Snapshot Structured Contents, qui fournit les données dans un format JSON lisible par les machines. Cela permet aux développeurs et aux chercheurs de travailler directement avec des articles bien segmentés, contenant des résumés, descriptions courtes, données structurées de type infobox, liens vers des images, ainsi que des sections d’articles clairement définies (hors références ou éléments non textuels).
Ces données sont publiées sous licences libres, certains cas relevant du domaine public ou de licences alternatives. Elles sont hébergées par Kaggle, la plateforme de référence détenue par Google à destination de la communauté du machine learning. Wikimedia avait déjà un partenariat avec Google pour le partage de son contenu. Cette nouvelle initiative en est donc la continuation logique.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Wikimedia