Wikipédia ouvre un accès structuré à ses données pour entraîner des modèles d’IA
Wikimedia Enterprise a récemment publié un vaste jeu de données structuré de Wikipédia sur Kaggle, la plateforme de data science appartenant à Google. L’objectif est de fournir aux chercheurs, développeurs et professionnels de l’IA un accès propre, actualisé et facilement exploitable aux contenus encyclopédiques. Une initiative qui répond aussi à la pression croissante exercée par le scraping intensif des contenus de « l’encyclopédie libre ».
Wikimedia Enterprise veut faciliter l’accès aux données de Wikipédia pour l’IA
Kaggle est une plateforme en ligne bien connue des data scientists, qui propose des compétitions de machine learning, des jeux de données ouverts et un environnement collaboratif pour le développement de modèles d’IA. En y mettant en ligne un important jeu de données, Wikimedia Enterprise souhaite encourager les usages responsables et accessibles des contenus de Wikipédia, mais également réduire la charge importante qui pèse sur ses propres infrastructures.
Cet ensemble simplifie l’accès à des données d’articles propres et pré-analysées, immédiatement utilisables pour la modélisation, l’analyse comparative, le fine-tuning et l’analyse exploratoire, explique Wikimedia Enterprise.
Cette annonce intervient en effet dans un contexte où l’usage massif de Wikipédia par les robots de scraping génère un trafic considérable, parfois problématique. Et cette collecte de données est souvent effectuée par des acteurs dont le but est d’entraîner des modèles de langage à grande échelle, sans forcément respecter les bonnes pratiques techniques ou éthiques. « Nous avons découvert qu’au moins 65 % de ce trafic gourmand en ressources sur notre site provenait de bots », expliquait d’ailleurs Wikimedia début avril 2025, qui a également constaté, depuis janvier 2024, une augmentation de 50 % de la bande passante utilisée pour le téléchargement de contenu depuis ses serveurs.
Un jeu de données conçu pour l’entraînement et l’analyse des modèles d’IA
Le dataset mis à disposition par Wikimedia contient une version compressée et structurée des contenus de Wikipédia, actualisée mensuellement. Il se concentre sur les versions anglaise et française de l’encyclopédie, avec des métadonnées enrichies (identifiants de pages, horodatage des versions, structures de sections, liens internes, etc.), au format JSON optimisé pour l’analyse automatisée.
Au lieu d’extraire ou d’analyser le texte brut des articles, les utilisateurs de Kaggle peuvent travailler directement avec des représentations JSON bien structurées du contenu Wikipédia, ce qui est idéal pour l’entraînement de modèles, précise Wikimedia Enterprise.
Le jeu de données contient, en outre, « des résumés, des descriptions, des données de type infobox, des liens d’images et des sections d’articles clairement segmentées », à l’exclusion des éléments non textuels. De plus, le contenu est sous licence libre (Creative Commons et GFDL). Enfin, ce projet ne se limite pas à une simple diffusion : il s’accompagne d’une documentation détaillée, d’un dépôt GitHub associé et d’un forum communautaire sur Kaggle pour échanger autour des usages possibles.
www.blogdumoderateur.com
Khamallah Abdel khalik
https://le-publicitaire.fr
0 Comments