Wikipédia a récemment annoncé la publication d'un jeu de données optimisé pour l'entraînement de modèles d'intelligence artificielle, en collaboration avec Kaggle, la plateforme communautaire de science des données de Google. Cette initiative vise à réduire les extractions de données de Wikipédia par les robots d'exploration utilisés par les développeurs d'IA, afin de protéger la bande passante et les ressources serveur de la plateforme.
Ce jeu de données comprend des informations structurées de Wikipédia en anglais et en français, facilement lisibles par les machines, facilitant ainsi la modélisation, le réglage fin et l'analyse des données pour les développeurs d'IA. La Fondation Wikimedia a indiqué que ce jeu de données est publié sous une licence ouverte et comprend des résumés de recherche, de brèves descriptions, des liens d'images, des données de boîtes d'informations et différentes sections des articles, mais n'inclut pas les références bibliographiques ni les fichiers audio, éléments non textuels.
Wikimedia espère que les utilisateurs de Kaggle pourront accéder plus facilement aux informations grâce à ce jeu de données, évitant ainsi les défis techniques liés à l'extraction directe du texte des articles originaux. L'augmentation du nombre de programmes IA automatisés accédant à Wikipédia engendre une charge importante sur les serveurs de Wikipédia.
Brenda Flynn, responsable des partenariats chez Kaggle, a déclaré que Kaggle était ravie d'héberger les données de la Fondation Wikimedia. Elle a souligné que Kaggle s'engage à maintenir l'accessibilité, la disponibilité et l'utilité des données pour servir la communauté plus large du machine learning.
Grâce à ce partenariat, Wikipédia protège non seulement ses propres ressources, mais offre également un accès plus facile aux petites entreprises et aux data scientists indépendants, stimulant ainsi le développement et l'application de l'intelligence artificielle.
Points clés :
🌐 Wikipédia et Kaggle collaborent pour publier un jeu de données structuré en anglais et en français afin de réduire les extractions de données par les robots d'exploration IA.
🗂️ Le jeu de données comprend des résumés de recherche, de brèves descriptions et des liens d'images. Il est publié sous licence ouverte et facile à utiliser pour les développeurs d'IA.
🔧 Kaggle s'engage à maintenir l'accessibilité des données et à soutenir la recherche des petites entreprises et des data scientists indépendants.