Wikipedia hat kürzlich angekündigt, in Zusammenarbeit mit Kaggle, der Datenwissenschaft-Community-Plattform von Google, einen speziell für das Training von KI-Modellen optimierten Datensatz zu veröffentlichen. Diese Maßnahme zielt darauf ab, das Crawlen von Wikipedia-Daten durch KI-Entwickler zu reduzieren und die Bandbreite und Serverressourcen der Plattform zu schützen.
Der Datensatz enthält strukturierte Wikipedia-Informationen auf Englisch und Französisch, die gut maschinenlesbar sind und KI-Entwicklern das Modellieren, Feintuning und die Datenanalyse erleichtern. Die Wikimedia Foundation gibt an, dass der Datensatz unter einer offenen Lizenz veröffentlicht wird und Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und verschiedene Abschnitte von Artikeln umfasst, jedoch keine Referenzen und Audiodateien oder andere nicht-textuelle Elemente.
Wikimedia hofft, dass Kaggle-Nutzer durch diesen Datensatz einen bequemeren Zugang zu Informationen erhalten und die technischen Herausforderungen vermeiden können, die mit dem direkten Crawlen von Originaltexten verbunden sind. Die zunehmende Anzahl automatisierter KI-Programme, die auf Wikipedia zugreifen, belastet die Server von Wikipedia stark.
Brenda Flynn, Partner Managerin bei Kaggle, erklärt, dass Kaggle sehr erfreut darüber ist, die Daten der Wikimedia Foundation hosten zu dürfen. Sie betont, dass Kaggle sich der Sicherstellung der Zugänglichkeit, Verfügbarkeit und Nutzbarkeit der Daten für die breitere Machine-Learning-Community verpflichtet fühlt.
Durch diese Zusammenarbeit schützt Wikipedia nicht nur seine eigenen Ressourcen, sondern bietet auch kleinen Unternehmen und unabhängigen Datenwissenschaftlern einen einfacheren Zugang und fördert so die Entwicklung und Anwendung von künstlicher Intelligenz.
Wichtigste Punkte:
🌐 Wikipedia und Kaggle kooperieren und veröffentlichen einen strukturierten Datensatz auf Englisch und Französisch, um das Crawlen durch KI zu reduzieren.
🗂️ Der Datensatz enthält Forschungszusammenfassungen, Kurzbeschreibungen und Bildlinks, ist offen lizenziert und erleichtert KI-Entwicklern die Arbeit.
🔧 Kaggle verpflichtet sich zur Aufrechterhaltung der Datenzugänglichkeit und unterstützt die Forschung kleiner Unternehmen und unabhängiger Datenwissenschaftler.