Hinter dem rasanten Fortschritt der künstlichen Intelligenz (KI) zeichnet sich ein ernstes Problem ab: Der Zugang zu Daten wird immer schwieriger. Eine aktuelle Studie von MIT und anderen Institutionen zeigt, dass der einst leicht zugängliche Webdatenbestand immer schwerer zu erreichen ist – eine große Herausforderung für die KI-Entwicklung und -Forschung.

Die Forscher stellten fest, dass viele Open-Source-Datensätze wie C4, RefineWeb und Dolma von Websites stammen, die ihre Lizenzvereinbarungen zunehmend verschärfen. Dies behindert nicht nur das Training kommerzieller KI-Modelle, sondern auch die Forschung in akademischen und gemeinnützigen Organisationen.

image.png

An der Studie waren vier leitende Mitarbeiter des MIT Media Lab, des Wellesley College und des KI-Startups Raive beteiligt. Sie wiesen darauf hin, dass die Datenbeschränkungen stark zunehmen und die Asymmetrie und Inkonsistenz von Lizenzen immer größer werden.

Das Forschungsteam verwendete den Robots Exclusion Protocol (REP) und die Nutzungsbedingungen (Terms of Service, ToS) als Forschungsmethoden. Sie fanden heraus, dass selbst die Crawler großer KI-Unternehmen wie OpenAI immer strengeren Beschränkungen unterliegen.

image.png

Prognosen mit dem SARIMA-Modell zeigen, dass die Beschränkungen des Datenzugriffs durch robots.txt und ToS weiter zunehmen werden. Dies deutet darauf hin, dass der Zugang zu offenen Webdaten immer schwieriger werden wird.

Die Studie ergab außerdem, dass die im Web gecrawlten Daten nicht immer mit den Trainingszwecken von KI-Modellen übereinstimmen, was Auswirkungen auf die Modellanpassung, die Datenbeschaffungspraktiken und das Urheberrecht haben kann.

Das Forschungsteam fordert flexiblere Vereinbarungen, die den Willen der Website-Besitzer besser widerspiegeln, indem sie erlaubte und unerlaubte Anwendungsfälle trennen und diese mit den Nutzungsbedingungen abstimmen. Gleichzeitig hoffen sie, dass KI-Entwickler weiterhin Daten aus dem offenen Web für das Training verwenden können und dass zukünftige Gesetze dies unterstützen.

Studienadresse: https://www.dataprovenance.org/Consent_in_Crisis.pdf