In letzter Zeit ist der Mangel an Trainingsdaten für große KI-Sprachmodelle wieder in den Fokus der Medien gerückt. Ein kürzlich erschienener Artikel im Economist mit dem Titel „KI-Unternehmen werden bald die meisten Internetdaten aufbrauchen“ hat in der Branche eine breite Diskussion ausgelöst. Der Artikel weist darauf hin, dass die KI-Branche aufgrund des schwindenden Angebots an hochwertigen Internetdaten vor der Herausforderung einer „Datenmauer“ steht.

Das Forschungsunternehmen Epoch AI prognostiziert, dass bis 2028 alle hochwertigen Textdaten im Internet aufgebraucht sein werden und die Datensätze für maschinelles Lernen möglicherweise bereits vor 2026 alle „hochwertigen Sprachdaten“ verbraucht haben werden. Dieses Phänomen der „Datenmauer“ stellt ein großes Problem für KI-Unternehmen dar und könnte deren Fortschritte verlangsamen.

Datenanalyse Datenüberwachung Internet Big Data (2)

Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.

Die Branche hat bereits vor diesem Problem gewarnt. Im Juli 2023 warnte Stuart Russell, Professor an der University of California, Berkeley, dass von KI betriebene Roboter wie ChatGPT möglicherweise bald „den gesamten Text im Universum“ aufbrauchen könnten. Es gibt jedoch auch andere Meinungen. Im Mai 2024 erklärte Fei-Fei Li, Professorin an der Stanford University, dass es immer noch eine große Menge an differenzierten Daten gibt, die zur Erstellung individuellerer Modelle genutzt werden können.

Um dem Datenmangel entgegenzuwirken, wird die Verwendung synthetischer Daten als potenzielle Lösung diskutiert. Eine kürzlich im Nature veröffentlichte Studie weist jedoch darauf hin, dass das Training zukünftiger Generationen von Machine-Learning-Modellen mit KI-generierten Datensätzen zu einem „Modellkollaps“ führen und das Modell die Realität falsch interpretieren lassen könnte. Das Forschungsteam empfiehlt, einen Teil der Originaldaten im Trainingsdatensatz zu belassen, diverse Datenquellen zu verwenden und robustere Trainingsalgorithmen zu erforschen.

Wie die „Datenmauer“ überwunden und eine kontinuierliche Versorgung mit hochwertigen Trainingsdaten sichergestellt werden kann, ist zu einer dringenden Aufgabe der KI-Branche geworden. Dies erfordert nicht nur technische Innovationen, sondern auch die gemeinsame Anstrengung von Regierung, Unternehmen und Forschungseinrichtungen. Angesichts der zunehmenden Integration von KI-Technologien in alle Wirtschaftszweige wird die Lösung des Problems des Datenmangels tiefgreifende Auswirkungen auf die nachhaltige und gesunde Entwicklung der KI haben.