Meta hat kürzlich eine neue Partnerschaft mit der UNESCO im Bereich Sprachtechnologie angekündigt. Ziel ist die Sammlung von Sprach-Aufnahmen und Transkripten in verschiedenen Sprachen, um die Entwicklung zukünftig frei verfügbarer KI-Systeme voranzutreiben. Der Fokus liegt dabei besonders auf Minderheitensprachen, die im digitalen Umfeld unterrepräsentiert sind.
Laut Meta sollen Partner gewonnen werden, die über 10 Stunden Sprachaufnahmen mit Transkripten, umfangreiche schriftliche Texte und übersetzte Sätze bereitstellen. Meta möchte diese Sprachen in Zusammenarbeit mit den Partnern in seine KI-Spracherkennungs- und -übersetzungsmodelle integrieren. Die Ergebnisse sollen als Open Source veröffentlicht werden.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.
Zu den bereits bestätigten Partnern gehört die Regierung des kanadischen Nunavut-Territoriums, wo Teile der Bevölkerung Inuktitut sprechen. Meta schreibt in seinem Blog: „Unsere Bemühungen konzentrieren sich besonders auf unterversorgte Sprachen, um die Arbeit der UNESCO zu unterstützen. Letztendlich wollen wir intelligente Systeme schaffen, die komplexe menschliche Bedürfnisse verstehen und darauf reagieren können, unabhängig von Sprache oder kulturellem Hintergrund.“
Im Rahmen dieses Projekts veröffentlicht Meta außerdem einen Open-Source-Benchmark für maschinelle Übersetzung, um die Leistung von Sprachübersetzungsmodellen zu bewerten. Dieser von Linguisten entwickelte Benchmark unterstützt sieben Sprachen und ist über die KI-Entwicklungsplattform Hugging Face zugänglich und kann dort erweitert werden.
Meta betrachtet diese beiden Initiativen als philanthropische Maßnahmen, profitiert aber gleichzeitig von der Verbesserung seiner Spracherkennungs- und -übersetzungsmodelle. Meta erweitert kontinuierlich die Anzahl der Sprachen, die von seinem KI-Assistenten Meta AI unterstützt werden, und testet Funktionen wie die Sprachübersetzung in Instagram Reels, die es Erstellern ermöglicht, ihren Sprachkommentaren automatische Untertitel hinzuzufügen.
Obwohl Metas Bemühungen im Bereich der Sprachverarbeitung bemerkenswert sind, wurde das Unternehmen in der Vergangenheit für seine Verarbeitung nicht-englischer Inhalte kritisiert. Berichten zufolge wurden bei der Bearbeitung von COVID-19-Falschinformationen auf Italienisch und Spanisch fast 70 % der Inhalte nicht markiert, während der Anteil bei englischen Inhalten nur bei 29 % lag. Ausgegebene Dokumente zeigen außerdem, dass arabische Inhalte oft fälschlicherweise als Hassreden markiert wurden. Meta erklärt, dass Maßnahmen ergriffen werden, um die Übersetzungs- und Inhaltsprüfungsverfahren zu verbessern und diese Herausforderungen zu bewältigen.