Die Alibaba Tongyi hat offiziell das neue End-to-End-Spracherkennungsmodell Fun-ASR vorgestellt. Dieses Modell erreicht eine breakthrough-artige Steigerung der Spracherkennungsgenauigkeit um über 15 % in spezialisierten Branchenszenarien wie Innenausbau und Versicherungen, indem es die Kontextwahrnehmung stärkt und eine präzise Transkription ermöglicht. Testdaten zeigen, dass die Genauigkeit im Versicherungsgewerbe um 18 % gegenüber der vorherigen Generation gestiegen ist, während die Steigerung in Bereichen wie Innenausbau und Viehzucht zwischen 15 % und 20 % liegt.

Als Spracherkennungsalgorithmus, der von großen Sprachmodellen angetrieben wird, verwendet Fun-ASR selbstentwickelte Sprachalgorithmen und Qwen3-überwachte Feinabstimmungstechnik. Durch die Kombination fortschrittlicher Modellarchitekturen und Textmodus-Alignment-Technologie bewahrt es seine Vorteile im Sprachverarbeitungsprozess und integriert gleichzeitig eine RAG-Recherche-Verstärkungslösung, wodurch Importe von über 1000 benutzerdefinierten Hotwords unterstützt werden. Diese Funktion kann automatisch Domänentopics, historische Dokumente und Kontextprotokolle im Audio erkennen und die Erkennung von Schlüsselwörtern in bestimmten Szenarien erheblich optimieren.

Neue Sprachmodellgeneration von Alibaba Tongyi Fun-ASR weiterentwickelt - Erkennungsgenauigkeit in vertikalen Bereichen steigt um über 15 %

Um Probleme wie Geräuschstörung, Sprachverwechslung und Generierungshalluzinationen bei der Spracherkennung zu lösen, hat das Entwicklerteam innovativ Technologien des Verstärkenden Lernens (RL) eingeführt. Durch dynamische Optimierungsstrategien wird die Erkennungsfehlerquote reduziert, wodurch die Systemstabilität und Zuverlässigkeit deutlich verbessert werden. Besonders erwähnenswert ist, dass das Modell in der Erkennung von Dialekten wie Sichuanisch, Cantonisch und Hokkien besser abschneidet als ähnliche Produkte. Gleichzeitig ist es in komplexen akustischen Umgebungen wie Fernfeld-Aufnahme oder Nahfeld-Rauschunterdrückung anpassungsfähig und deckt vielfältige Szenarien wie Konferenzräume, Arbeitsplätze, Supermärkte und Außenbereiche ab.

Auf der Ebene der Trainingsdaten wurde Fun-ASR auf der Grundlage von Hunderten Millionen Stunden Audiodaten entwickelt und integriert tiefgehend Fachterminologien aus mehr als zehn Bereichen wie Internet, Technologie, Viehzucht und Automobil. Diese Datenvorteile machen sich in der Spezialisierung der Branchenerkennung deutlich bemerkbar, beispielsweise in der Tierhaltungsbranche, wo es präzise Tiergeräusche und Schlüsselbefehle im Umgebungsrasseln erkennen kann.

Das Technikteam von Alibaba Tongyi gab bekannt, dass die Evolution von Fun-ASR den Übergang der Spracherkennungstechnologie von allgemeinen Szenarien zu professionellen und szenenspezifischen Anwendungen markiert. Mit der zunehmenden Implementierung des Modells in verschiedenen Branchen wird die dynamische Aktualisierung von Hotwords und die Fähigkeit zur multimodalen Interaktion die Effizienz der Sprachinteraktion weiter revolutionieren.