VideoChat ist ein Projekt für digitale Avatare mit Echtzeit-Sprachinteraktion. Es unterstützt End-to-End-Sprachlösungen (GLM-4-Voice - THG) und kaskadierte Lösungen (ASR-LLM-TTS-THG). Benutzer können das Aussehen und die Stimme des digitalen Avatars anpassen, inklusive Stimmklonierung, ohne Training erforderlich. Die Erstpaket-Latenz beträgt nur 3 Sekunden. Das Projekt nutzt neueste KI-Technologien, darunter automatische Spracherkennung (ASR), große Sprachmodelle (LLM), End-to-End-multimodale große Sprachmodelle (MLLM), Text-to-Speech (TTS) und Sprechkopfgenerierung (THG), um Benutzern ein hochgradig personalisiertes und latenzarmes interaktives Erlebnis zu bieten.