JoyHallo एक डिजिटल मानव मॉडल है, जो विशेष रूप से मंदारिन वीडियो निर्माण के लिए डिज़ाइन किया गया है। यह जिंगडोंग हेल्थ इंटरनेशनल कंपनी लिमिटेड के कर्मचारियों के 29 घंटे के मंदारिन वीडियो एकत्र करके jdh-Hallo डेटासेट बनाता है। यह डेटासेट विभिन्न आयु और बोलने की शैलियों को कवर करता है, जिसमें बातचीत और पेशेवर चिकित्सा विषय शामिल हैं। JoyHallo मॉडल ऑडियो विशेषता एम्बेडिंग के लिए चीनी wav2vec2 मॉडल का उपयोग करता है, और होंठ की गति, भाव और मुद्रा विशेषताओं के बीच पारस्परिक संबंधों को पकड़ने के लिए एक अर्ध-डिकपलिंग संरचना प्रस्तुत करता है, जिससे सूचना उपयोग दक्षता में वृद्धि होती है और अनुमान गति 14.3% तक बढ़ जाती है। इसके अलावा, JoyHallo अंग्रेजी वीडियो निर्माण में भी उत्कृष्ट प्रदर्शन करता है, जो उत्कृष्ट क्रॉस-भाषाई निर्माण क्षमता प्रदर्शित करता है।