騰訊推首個開源多模態大語言模型VITA 可與用戶進行無障礙溝通
騰訊優圖實驗室等機構發佈首個開源多模態大語言模型VITA,旨在填補大型語言模型在處理中文方言的空白。VITA基於Mixtral8×7B模型,擴展了中文詞彙量,進行雙語指令微調,精通英語與中文。其關鍵特點包括:
1. **多模態理解**:VITA能處理視頻、圖像、文本和音頻,爲開源模型中前所未見。
2. **自然交互**:無需特定喚醒詞,可即時響應,保持禮貌不干擾。
3. **開源先鋒**:推動多模態理解和交互領域的研究進展。
VITA通過雙重模型部署實現精準、及時的交互,不僅能聊天,還能作爲健身夥伴、旅遊顧問,根據輸入內容回答問題。在情感語音合成和多模態支持上,VITA正持續優化,目標是生成高質量音頻和視頻內容。VITA的開源發佈,標誌着智能交互方式的革新,未來將提供更智能、更人性化的體驗。