NVIDIA推全新視覺語音模型NVEagle,可以看圖跟你聊天
NVIDIA 聯合多所高校推出了 NVEagle,一個能看圖聊天的大型視覺語言模型。NVEagle 能解析圖片內容並給出準確答案,如識別圖片中的人物爲黃仁勳。該模型通過將圖像轉化爲視覺標記並與文本嵌入結合,顯著提升了對視覺信息的理解能力。面對高分辨率圖像處理的挑戰,研究團隊通過探索不同的視覺編碼器和融合策略,構建了包括 Eagle-X5-7B、Eagle-X5-13B 和 Eagle-X5-13B-Chat 在內的三個版本,其中 13B-Chat 特別適用於對話式 AI。NVEagle 採用混合專家機制,根據任務動態選擇最佳視覺編碼器,提高了對複雜視覺信息的處理能力。在多種基準測試中,NVEagle 的表現均優於其他領先模型,特別是在 OCR、視覺問答和複雜視覺信息處理任務上。