學習聯合視覺表示通過對齊前投影
AnasMohamed
基於Vision Transformer架構的大規模視覺語言模型,支持圖像與文本的跨模態理解
LanguageBind
Video-LLaVA是一個開源的多模態模型,通過在多模態指令跟隨數據上微調大語言模型進行訓練,能夠生成交錯的圖像和視頻。
Video-LLaVA是一個通過投影前對齊學習統一視覺表徵的多模態模型,能夠同時處理圖像和視頻的視覺推理任務。