谷歌發佈全新視覺語言模型 PaliGemma 2 Mix 集成多種功能助力開發者
近日,谷歌宣佈推出一款全新的視覺 - 語言模型(Vision-Language Model, VLM),名爲 PaliGemma2Mix。這款模型融合了圖像處理與自然語言處理的能力,能夠同時理解視覺信息和文本輸入,並根據需求生成相應的輸出,標誌着人工智能技術在多任務處理方面的進一步突破。PaliGemma2Mix 的功能非常強大,它集成了圖像描述、光學字符識別(OCR)、圖像問答、目標檢測和圖像分割等多種視覺 - 語言任務,適用於多種應用場景。開發者可以通過預訓練檢查點(checkpoints)直接使用這款模型,或根據自己的需求