通義オープンソース視覚知覚マルチモーダルRAG推論フレームワークVRAG-RL
このほど、通義研究所のナチュラルランゲージインテリジェンスチームは、VRAG-RL——視覚知覚を駆動するマルチモーダルRAG推論フレームワークを正式に公開し、オープンソース化しました。このフレームワークは、AIが実際のビジネスシーンで画像、表、デザイン案などの視覚情報を活用して重要な情報を検索し、細やかな推論を行う課題を解決することを目指しています。複雑な視覚ドキュメント知識庫から重要な情報を検索して推論することは、AI分野において大きな挑戦とされています。伝統的なRAG(Retrieval-Augmented Generation)法は、視覚的に豊富な情報を処理する際には力不足で、その理由は主にそれらが視覚的な情報から効果的に検索を行うことが難しいからです、