複雑なビジュアル推論向け!Microsoftが軽量マルチモーダルオープンソースモデルPhi-3.5-visionを発表
Microsoftは、テキストとビジュアル入力を処理するように設計された、軽量でマルチモーダルなオープンソースAIモデルであるPhi-3.5-visionを発表しました。128Kコンテキスト長をサポートし、リソースの少ない環境に適しています。画像理解、OCR、グラフ解析、複数画像のサマリーなどの機能を備え、優れたパフォーマンスと低遅延を実現します。42億パラメーターで構成され、高品質なデータでトレーニングされているため、パフォーマンスとプライバシーが確保されています。軽量AI、エキスパートミックス、マルチモーダルモデルの3つのモデルが含まれており、いずれも画像とビデオ処理のベンチマークテストで優れた結果を示しています。