伝統を打ち破る!Mini-o3 オープンソースモデルが超長時間の視覚的推論を実現 深層的な思考はもう難しくない
最近、バイトダンスと香港大学は、新たなオープンソースの視覚的推論モデルであるMini-o3を共同でリリースしました。これは多ラウンドの視覚的言語モデル(VLM)技術における大きな進展を示しています。従来の視覚的言語モデルが1〜2ラウンドの対話しか行えなかったのに対し、Mini-o3はトレーニング時に6ラウンドの対話に制限されていますが、テストでは数十ラウンドまで推論ラウンドを拡張でき、視覚的問題処理の能力を大幅に向上させています。Mini-o3の強みは、困難な視覚検索タスクにおいて深い推論を実現したことにあるのです。