美团が発表したLongCat-Nextは、従来の「言語基盤+プラグイン」アーキテクチャを超え、DiNA技術で画像・音声・テキストを統一トークン化し、AIの物理世界の「見る」「聞く」能力を実現、多モーダルモデリングの深い統合を達成。....
shi-labs
DiNAT-Miniは近傍アテンション機構に基づく階層型ビジョントランスフォーマーモデルで、画像分類タスク向けに設計されています。