美团が発表したLongCat-Nextは、従来の「言語基盤+プラグイン」アーキテクチャを超え、DiNA技術で画像・音声・テキストを統一トークン化し、AIの物理世界の「見る」「聞く」能力を実現、多モーダルモデリングの深い統合を達成。....
Mac用の画面録画ツールで、自動ズーム、スムーズなカーソルなどの機能を備え、専門的なビデオを作成できます。
shi-labs
DiNAT-Miniは近傍アテンション機構に基づく階層型ビジョントランスフォーマーモデルで、画像分類タスク向けに設計されています。