美團發佈原生多模態大模型LongCat-Next,突破傳統“語言基座+插件”架構,通過DiNA技術將圖像、語音與文本統一轉化爲同源離散Token,實現AI原生“看”與“聽”物理世界,完成多模態建模深度統一。
shi-labs
DiNAT-Mini是基於鄰域注意力機制的分層視覺Transformer模型,專為圖像分類任務設計。