美團發佈原生多模態大模型LongCat-Next,突破傳統“語言基座+插件”架構,通過DiNA技術將圖像、語音與文本統一轉化爲同源離散Token,實現AI原生“看”與“聽”物理世界,完成多模態建模深度統一。
Mac屏幕錄製工具,具備自動縮放、平滑光標等功能,打造專業視頻。
shi-labs
DiNAT-Mini是基於鄰域注意力機制的分層視覺Transformer模型,專為圖像分類任務設計。