京东探索研究院开源JoyAI-Image-Edit模型,实现AI修图从平面处理到三维空间建模的突破。该模型具备“空间智能”,能理解物理空间规律,支持相机感知和物体位移等三维建模,开发者可直接调用代码进行场景几何保持的图像编辑。
美团LongCat团队发布并开源了LongCat-AudioDiT模型,采用端到端架构,直接在波形潜空间建模,摒弃了传统TTS系统中的梅尔频谱中间表征,有效减少了信息损耗与误差累积,显著提升了零样本语音克隆的性能。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
小红书开源可控图像生成框架InstanceAssemble,专为高密度、多对象、复杂空间关系的图像生成任务设计。该框架通过级联建模与Assemble-Attention机制,在仅增加极低参数的情况下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计等场景提供工业级解决方案。
在句子表示空间中的语言建模
视频理解领域的先进空间-时间建模与音频理解模型。
视频理解领域的新型状态空间模型,提供视频建模的多功能套件。
Tencent
$0.8
Input tokens/M
$2
Output tokens/M
32
Context Length
Google
-
$100
nvidia
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模效率,在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。
MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重新设计曼巴公式增强视觉特征建模能力,并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。
首个融合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端引入自注意力模块提升长程空间依赖建模能力。
MambaVision是首个融合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模能力,并在Mamba架构最后几层加入自注意力模块提升长程空间依赖建模能力。
首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端加入自注意力模块提升长程空间依赖建模能力。
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重新设计Mamba公式增强视觉特征建模能力,并在Mamba架构中融入自注意力模块提升长程空间依赖建模。
MambaVision是首个结合Mamba和Transformer优势的计算机视觉混合模型,通过重新设计Mamba公式并集成ViT模块,显著提升了长距离空间依赖关系的建模能力。
Exscientia
IgBert是一个专门针对蛋白质和抗体序列进行预训练的模型,采用掩码语言建模(MLM)目标。该模型基于Exscientia/IgBert_unpaired模型,使用来自观测抗体空间(OAS)的成对抗体序列进行微调,专门用于抗体序列的分析和处理。
state-spaces
Mamba是一个基于状态空间模型(SSM)的高效语言模型,具有线性时间复杂度的序列建模能力。