前字节跳动AI产品副总裁廖谦8月底离职创业,成立“极致上下文”公司,专注营销场景多模态Agent。公司迅速获得数百万美元天使轮融资,投资方包括硅谷HT Investment和百度风投。廖谦将产品比作“007后勤处”,能根据品牌需求自动完成策略、脚本到视频生成的全流程,客户仅需简单确认。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
谷歌AI Studio推出全新AI应用构建器,用户仅需输入文本描述即可创建AI驱动应用,实现“零代码”开发。此举使谷歌与微软、OpenAI等公司在无代码工具领域并驾齐驱。核心亮点是深度集成多模态Gemini模型,开发者可利用Nano Banana模型轻松实现图像生成功能。
字节跳动联合香港三所大学开源DreamOmni2系统,突破性提升AI图像编辑生成能力。该系统实现多模态指令理解,可同时处理文本指令与参考图像,显著改善抽象任务处理效果,推动图像生成技术发展。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
openai
-
Input tokens/M
Output tokens/M
128k
Context Length
unsloth
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
Salesforce
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
unum-cloud
UForm是一款轻量级多模态AI模型,支持图像和文本的多语言理解与生成。该模型可将21种语言映射到共享向量空间,生成高达256维的嵌入向量,具有高效的参数共享架构和跨平台兼容性。
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。