前字节跳动AI产品副总裁廖谦8月底离职创业,成立“极致上下文”公司,专注营销场景多模态Agent。公司迅速获得数百万美元天使轮融资,投资方包括硅谷HT Investment和百度风投。廖谦将产品比作“007后勤处”,能根据品牌需求自动完成策略、脚本到视频生成的全流程,客户仅需简单确认。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
谷歌AI Studio推出全新AI应用构建器,用户仅需输入文本描述即可创建AI驱动应用,实现“零代码”开发。此举使谷歌与微软、OpenAI等公司在无代码工具领域并驾齐驱。核心亮点是深度集成多模态Gemini模型,开发者可利用Nano Banana模型轻松实现图像生成功能。
字节跳动联合香港三所大学开源DreamOmni2系统,突破性提升AI图像编辑生成能力。该系统实现多模态指令理解,可同时处理文本指令与参考图像,显著改善抽象任务处理效果,推动图像生成技术发展。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
Wan 2.5支持原生多模态AV生成,可10秒生成1080p视频,音画同步。
Nano Banana是一款领先的AI图像编辑器,通过简单的文本提示转换任何图像。
baidu
$4
输入tokens/百万
$16
输出tokens/百万
128k
上下文长度
meta
$1.22
$4.32
1M
openai
$18
$72
tencent
32k
google
$0.72
$2.88
sensetime
$2.8
$8.4
256k
$0.58
$2.16
10M
$3
$15
-
$1.08
$216
$432
8.2k
$2.52
azure
$0.36
$0.43
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
rafacost
DreamOmni2-GGUF是将xiabs/DreamOmni2-7.6B模型转换为GGUF格式的图像到图像模型,支持多模态指令编辑和生成,遵循Apache-2.0许可证。
bartowski
这是Qwen3-VL-4B-Instruct模型的量化版本,使用llama.cpp工具和imatrix数据集生成多种量化类型的文件,支持在不同硬件条件下高效运行的多模态视觉语言模型。
这是Qwen3-VL-4B-Instruct模型的MLX格式8位量化版本,由mlx-community转换。该模型是一个40亿参数的多模态视觉语言模型,支持图像理解和文本生成任务,专为指令跟随场景优化。
Qwen3-VL-8B-Instruct是由Qwen开发的视觉语言模型,经过MLX量化优化,专门针对Apple Silicon设备。该模型支持图像和文本的多模态输入,能够理解和生成与图像相关的文本内容。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
这是Qwen3-VL-30B-A3B-Instruct模型的4位量化MLX格式版本,由mlx-community转换和维护。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
PaDT-MLLM
PaDT Pro 3B是基于Qwen2.5VL-3B的多模态大语言模型,采用可解码块令牌的统一范式,能够直接生成文本和视觉输出,在多个视觉感知和理解任务中取得先进性能。
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个基于Pollinations API的多模态MCP服务器,支持生成图像、文本和音频内容
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。
GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器,支持图像生成和多模态任务处理。