TRAE发布SOLO正式版,定位“响应式编程助手”,面向专业开发者提供实时可控、多任务并行的AI编程体验。该版本已开放国际版并限时免费。今年7月Beta版推出内置智能体SOLO Builder,支持多模态需求理解与任务分解,助力快速构建端到端应用。
李飞飞World Labs推出Marble 3D世界模型公测版,支持文本、图像、视频等多模态输入,快速生成可交互虚拟宇宙,助力开发者探索AI技术应用。
谷歌DeepMind发布多模态智能体SIMA2,基于Gemini2.5Flash-lite模型,任务成功率较前代提升约一倍。新版本能在陌生环境中执行复杂指令,具备自我改进能力,通过引入自生成数据循环机制:系统调用独立Gemini模型在新场景中批量生成任务。目前以研究预览形式发布,旨在验证实现通用人工智能所需的高阶世界理解与推理能力。
百度世界大会上,小度科技发布升级版多模态AI助手“超能小度”,整合语音、视觉和空间信息,提升感知能力。该助手支持听、说及环境识别,数千万小度设备可免费升级,推动人机交互进步,让用户体验更智能生活。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
一款强大的音视频多媒体素材生成与理解能力的 AI 工具。
Wan 2.5支持原生多模态AV生成,可10秒生成1080p视频,音画同步。
xai
$21.6
Input tokens/M
$108
Output tokens/M
256k
Context Length
google
$9
$72
1M
openai
$7.92
$31.68
200k
$2.16
$18
baidu
$4
$16
128k
meta
$1.22
$4.32
-
2M
tencent
32k
$0.72
$2.88
reka-ai
anthropic
$540
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
AbstractPhil
MM-VAE Lyra是一个专门用于文本嵌入转换的多模态变分自编码器,采用几何融合技术。它结合了CLIP-L和T5-base模型,能够有效处理文本嵌入的编码和解码任务,为多模态数据处理提供创新解决方案。
cemoss17
nutrient-gram-qwen-3-vl-2b是基于Qwen/Qwen3-VL-2B-Instruct的微调版本,使用TRL进行监督微调训练,主要用于文本生成任务。该模型在保持原有多模态能力的基础上,针对特定任务进行了优化。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
这是一个基于Huihui-Qwen3-VL-4B-Instruct-abliterated模型的量化版本,专门用于图像文本到文本的转换任务,通过量化处理优化了模型性能,为多模态应用提供支持。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
unsloth
JanusCoder-14B 是基于 Qwen3-14B 构建的 14B 参数开源基础模型,旨在为代码智能建立统一的视觉编程接口。该模型在 JANUSCODE-800K 多模态代码语料库上训练,能够统一处理各种视觉编程任务。
JanusCoder-8B是基于Qwen3-8B构建的开源代码智能基础模型,旨在建立统一的视觉编程接口。该模型在JANUSCODE-800K(迄今为止最大的多模态代码语料库)上训练,能够处理各种视觉编程任务,包括数据可视化、交互式Web UI和代码驱动动画等。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
bartowski
这是Qwen3-VL-2B-Thinking模型的Llamacpp imatrix量化版本,提供了多种量化类型的文件,可在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,具备思维链推理能力。
这是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多种量化级别的模型文件,便于在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,支持图像和文本的交互。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
AI Studio MCP Server是一个集成Google AI Studio/Gemini API的模型上下文协议服务器,提供支持文件、对话历史和系统提示的内容生成功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
一个基于Pollinations API的多模态MCP服务器,支持生成图像、文本和音频内容
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
Frame0 MCP Server是一个为Frame0线框图工具提供的多模态控制协议服务,支持通过自然语言指令创建和修改线框图。
Morphik MCP是一个多模态数据库交互协议服务器,支持文档管理、检索和文件系统操作
博查是一个专为AI设计的搜索引擎,提供高质量的世界知识检索服务。
一个集成RunwayML和Luma AI API的多功能MCP服务器,支持视频/图像生成及处理任务
博查是一个专为AI设计的搜索引擎,提供全网近百亿网页和生态内容的高质量搜索服务,支持天气、新闻、百科等多种垂直领域结构化数据,适用于各类AI应用。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
基于Google Gemini多模态API的增强版网页控制台,新增工具调用功能
一个结合LangChain、MCP协议、RAG技术和Ollama的智能搜索引擎,支持网页搜索、信息检索和答案生成,具备本地和云端LLM调用能力。
基于MCP框架的多模态助手客户端,提供Python代码执行、实时天气查询等功能,包含Streamlit交互界面和SSE服务工具。