欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、行业首个!该模型通过引入“时间模态”和四模态融合架构,实现了对多人对话场景的精准支持,显著提升了词错率、唇部同步度及音色相似度的表现。
阿里通义实验室发布并开源全球首个支持影视级、多场景配音的多模态大模型Fun-CineForge,旨在突破AI配音在情感表达、环境音融合及口型同步等方面的技术瓶颈,推动影视行业配音环节的智能化变革。
OpenRouter平台新增Hunter Alpha与Healer Alpha两款模型。Hunter Alpha参数达1万亿,支持100万token上下文和多模态输入,专为智能体场景设计,擅长复杂推理与多步骤任务。Healer Alpha则具备262K token上下文窗口。两款模型均引发社区关注。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
Seedance 2.0可快速生成2K画质AI视频,支持多模态输入与编辑。
字节跳动免费AI视频生成器,支持多模态输入创作2K视频
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
多模态重排序模型,支持文本、图像、视频等输入。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
John1604
Qwen3 VL 4B Thinking 是一个支持图像到文本以及文本到文本转换的多模态模型,具有4B参数规模,能够满足多种图文交互需求。
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
这是一个基于Huihui-Qwen3-VL-4B-Instruct-abliterated模型的量化版本,专门用于图像文本到文本的转换任务,通过量化处理优化了模型性能,为多模态应用提供支持。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
unsloth
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
bartowski
这是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多种量化级别的模型文件,便于在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,支持图像和文本的交互。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
这是一个基于Mistral Small 3.2构建的24B参数高效推理模型,转换为MLX-MXFP4格式。模型具有增强的推理能力,支持多模态输入,拥有128k上下文窗口,可在RTX 4090或32GB RAM的MacBook上运行。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
联网搜索MCP是基于腾讯云联网搜索API封装的服务,提供毫秒级响应、分钟级更新的智能搜索能力,支持自然结果检索、多模态VR卡等多种功能,帮助开发者快速集成互联网搜索能力。
一个基于Google Gemini和Vertex AI的AI视觉分析MCP服务器,支持图像和视频的多模态分析,提供对象检测、图像比较等功能,可集成到多种MCP客户端中。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
一个基于Pollinations API的多模态MCP服务器,支持生成图像、文本和音频内容
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
Frame0 MCP Server是一个为Frame0线框图工具提供的多模态控制协议服务,支持通过自然语言指令创建和修改线框图。
Morphik MCP是一个多模态数据库交互协议服务器,支持文档管理、检索和文件系统操作
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
ACP-MCP-Server是一个桥接服务器,连接代理通信协议(ACP)代理和模型上下文协议(MCP)客户端,实现AI代理与MCP兼容工具(如Claude Desktop)的无缝集成。
一个高性能的MCP服务器,为LLM代理提供持久化的多模态上下文存储,支持线程隔离、元数据过滤、全文搜索和语义搜索,兼容SQLite和PostgreSQL后端。
NiagaBot是基于Qwen3-Omni AI的智能WhatsApp商业自动化机器人,支持多模态消息处理、群组管理、批量广播和数据分析等功能
该项目提供了一个适配器,用于将MCP(多模态对话程序)服务器的工具无缝集成到LangChain和LangGraph应用中,支持在AI应用管道中使用MCP工具。
该项目为Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询服务,支持Docker本地部署。
ChainFETCH MCP服务器提供对以太坊区块链智能平台的API访问,集成AI语义搜索、实时区块流和多模态查询功能,支持地址、交易、区块、代币和智能合约的全面分析。
ToolChat是一个通过MCP服务器与大型语言模型(LLM)交互的工具,支持配置多工具服务器并调用特定功能,还能处理多模态输入如图片和文档。
GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器,支持图像生成和多模态任务处理。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。
MaxKB是一款开源的AI助手,专为企业设计,支持RAG流程、工作流引擎和多模态交互,适用于智能客服、知识库等场景。