12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室发布了AI-DimSum多模态粤语语料库平台,旨在突破粤语作为“低资源语言”的数字化困境。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了多模态语料库,推动粤语在人工智能时代的保护与发展。
谷歌DeepMind CEO哈萨比斯在Axios AI+峰会上预测,2026年将是多模态AI、互动视频世界和可靠AI代理快速发展的关键一年。他特别提到,其最新模型Gemini在多模态能力上已取得显著进展,不仅能描述情节,还能深入理解场景深层含义。
广州大学举办第十届语言服务高级论坛,发布AI-DimSum粤语语料库平台,推动粤语数字化发展。粤语作为全球使用人数过亿的汉语方言,在互联网领域长期被视为低资源语言,该平台有望改善这一现状。
谷歌推出Workspace Studio,让企业无需代码即可创建AI代理,自动化处理各类任务。基于Gemini3多模态能力,普通员工也能快速构建自动化流程,提升效率,缓解工作压力。
Google DeepMind旗舰多模态AI,1M上下文,具备博士级推理与高级编码能力
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
GeminiGen AI是一款先进的AI内容生成平台,提供AI生成的图像、视频和语音。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
Mungert
MedGemma-4B-IT是基于Gemma 3的医学领域多模态模型,支持医学文本和图像理解,适用于医疗AI应用开发。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
MedGemma是基于Gemma 3开发的医学多模态模型,专注于医学文本和图像理解,支持构建医疗保健AI应用。
MedGemma是谷歌开发的专为医疗场景优化的AI模型系列,包含4B多模态和27B纯文本两个版本。基于Gemma 3架构,在医疗文本和图像理解任务中表现出色,能够有效支持医疗AI应用开发。
MedGemma是Google开发的医疗专用多模态AI模型,基于Gemma 3架构,专注于医学文本和图像理解。
RedHatAI
Llama 4系列原生多模态AI模型,支持文本和图像理解,采用混合专家架构,适用于商业和研究场景。
Llama-4-Scout是Meta推出的Llama 4系列模型之一,采用混合专家(MoE)架构,是原生多模态AI模型,支持文本和图像输入,在多语言文本理解和视觉任务方面表现出色。该模型具有17B参数,16个专家,专为商业和研究用途设计。
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
Llama 4系列是Meta推出的原生多模态AI模型,支持文本和图像交互,采用混合专家架构,在文本和图像理解方面表现卓越。
hirundo-io
Llama 4 Scout是Meta推出的原生多模态AI模型,支持多语言文本和图像理解,采用混合专家架构,在文本和图像理解方面具有行业领先性能。
bnb-community
Llama 4系列是Meta开发的多模态AI模型,支持文本与图像交互,采用混合专家架构(MoE),在文本和图像理解领域具有领先性能。
Llama 4 Scout是Meta推出的170亿参数多模态AI模型,采用混合专家架构,支持12种语言和图像理解。
chutesai
Llama 4 Maverick是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像输入,输出多语言文本和代码。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型,支持12种语言和图像理解,具有行业领先性能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。
NiagaBot是基于Qwen3-Omni AI的智能WhatsApp商业自动化机器人,支持多模态消息处理、群组管理、批量广播和数据分析等功能
该项目提供了一个适配器,用于将MCP(多模态对话程序)服务器的工具无缝集成到LangChain和LangGraph应用中,支持在AI应用管道中使用MCP工具。
ChainFETCH MCP服务器提供对以太坊区块链智能平台的API访问,集成AI语义搜索、实时区块流和多模态查询功能,支持地址、交易、区块、代币和智能合约的全面分析。
MaxKB是一款开源的AI助手,专为企业设计,支持RAG流程、工作流引擎和多模态交互,适用于智能客服、知识库等场景。