支付宝推出中国首个AI智能体商业开放协议ACT,旨在构建跨平台协同的通用语言与信任机制,解决智能体在订餐、理财等场景中高效可信协作的关键难题。
谷歌翻译应用测试版新增实时语音翻译功能,用户佩戴任意耳机即可听到保留原说话者语气、重音与语调的精准翻译,将普通耳机变为单向同声传译设备。该功能旨在满足国外听讲座、与当地人交流等真实场景下的深层语言需求。
英伟达在NeurIPS大会上发布自动驾驶AI模型Alpamayo-R1(AR1),这是全球首个行业级开放推理视觉语言行动模型。它能同时处理文本和图像,将传感器信息转化为自然语言描述,结合推理链AI和路径规划技术,以应对复杂驾驶场景,加速无人驾驶汽车发展。
Google推出Gemini 2.5 Flash与Pro文本转语音预览模型,全面升级5月旧版。新模型支持24种语言的多角色对话,具备“情绪级”表达和自适应节奏功能,用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试,预计2025年第一季度投入生产,适用于有声书、游戏NPC及本地化课程等场景。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
Gemini 2.0 Flash-Lite 是高效的语言模型,专为长文本处理和多种应用场景优化。
基于支付宝的生活场景,通过领先的大模型技术,为企业快速构建专业级智能体。
Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型,适用于多种应用场景。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
Trilogix1
Fara-7B是微软专门为计算机使用场景设计的高效小型语言模型,参数仅70亿,在网页操作等高级用户任务中表现出色,能与更大型的代理系统竞争。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
Clemylia
Qsana-coder-base 是一个小型语言模型(SLM),专门为编码基础(Python、伪代码)的概念创意而设计。它不生成可执行的生产代码,而是为教育和快速原型设计场景生成编码逻辑片段,主要目标是激发初学者的逻辑思维和概念理解。
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
mradermacher
这是 vanta-research/atom-v1-preview-12b 模型的量化版本,提供多种量化类型选择,适用于对话、协作、教育等多种场景。该模型基于 Gemma 架构,支持英语语言处理。
DakkaWolf
Trouper-12B GGUF是由DarwinAnim8or基于原始模型开发的文本生成模型,专门针对角色扮演和创意写作场景进行了优化。该模型从Mistral-Nemo-Base-12B微调而来,使用了自定义的'Actors'数据集进行训练,生成的文本更加自然,避免了常见的'AI语言'特征。
bartowski
这是Precog-123B-v1模型的llama.cpp量化版本,提供了多种量化类型以满足不同硬件配置和使用场景的需求。该模型是一个拥有1230亿参数的大型语言模型,经过优化后可在各种硬件上高效运行。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
microsoft
Fara-7B是微软研究院开发的专为计算机使用场景设计的小型语言模型,仅有70亿参数,在同规模模型中实现卓越性能,能够执行网页自动化、多模态理解等计算机交互任务。
noctrex
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
本项目提供了慧慧Qwen3-VL-30B-A3B-Instruct模型的量化版本,旨在提升模型在特定场景下的性能与效率。这是一个基于Qwen3-VL架构的视觉语言模型,支持图像和文本的多模态交互。
taobao-mnn
Qwen3-VL-8B-Thinking-MNN是基于Qwen3-VL-8B-Thinking导出的MNN模型的4位量化版本,专为文本生成和聊天场景优化,支持视觉语言理解任务
mlx-community
这是Qwen3-VL-4B-Instruct模型的MLX格式8位量化版本,由mlx-community转换。该模型是一个40亿参数的多模态视觉语言模型,支持图像理解和文本生成任务,专为指令跟随场景优化。
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
Guilherme34
Qwen2.5-14B-Instruct是基于Qwen2.5架构的多语言大语言模型,拥有140亿参数,支持13种语言,具备优秀的指令跟随和对话能力。该模型在多种语言任务上表现优异,适用于多语言场景的文本生成和理解。
NikolayKozloff
UserLM-8b-Q8_0-GGUF 是基于微软 UserLM-8b 模型转换的 GGUF 格式版本,专门针对用户对话场景优化的大语言模型。该模型采用 8 位量化技术,在保持性能的同时显著减小了模型体积,便于在各种硬件上部署运行。
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
该项目是一个基于Model Context Protocol (MCP)标准的文档处理服务器,通过构建向量数据库和MCP接口,使AI助手能够访问外部文档资源,突破大语言模型的知识限制。项目包含文档处理流水线和MCP服务端两大组件,支持多种嵌入模型和文件格式,可应用于最新技术文档查询、私有代码库理解等场景。
Unity-MCP是一个连接大型语言模型(LLM)与Unity编辑器的桥梁工具,通过暴露Unity编辑器功能给AI客户端,实现AI驱动的自动化开发流程。它支持自定义工具扩展,目前提供游戏对象管理、场景操作、资产处理等核心功能,主要适用于Unity编辑器环境。
Unity MCP Package是一个专注于增强材质编辑的Unity插件,基于MCP协议实现Unity与大型语言模型的双向通信,支持资产管理、场景控制、脚本集成等功能,并计划添加更多高级特性。
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。
Auto Causal Inference是一个利用大型语言模型(LLM)自动进行因果推断的项目,用户只需指定处理变量和结果变量,系统就能自动完成变量角色识别、因果图构建、效应估计和模型验证等全流程分析。项目提供两种代理架构(LangGraph和MCP)来实现这一功能,特别适用于银行场景下的因果问题分析。
该项目是一个Model Context Protocol (MCP)适配器,用于连接大型语言模型(LLM)与Lisp开发环境,支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持,适用于AI辅助符号编程、CAD设计自动化等场景。
Clo MCP是一个连接Clo3D与大型语言模型的集成系统,通过模型上下文协议实现AI辅助时装设计和场景操控。
基于Go语言的全功能HTTP客户端MCP服务器,支持多种HTTP方法和安全测试,具备自动日志记录功能,适用于API测试、Web自动化和安全测试场景
Gemini MCP Server是一个基于Go语言开发的单一可执行文件,集成了Google Gemini API的模型控制协议服务器。提供动态模型访问、高级上下文缓存、智能文件处理和增强搜索功能,支持代码分析、创意写作和事实研究等多种应用场景。
一个集成Perplexity AI搜索增强语言模型与Claude桌面的MCP服务器,提供三种不同复杂度的工具,适用于快速查询、技术分析和深度研究场景。
该项目将富士通的社会数字孪生和数字演练API与模型上下文协议(MCP)集成,使大型语言模型(LLM)能够通过自然语言访问富士通的数字演练API,实现交通模拟、场景比较等功能。
Unity MCP是一个连接Unity编辑器与大型语言模型(LLM)的桥梁工具,通过本地MCP客户端实现自然语言控制Unity编辑器功能,支持资产管理、场景控制、脚本编辑等自动化操作。
RuleGo是一个基于Go语言的轻量级、高性能、嵌入式、可编排的组件化规则引擎,适用于低代码、业务编排、数据集成、工作流、物联网等多种场景。