大模型竞赛进入“落地攻坚”阶段,火山引擎提出AI演进新范式:智能Agent成为AI落地核心载体,多模态能力与高效开发体系是关键。大模型正从问答交互转向深入汽车、制造等复杂场景,实现从“聊天”到“干活”的跨越。
阿里旗下通义千问App全面接入高德地图,融合AI处理能力与地理位置数据,打造“问答即服务”出行模式。用户可直接查询周边餐厅、娱乐等生活服务,实现智能导航与生活服务一体化。
阿里千问App接入高德地图,实现从文字问答到地理空间推理与服务执行的跨越。通过高德时空引擎和POI数据,千问能即时生成包含餐厅推荐等信息的行动建议,具备物理世界理解与行动能力。
蚂蚁集团旗下AI健康应用“蚂蚁阿福”品牌升级后下载量激增,冲上苹果应用总榜第三。该应用月活用户超1500万,日处理健康问答超500万次,已跻身国内AI应用前五。新版升级了健康陪伴、问答及服务功能。
集内容收集、文件解析、知识组织、问答与创作于一体的智能助手。
AI问答助手,用截图获取智能答案
Athena IQ是一个智能问答系统,让您的团队专注于重要工作。
一个强大的本地文档问答工具,连接到你的本地Ollama模型,用于创建和管理RAG系统。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
prithivMLmods
Olmo-3-7B-Instruct-AIO-GGUF是基于Allen Institute for AI开发的Olmo-3-7B-Instruct模型的GGUF量化版本。这是一个70亿参数的自回归语言模型,通过监督微调和直接偏好优化在Tulu 2和UltraFeedback等数据集上训练,在问答和指令遵循方面表现出色。
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
fibonacciai
RealRobot_chatbot_llm是基于Gemma3n架构的专业产品人工智能模型,专门在RealRobot产品目录的专有数据集上进行了微调。该模型能够根据企业自身的产品数据,快速创建准确、经济高效且可部署的专业语言模型,提供高度专业化的产品问答服务。
本项目是使用mergekit对预训练语言模型进行合并的成果,结合了多个医学领域的预训练模型,为医学问答任务提供了更强大的支持,可有效提升医学问题回答的准确性和效率。
mradermacher
Lamapi/next-12b 是一个120亿参数的多语言大语言模型,提供了多种量化版本,支持文本生成、问答、聊天等多种自然语言处理任务。该模型在多个领域数据集上训练,具有高效、轻量级的特点。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
Mungert
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
Clemylia
Lam-2是基于自定义架构Aricate V4开发的第二代小型语言模型(SLM),在问答任务中表现出色,具有卓越的语言连贯性和创造力。相比前代产品,Lam-2在语法正确性和文本生成质量上有显著提升。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
Tesity-T5是由Clemylia开发的编码器-解码器类型语言模型,专注于带上下文的问答任务。该模型能够根据提供的文本上下文,精准提炼并合成答案,具有事实性和综合性的回答能力。
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
aisingapore
Qwen-SEA-LION-v4-32B-IT是基于Qwen3-32B构建的东南亚语言大语言模型,专门针对东南亚地区进行了预训练和指令微调。该模型在包含7种东南亚语言的SEA-Pile v2语料库上继续预训练,并在800万对高质量问答数据上进行指令微调,具备强大的多语言理解和推理能力。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
PolyU-ChenLab
UniPixel-3B是一个用于像素级视觉语言理解的统一多模态大语言模型,能够灵活支持各种细粒度任务,包括图像/视频分割、区域理解以及新颖的PixelQA任务。该模型在视频中联合要求以对象为中心的指称、分割和问答,实现了像素级的视觉推理能力。
TIGER-Lab
本项目基于Qwen2.5-VL-7B-Instruct模型,专注于视觉问答任务,能够精准回答图像相关问题,具备较高的准确性和相关性。这是一个多模态视觉语言模型,支持图像理解和基于图像的问答交互。
RedHatAI
这是一个基于EAGLE-3推测解码算法的推测器模型,专门设计用于与Qwen/Qwen3-32B模型配合使用,通过推测解码技术提升文本生成效率,在数学推理和通用问答方面有良好表现。
Qwen2.5-VL-7B-Instruct是阿里巴巴通义千问团队开发的多模态视觉语言模型,基于70亿参数规模,专门针对视觉问答任务进行优化训练。该模型能够理解和分析图像内容,并生成准确的自然语言回答。
Alisia-7B-it 是基于 Gems234/Alisia-7B-it 基础模型的量化版本,支持文本生成推理、问答、事实核查和推理等多种任务。该项目提供了多种量化版本,适用于不同场景下的使用需求。
Alisia-7B-it 是一个基于7B参数的文本生成模型,专门针对文本生成推理、问答、事实核查和推理等任务进行了优化。本项目提供了该模型的多种静态量化版本,以平衡模型性能和资源需求。
adityak74
MEDFIT-LLM-3B是一个专门针对医疗问答优化的语言模型,基于Meta的Llama-3.2-3B-Instruct进行微调。该模型通过LoRA技术在医疗数据集上训练,显著提升了医学领域理解和直接回答能力,适用于医疗聊天机器人、患者教育等应用场景。
该项目通过搭建Claude Code与Google Gemini AI的桥梁,实现在Claude Code环境中直接调用Gemini进行问答、代码审查和创意头脑风暴,提供便捷的AI协作工具。
BCRP-MCP是一个基于模型上下文协议(MCP)的服务器,提供对秘鲁中央储备银行(BCRP)经济和金融时间序列数据的标准化访问接口,支持通过关键词搜索、数据分析和问答功能探索秘鲁经济指标。
该项目是一个基于Google Cloud Vertex AI Gemini模型的MCP服务器,提供丰富的工具集用于代码辅助和通用问答,支持网络搜索增强回答、文档解释生成、文件系统操作等功能。
一个通过Telegram实现用户交互的MCP服务器,提供问答、通知、文件传输和项目打包功能
本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器,使用ChromaDB进行向量索引,并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题,实现了将大型语言模型与特定领域知识相结合的智能问答功能。
一个基于FastMCP的英国议会数据服务项目,提供议会成员、选区、选举结果、政府职位、议会问答和辩论记录等数据的查询和语义搜索功能,支持通过Claude等MCP客户端访问。
MCP Docling Server是一个提供文档处理能力的服务器,支持多种文档转换和提取功能,包括格式转换、表格提取和问答生成等,可与Llama Stack集成增强LLM应用能力。
基于Gemini API的文档查询MCP服务器,提供技术文档的智能问答服务。
一个防止AI幻觉的MCP服务,当AI不确定时可以向人类提问而非盲目自信,通过简单的问答机制提升开发效率。
基于检索增强生成(RAG)的Godot文档查询助手,通过向量化技术和语义搜索实现智能问答
一个基于Model Context Protocol (MCP)的服务端,提供检索增强生成(RAG)能力,集成Cursor IDE和Claude Desktop等客户端,实现领域知识问答、智能检索和上下文感知的响应生成。
一个实现Claude Code实例间实时通信的MCP服务器,通过TCP中心枢纽协调不同实例间的问答对话。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个基于Model Context Protocol (MCP)的服务端项目,提供检索增强生成(RAG)能力,可作为Cursor IDE和Claude Desktop等客户端与Contextual AI代理的桥梁,实现基于知识库的智能问答和上下文感知响应。
基于Langflow的文档问答MCP服务器
该项目提供了在Android Studio中集成AI聊天功能的指南,使开发者能够通过自然语言与代码和项目交互,包括代码问答、修改、解释和调试等功能。
该项目构建了一个基于RAG的HR聊天机器人,通过MCP服务器作为功能调用中心,实现PDF文档上传、解析、检索及自然语言问答功能。
基于Docker容器的HTTP SSE客户端/服务器项目,支持工具查询和问答功能
Flexible GraphRAG是一个支持多数据源文档处理、知识图谱自动构建、混合搜索(全文、向量、图)和AI问答的灵活平台,包含FastAPI后端、MCP服务器和多种前端界面。