IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
滴滴AI助手“小滴”v1.0正式发布,集成大模型技术,可将用户自然语言需求转化为精准服务标签,实现智能化、个性化出行。核心功能是理解非结构化语言,用户无需手动筛选,通过语音或文字即可匹配精细化服务。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
阿里巴巴通义千问大模型技术负责人林俊旸近日宣布卸任。这位1993年出生的年轻技术专家,拥有北京大学计算机与语言学复合背景,其跨学科能力曾助力模型在语义理解与长文本处理上表现突出。
AI辅助的视觉UI开发工具,通过精确的DOM信息和自然语言描述帮助AI准确理解您的UI修改意图。
SpatialLM 是一个用于空间理解的大语言模型。
Gemini Embedding 是一种先进的文本嵌入模型,通过 Gemini API 提供强大的语言理解能力。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
-
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
RinggAI
这是一个专为通话记录分析打造的混合语言AI模型,能够处理印地语、英语和混合印地英语的通话转录内容。模型基于Qwen2.5-1.5B-Instruct进行微调,具备强大的多语言理解和信息提取能力。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
Clemylia
Qsana-coder-base 是一个小型语言模型(SLM),专门为编码基础(Python、伪代码)的概念创意而设计。它不生成可执行的生产代码,而是为教育和快速原型设计场景生成编码逻辑片段,主要目标是激发初学者的逻辑思维和概念理解。
aisingapore
Qwen-SEA-LION-v4-4B-VL 是一个基于 Qwen3-VL-4B-Instruct 架构构建的 40 亿参数视觉语言模型。它专门针对东南亚地区进行了指令微调,具备多语言和多元文化能力,支持英语及七种东南亚语言,并保留了强大的视觉-语言理解能力。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
DavidAU
本模型是基于Qwen3-Coder-30B-A3B-Instruct混合专家模型,通过Brainstorm 20x技术进行深度微调生成的GGUF格式模型。它专为编程和通用目的设计,支持256K长上下文,并针对主流及小众编程语言的代码生成和理解进行了优化。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
一个基于模型上下文协议(MCP)的服务器,通过构建代码知识图谱为大型语言模型提供TypeScript代码库的深度上下文理解。它使用AST分析解析代码,在Neo4j中构建全面的图表示,并通过语义搜索和图遍历提供智能查询能力。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。
该项目是一个基于Model Context Protocol (MCP)标准的文档处理服务器,通过构建向量数据库和MCP接口,使AI助手能够访问外部文档资源,突破大语言模型的知识限制。项目包含文档处理流水线和MCP服务端两大组件,支持多种嵌入模型和文件格式,可应用于最新技术文档查询、私有代码库理解等场景。
一个专为大型语言模型优化的MCP服务器,用于反混淆、解包和导航经过压缩与打包的JavaScript代码,帮助LLM理解复杂代码结构并节省上下文窗口。
MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具,通过语义理解和向量化索引提升代码处理效率和准确性,支持代码分析、质量评估和依赖管理等功能。
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
一个基于Node.js和Gemini API的AI研究助手工具,通过Firecrawl进行网页数据抓取,利用Gemini大模型进行深度语言理解和报告生成,支持迭代式深度研究,并可与MCP协议集成。
MCP-Memos是一款基于MCP协议的备忘录工具,专为开发者设计,支持快速记录和检索文本信息,无需切换应用。它利用大型语言模型提供强大的模糊搜索能力,包括语义理解、上下文感知和自然语言查询等功能。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。
一个为Ant Design组件提供文档查询服务的MCP服务器,允许大型语言模型通过专用工具探索和理解Ant Design组件库。
XRAY MCP 是一个为AI助手设计的渐进式代码智能工具,通过ast-grep提供结构化的代码分析能力,帮助AI理解代码库结构、符号关系和变更影响,无需复杂配置或语言服务器。
一个专注于Go语言的MCP协议服务器,提供符合Go惯用法的代码生成、风格指南和最佳实践工具,帮助语言模型理解和生成高质量的Go代码。
Excel MCP Server是一个基于FastMCP的协议服务器,专为大型语言模型设计,用于读取、探索和分析Excel文件。它提供文件操作、数据发现和数据分析功能,使AI能够理解和查询Excel数据。
Nabu和Nisaba是用于增强LLM代理代码理解和开发效率的研究原型工具集。Nabu作为MCP服务器提供代码语义搜索和结构分析功能,支持多种编程语言;Nisaba通过代理注入和TUI界面为Claude Code提供工作空间管理能力,帮助代理自主管理上下文使用。
CloudGlue MCP服务是一个连接AI助手与视频数据的桥梁,通过结构化处理视频内容,使其能被大型语言模型理解和使用。