企业AI投资正从广泛试用转向聚焦核心赢家。2026年被视为关键转折点,企业预算虽增但将高度集中,从测试多个工具转向削减重叠方案,优化投资效率。
2025年AI编程领域迎来爆发式增长,从代码补全进化到多代理协作系统,AI已成为能独立处理复杂任务的“智能伙伴”。斯坦福大学报告显示,AI在软件工程基准测试SWE-bench上的得分一年内大幅提升67.3个百分点,达到71.7%,标志着AI编程能力实现重大突破。
智谱公司发布轻量级AI代码编辑器“Z Code”,目前处于Alpha测试阶段,支持Mac和Windows系统。该工具旨在降低使用命令行AI编程工具的门槛,通过统一的可视化桌面整合多种AI编程工具功能,用户只需输入API密钥即可便捷使用,为开发者提供更友好的编程体验。
圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。
提供免费AI图像与视频提示模板,含Nano Banana等测试提示
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Horizon支持用英语构建、测试和自动化交易策略,AI助力交易。
测试你的vibe编码技能,评估AI使用能力,用于招聘AI人才
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
Google
$0.7
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
prithivMLmods
VibeThinker-1.5B是微博AI推出的15亿参数密集语言模型,基于Qwen2.5-Math-1.5B微调,专门针对数学和算法编码问题设计。采用'频谱到信号原理'框架训练,在多个数学竞赛测试中超越规模更大的模型,训练成本约7800美元,支持最长约40k词元的输出。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
unsloth
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
Multiverse4FM
Multiverse-32B是基于Multiverse构建的首个开源、非自回归模型,在AIME测试中表现优异,具有重要的学术和应用价值。
qihoo360
Light-R1-7B-DS是基于DeepSeek-R1-Distill-Qwen-7B微调的开源7B数学模型,在AIME24和25等数学基准测试中表现优异。
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
xdatasi
这是一款基于LLaMA、GPT和DeepSeek混合架构的医疗AI辅助模型,专门用于医疗诊断推理和治疗建议辅助。在8000万份医疗记录上训练,具备深厚的医学知识,但目前仅用于研究和测试目的。
desklib
由Desklib开发的AI生成文本检测模型,用于区分人类撰写和AI生成的英文文本,在RAID基准测试中表现领先。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
RUC-AIBOX
STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型,在AIME基准测试中达到39.33%准确率
scb10x
台风T1 3B是SCB 10X开发的新型开放推理模型系列的首款产品。该模型基于Llama 3.2架构,具备跨领域推理能力,在GPQA、MMLU Pro和AI数学奥林匹克等基准测试中表现优异,特别支持泰语推理过程生成。
apple
AIMv2是采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是一个采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异。
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
Armor Crypto MCP是一个为AI代理与加密货币生态系统集成设计的工具,支持钱包管理、交易、跨链操作等功能,目前处于Alpha测试阶段。
Xcode MCP Server是一个基于Model Context Protocol的服务器,为AI助手提供全面的Xcode集成功能,包括项目管理、文件操作、构建测试、CocoaPods和Swift包管理以及iOS模拟器工具等。
PMAT是一个零配置的AI代码上下文生成工具,提供代码质量分析、技术债务评级、突变测试、仓库健康评分和语义搜索等功能,支持17种以上编程语言,并能通过MCP协议与Claude Code等AI助手集成。
MCP Appium是一个基于模型上下文协议的智能移动自动化服务器,为AI助手提供跨平台移动应用测试工具,支持iOS和Android平台,具备智能元素定位、会话管理和自动化测试生成等功能。
一个连接Claude桌面端与Kali Linux安全工具的MCP服务器,实现AI辅助渗透测试的开发套件
VibeCheck Web测试工具是一个AI驱动的网页测试代理,通过MCP协议集成到AI编程助手(如GitHub Copilot、Cursor等)中,实现自动化测试录制、执行和发现。它利用Playwright控制浏览器,支持自然语言描述生成测试脚本,执行回归测试,并自动发现潜在测试步骤,提高开发效率和测试准确性。
NetContextServer是一个增强AI编程助手理解.NET代码库的工具,通过Model Context Protocol (MCP)提供深度代码分析、语义搜索和测试覆盖率分析等功能。
一个基于JSON的统一接口dbt模型控制协议(MCP)服务器,支持通过CLI、API或AI工具触发dbt模型运行和测试,并提供Slack通知功能。
Kali MCP Server是一个轻量级API桥接工具,连接MCP客户端与Kali Linux终端,实现AI辅助渗透测试和CTF挑战自动化。
MCPStudio是一个类似Postman的AI工具集成平台,提供可视化界面用于创建、测试和管理Model Context Protocol服务器,简化AI系统与外部服务的连接过程。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
Bazel MCP服务器是一个本地服务,为支持MCP协议的AI代理提供Bazel构建系统的功能访问。它解决了MCP环境中缺少命令行工具或环境配置错误导致Bazel无法使用的问题,提供构建、查询、测试等核心功能,并支持动态设置工作区路径。
playwright-mcp是一个为AI助手提供浏览器实时访问能力的工具,可生成可靠的Playwright测试脚本。
一个基于Model Context Protocol (MCP)的XRP Ledger服务服务器,为AI代理提供与XRPL主网、测试网和开发网交互的统一接口,支持账户管理、代币操作、NFT功能、DID、AMM等多种区块链服务。
该项目是基于UnityMCP的改进版本,专注于通过AI辅助开发VRChat世界,提供了增强的命令执行、编辑器集成、脚本测试和性能优化等功能,特别支持UdonSharp脚本生成。
MCP_Agent:RE是一个用于从TAPD平台获取需求和缺陷数据并生成质量分析报告的Python项目,提供数据获取、预处理、向量化、智能搜索和报告生成等完整工具链,支持AI驱动的测试管理。
该项目提供了与Shortcut集成的MCP服务配置指南,支持在Windsurf、Cursor和Claude Code等AI开发工具中运行,包含安装说明、常见问题解答及本地开发测试方法。
MCP互联网速度测试是一个实验性项目,通过标准化的MCP协议为AI模型提供网络性能测试工具,包括下载/上传速度、延迟和抖动测量等功能。
MCP本地开发环境管理器,通过AI自动配置和管理开发环境,支持多种测试框架和运行时环境。
Lookerctl是一个用于大规模管理和优化LookML的综合性命令行工具,提供本地快速验证、使用分析、依赖映射、科学测试和AI集成等功能,支持MCP服务器供AI代理使用。