OpenAI发布GPT-5.2系列模型,在多个专业基准测试中表现卓越,部分领域超越人类专家。该模型在GDPval测试中,以70.9%的成绩在44个职业任务中领先顶尖专家,并在SWE-bench Pro编程测试中取得突破,成为当前专业知识工作表现最佳的AI模型。
OpenAI发布GPT-5.2系列模型,定位日常专业使用,旨在提升用户经济价值。该系列含Instant、Thinking和Pro版本,在电子表格、演示文稿、代码编写、长文本理解及图像处理等任务上较GPT-5.1有显著改进。
Meta 下一代旗舰大模型代号 Avocado,定位为 Llama 系列继任者,计划于 2026 年第一季度发布。该模型将采用闭源商业化路线,性能对标 GPT-5 与 Gemini,旨在与 OpenAI、Google 等公司的封闭模型生态正面竞争。
SemiAnalysis报告指出,OpenAI自2024年5月发布GPT-4o后,未完成新一代前沿模型的大规模预训练,因扩展参数和数据时遭遇收敛困难或性能倒退而中止。GPT-5系列实为GPT-4o优化版,缺乏架构突破。相比之下,谷歌TPUv7已在Gemini3等模型上成功验证大规模预训练,算力集群表现更优。
Skywork o1 Open系列模型,提升复杂问题解决能力
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
Anthropic
$105
$525
$21
Alibaba
-
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$0.15
$1.5
prithivMLmods
Olmo-3-Think是艾伦人工智能研究所推出的完全开源的语言模型系列,包含7B和32B两种规模。该模型经过专门训练,能够展现明确的推理链,支持透明的逐步推理和可检查的中间思维痕迹,在推理、数学和代码任务中表现出色。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
Olmo 3是由Allen Institute for AI开发的开源语言模型系列,包含7B和32B两种规格,分为指令(Instruct)和思考(Think)两种变体。该模型具有出色的长链思维能力,能够显著提升数学和编码等推理任务的表现。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
xlangai
OpenCUA是一个端到端的计算机使用基础模型系列,基于Qwen2.5-VL指令模型构建,能够在计算机环境中产生可执行的操作。它具备强大的视觉定位和多步骤任务规划能力,在OSWorld等计算机使用代理基准测试中表现出色。
Olmo 3是由Allen Institute for AI开发的全新7B参数语言模型系列,基于Transformer架构,在Dolma 3数据集上训练,旨在推动语言模型科学发展。模型提供Base、Instruct和Think等多种变体,支持最长65,536的上下文长度。
openai
GPT-OSS系列是OpenAI推出的开放权重模型,专为强大的推理能力、智能体任务和多样化开发者用例设计。该模型能有效解决复杂问题,提供灵活高效的使用体验,支持Apache 2.0开源许可证。
GPT-OSS系列是OpenAI发布的开放权重模型,专为强大推理、智能体任务和多样化开发者用例设计。120B版本拥有1170亿参数(其中51亿为活跃参数),适用于生产环境和需要高推理能力的场景。
Doctor-Shotgun
基于Llama-3.3-70B-Instruct构建的Magnum最终迭代版本,合并多个rsLoRA微调版本,模拟Claude 3 Sonnet/Opus系列模型的文风和质量。
apple
OpenELM是由苹果公司推出的高效语言模型系列,采用分层缩放策略优化参数分配,提供270M至3B不同规模的预训练及指令调优模型。
OLMo 2 1B是艾伦人工智能研究所推出的开放语言模型系列中最小的模型,基于OLMo-mix-1124预训练,并在中期训练阶段使用Dolmino-mix-1124数据集。
Isotr0py
Ovis2-1B是多模态大语言模型(MLLM)Ovis系列的最新成员,专注于视觉与文本嵌入的结构对齐,具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。
OLMo 2 32B是艾伦人工智能研究院(AI2)推出的开放语言模型系列中规模最大的32B参数模型,基于Apache 2.0许可开源,支持英语语言处理。
Delta-Vector
Rei-12B是一个旨在复现Claude 3系列模型(特别是Sonnet和Opus)文笔质量的大语言模型,基于Mistral-Nemo-Instruct进行微调,支持长上下文和角色扮演。
Rei-12B是一个旨在复现Claude 3系列模型(特别是Sonnet和Opus)散文质量的大语言模型,基于Mistral-Nemo-Instruct微调而成
Skywork
Skywork o1开放模型系列中的7B参数规模模型,基于Qwen2.5-Math-7B-Instruct训练,具备渐进式过程奖励增强的推理能力
amd
AMD-OLMo是由AMD在AMD Instinct™ MI250 GPU上从头开始训练的10亿参数语言模型系列,包括预训练模型、监督微调模型和基于直接偏好优化(DPO)的对齐模型。该系列模型基于OLMo架构,在Dolma数据集上进行预训练,并在多个指令数据集上进行微调。
anthracite-org
Magnum-v4-12b 是一个旨在复现Claude 3模型(特别是Sonnet和Opus)散文质量的系列模型。
马格南v4-22B是基于Mistral-Small-Instruct-2409微调的大型语言模型,专门致力于复刻Claude 3系列模型(尤其是Sonnet和Opus)的文本质量。该模型提供了GGUF量化版本,支持32K上下文长度,在多个高质量数据集上进行训练。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。