腾讯发布并开源了全新AI大模型“混元Hy3 preview”,这是混元系列中最智能的模型,升级涵盖复杂推理、指令遵循、上下文学习、代码处理和智能体等领域。该模型采用快思考与慢思考结合的混合专家架构,拥有2950亿参数,旨在提升整体性能和智能化水平。
腾讯混元于4月23日发布并开源Hy3preview语言模型,这是一个融合快慢思考的混合专家模型,总参数295B,激活参数21B,支持256K上下文。作为重建后训练的首个模型,它在复杂推理、指令遵循、上下文学习、代码和智能体等能力上显著提升,是混元迄今最智能的模型。2026年2月,腾讯混元重建了预训练和强化学习基础设施,注重模型实用性。
谷歌DeepMind预测2026年将成为AI发展的关键转折点,届时持续学习技术将全面实现。该技术使AI能自主吸收新知识并不断改进,被视为AI自我提升的核心。谷歌已在NeurIPS2025大会上提出“嵌套化方法”,显著提升了大语言模型的上下文处理能力,为持续学习奠定了基础。
Meta发布Omnilingual ASR系统,突破AI语音技术局限,首次实现对1600种语言的高精度识别。系统采用“上下文学习”机制,仅需少量音频样本即可快速学习新语言。这一开源技术打破语言“精英垄断”,推动数字平权,助力濒危和小语种社区融入AI时代。
一种通过视觉上下文学习的通用图像生成框架。
一个多图像视觉语言模型,具有训练、推理和评估方案,可从云端部署到边缘设备(如Jetson Orin和笔记本电脑)。
基于LLMs和生成式AI模型的AI产品的基础研究和技术
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$1.2
$3.6
4
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
Prior-Labs
TabPFN-2.5是基于Transformer架构的表格基础模型,利用上下文学习技术,能够在一次前向传播中解决表格预测问题,为结构化表格数据提供高效的回归和分类解决方案。
moonshotai
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
QuantFactory
MachineLearningLM-7B-v1是基于Qwen/Qwen2.5-7B-Instruct在数百万合成表格机器学习任务上持续预训练的大语言模型,专门针对表格分类任务优化,支持8到1024个示例的少样本上下文学习。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
InstaDeepAI
BulkRNABert是基于Transformer架构的仅编码器语言模型,专门用于处理批量RNA测序数据。该模型采用自监督的掩码语言建模方法,在TCGA数据集的RNA-seq图谱上进行预训练,能够从基因的基因组上下文重建随机掩码的基因表达值,学习具有生物学意义的转录组表示。
mradermacher
LongWriter-Zero-32B 量化模型基于 THU-KEG/LongWriter-Zero-32B 基础模型,支持中英双语,适用于强化学习、写作等长上下文场景。
LongWriter-Zero-32B量化模型是基于原始模型进行静态量化处理的多语言模型,适用于强化学习、写作等长上下文场景。
SAP
SAP RPT 1 OSS是一个结合语义理解和上下文学习的深度学习模型,专门用于表格数据预测任务。该模型通过为不同数据模态采用专门的嵌入,并在大规模真实世界表格数据上进行训练,在广泛的基准测试中表现出色。
ConTextTab是一个深度学习模型,结合了语义理解和上下文学习,专门处理表格数据。它通过专门的嵌入方法处理不同数据模态,在大规模真实世界表格数据上训练,在多个基准测试中表现出色,特别是在语义丰富的CARTE基准测试中树立了新标准。
ByteDance-Seed
Seed-Coder是一个8B规模的开源代码模型家族,包含基础版、指导版和推理版。推理版通过强化学习训练提升推理能力,支持64K上下文长度。
lmstudio-community
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
Seed-Coder-8B-推理版是一个8B规模的开源代码模型,通过强化学习提升推理能力,支持65,536的上下文长度,在编程任务上表现优异。
VisualCloze
VisualCloze是一个基于上下文学习的通用图像生成框架,支持多种领域内任务,并能通过上下文学习泛化至未见任务。
VisualCloze是一个基于视觉上下文学习的通用图像生成框架,支持多种领域内任务和未见任务的泛化,通过单步生成同时输出目标图像与中间结果。
adriabama06
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型,通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
dunnolab
Vintix是一个通过上下文强化学习实现的多任务动作模型,在多个基准测试中表现出色。
CYFRAGOVPL
PLLuM是专门针对波兰语及其他斯拉夫/波罗的海语言的大型语言模型家族,同时融入英语数据实现更广泛泛化。基于高质量文本语料库构建,通过指令调整、偏好学习和先进对齐技术优化,旨在生成上下文连贯的文本,为各种任务提供帮助。
smp-test-models
PSPNet是一种用于语义分割的深度学习模型,采用金字塔池化模块捕获多尺度上下文信息
Saxo
基于Meta Llama-3.1-8B-Instruct微调的韩语语言模型,通过韩中英语日交叉学习数据和逻辑数据训练,支持多语言交叉增强处理、复杂韩语逻辑问题解决,在客户评论分析、社交帖子高维分析和编码方面能力强化,支持128k上下文窗口和工具调用。
MoltBrain是一个为OpenClaw、MoltBook和Claude Code设计的长期记忆层插件,能够自动学习和回忆项目上下文,提供智能搜索、观察记录、分析统计和持久化存储功能。
LYRAIOS是一个基于模型上下文协议(MCP)的多AI代理操作系统,旨在通过连接金融网络和区块链公链扩展AI应用功能,提供区块链操作、金融科技分析和教育学习等服务。
线性回归MCP项目展示了使用Claude和模型上下文协议(MCP)的端到端机器学习工作流程,包括数据预处理、模型训练和评估。
MCP-KG-Memory是一个基于知识图谱的长期记忆层MCP服务器,旨在解决AI编程助手的上下文遗忘问题。它通过Neo4j持久化存储项目目标、约束、策略和用户偏好,实现语义检索和主动学习,让AI助手拥有持续的记忆和上下文感知能力。
Ebook-MCP是一个基于模型上下文协议(MCP)的电子书处理服务器,支持EPUB和PDF格式,提供智能图书管理、交互式阅读体验和学习辅助功能,实现与电子书的自然语言交互。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。
一个动态MCP服务器管理服务,用于创建、运行和管理模型上下文协议(MCP)服务器。该项目通过Python实现,能够生成六种不同类型的思维导图,适用于学习、复习和演示等多种场景。
一个交互式网页教程,用于学习如何构建MCP(模型上下文协议)服务器,提供逐步指导和实时代码示例。
该项目通过自然语言接口为MLflow提供模型上下文协议(MCP)服务,简化机器学习实验和模型的管理与查询。
这是一个基于Python的自定义MCP(模型上下文协议)服务器演示项目,旨在展示如何构建使用自定义协议进行通信的服务器,适用于学习网络编程和协议设计。
该项目是用于测试和探索模型上下文协议(MCP)服务器实现的GitHub仓库,包含多种编程语言学习、DevOps工具、游戏开发及AI相关的子项目。
Statsource MCP Server是一个提供统计分析和机器学习预测功能的模型上下文协议服务器,支持多种数据源接入和多样化统计计算。
一个用于创建模型-上下文-协议服务器的学习研究项目
DVMCP是一个教育性项目,通过故意实现易受攻击的模型上下文协议(MCP)来展示安全漏洞,包含10个难度递增的挑战,帮助学习MCP实现中的安全问题。