稀宇科技发布新一代大语言模型MiniMax M3,具备顶尖编程能力、100万超长上下文窗口及原生多模态交互,成为国内首个集齐这三项技术指标的模型,也是全球唯一具备此性能的开源模型,在多项权威评测中表现亮眼。
稀宇科技发布新一代大模型MiniMax M3,具备前沿编程能力、1M超长上下文及原生多模态能力(支持图片、视频输入和电脑桌面操作),成为国内首个集齐这三项核心能力的开源模型。在权威编程评测集SWE-Bench中,多项数据领先。
歌手胡彦斌昨日宣布其独立开发的粉丝社区App“彦火”正式上线,支持iOS和Android平台。该应用主打每日打卡等粉丝互动功能,体现了“Vibe Coding”这一由大模型驱动的新型编程范式,正降低技术门槛,加速渗透至泛娱乐和独立开发领域。
MiniMax稀宇科技于2026年6月1日发布新一代前沿大模型M3,这是国内首个集成顶尖编程、1M超长上下文及原生多模态能力的开源模型,对标海外闭源旗舰。针对复杂智能体任务的上下文扩展瓶颈,M3自主研发稀疏注意力架构(MSA),实现更精确的KV分块与算子层优化,计算速度较同类开源方案提升4倍以上,在1M上下文下每Token计算量显著降低。
基于仓颉编程语言构建的 LLM Agent 开发框架。
Mercury Coder 是一款基于扩散模型的高性能代码生成语言模型。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
探索大型语言模型作为编程辅导工具的潜力,提出Trace-and-Verify工作流。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
noctrex
本项目是对Qwen3-Coder-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果,将上下文大小从256k扩展到1M,为代码生成和编程任务提供了更优化的模型版本,具有提升性能和节省资源的价值。
JetBrains
Mellum-4b-dpo-all是JetBrains开发的专为代码生成和理解设计的40亿参数大语言模型。经过预训练、SFT和直接偏好优化(DPO)三阶段训练,能够生成高质量、可读性强的代码,支持多种编程语言。
facebook
MobileLLM-R1是Meta发布的高效推理模型系列,包含140M、360M和950M三种规模。该模型专门针对数学、编程和科学问题进行优化,在参数规模较小的情况下实现了与大规模模型相当甚至更优的性能。
emissary-ai
Code Llama是由Meta开发的700亿参数大型语言模型,专门针对Python编程语言进行了优化。该模型基于优化的Transformer架构,支持代码合成和理解任务,最多可处理16k个标记的上下文长度。
tensorblock
这是Qwen3-Coder-30B-A3B-Instruct模型的GGUF量化版本,由TensorBlock提供。该模型是一个300亿参数的大语言模型,专门针对代码生成和编程任务进行优化,支持多种编程语言和开发场景。
mlx-community
基于Qwen/Qwen3-Coder-30B-A3B-Instruct转换的MLX格式8位量化版本,专门用于代码生成和编程任务的30B参数大语言模型
Gallardo994
这是Qwen3-Coder-30B-A3B-Instruct模型的MLX格式转换版本,专门针对Apple Silicon芯片优化,是一个300亿参数的大型代码生成模型,支持多种编程语言的代码生成和理解任务。
QuantTrio
基于Qwen3技术的量化修复大语言模型,专为高效代码生成和编程任务设计。该模型采用AWQ量化技术,在保持高性能的同时显著降低计算资源需求,支持多GPU环境下的快速部署和推理。
quantized4all
OpenCodeReasoning-Nemotron-1.1-7B是基于Qwen2.5-7B-Instruct开发的70亿参数大型语言模型,专门针对代码生成和推理任务进行后训练优化。该模型支持64k标记的上下文长度,在竞争性编程任务中表现出色,在LiveCodeBench评估中达到55.5%的一次通过率。
bartowski
一个多语言、多用途的大型语言模型,支持多种专业领域和通用任务,适用于角色扮演、故事创作、编程等多种场景。
PKU-DS-LAB
FairyR1-32B是一款高效的大型语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过优化的蒸馏与合并流程,在数学和编程任务上表现优异。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
unsloth
KernelLLM是一款基于Llama 3.1 Instruct专门训练的大语言模型,专注于使用Triton编写GPU内核。它能够将PyTorch模块高效转换为Triton内核,使GPU编程更加普及和高效。
Mungert
OpenCodeReasoning-Nemotron-7B是基于Qwen2.5-7B-Instruct专门为代码生成推理而训练的大语言模型,支持32K token上下文长度,适用于商业和非商业用途。该模型在OpenCodeReasoning数据集上进行后续训练,专注于编程问题的推理和代码生成。
lmstudio-community
Qwen3-32B是由Qwen团队开发的大语言模型,支持131,072 tokens的上下文长度,具备强大的数学、编程和常识推理能力。
JetBrains首个专为代码相关任务优化的开源大语言模型,支持8192token上下文窗口,覆盖多种编程语言
Kanana 1.5是Kakao公司开发的双语大语言模型,支持英文和韩文,在编程、数学和函数调用能力方面有显著提升,原生支持32K tokens上下文长度
TIGER-Lab
General-Reasoner是一种大语言模型训练范式,旨在全面增强模型在不同领域的推理能力,涵盖数学、编程、物理、化学、金融、人文等多个领域。该模型基于Qwen2.5-14B训练,通过多样化推理数据和基于模型的验证器提升跨领域推理性能。
notbadai
专注于数学推理和Python编程训练的24B参数大语言模型,基于Mistral架构优化
Refact-1.6B 是一个专注于代码生成的1.6B参数规模的大语言模型,在多种编程语言上表现优异。
Sandbox Fusion MCP服务器是一个为大型语言模型提供代码解释器功能的实现,支持多种编程语言的代码执行和Jupyter笔记本操作,通过stdio交互与客户端通信。
40ants-lisp-dev-mcp 是一个为大型语言模型(LLM)提供与运行中的Lisp镜像交互工具的MCP服务器。它支持通过stdio或HTTP流模式运行,允许LLM调用Lisp函数、获取文档、评估代码等,便于在Lisp开发环境中进行AI辅助编程。
该项目是一个Model Context Protocol (MCP)适配器,用于连接大型语言模型(LLM)与Lisp开发环境,支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持,适用于AI辅助符号编程、CAD设计自动化等场景。
RLM Tools是一个MCP服务器工具,为AI编程代理提供持久化沙箱环境,允许在服务器端探索和分析代码,仅将结论返回给模型,大幅减少上下文窗口占用和成本。
Code Index MCP是一个模型上下文协议服务器,帮助大语言模型索引、搜索和分析项目目录中的代码,支持多种编程语言和持久化存储。
VectorCode是一个代码仓库索引工具,旨在通过索引和提供代码仓库信息来优化编程大语言模型(LLM)的提示构建。它支持多种嵌入引擎,提供命令行工具和Neovim插件,帮助开发者更高效地利用项目上下文提升模型输出质量。