华为成立“基础大模型部”,强化AI底层技术布局,加大通用AI与基础算法投入,以应对未来技术竞争。同时,华为在阿联酋团队面向全球招募AI人才,特别青睐具备卓越学术背景、创新能力及原创性科研成果的青年科研人才。
京东云JoyBuilder平台升级,成功支撑GR00T N1.5模型完成千卡级训练,成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台。训练效率较开源社区版本提升3.5倍,通过软硬件深度调优和算法突破,大幅提升训练效率与稳定性,显著缩短训练时间。
瞳行科技推出国内首款AI助盲眼镜,集成阿里通义千问大模型,为视障人士提供实时出行辅助。产品由眼镜、手机、遥控指环和盲杖协同工作,通过双摄像头实现300毫秒低延迟路况播报,支持识别公交牌、路标及环境概述。技术总监陈刚表示,大模型压缩70%研发成本,加速算法落地。眼镜还具备本地文本识别功能。
第二十一届羊业发展大会上,苏武智慧养羊大模型V1.0发布。该模型由西北农林科技大学陈玉林团队基于Qwen3架构自主研发,是全国首个覆盖羊产业全品类、全链条的垂直大模型,在自主可控平台上训练,采用创新算法架构实现技术突破。
一站式大模型算法、模型及优化工具开源项目
深度学习算法与大模型面试指南,持续更新的面试题目集合。
人类级奖励设计算法,通过编码大型语言模型实现
全球数学解题和讲题算法大模型
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
Mungert
MiniCPM4.1-8B GGUF是专为端侧设备设计的高效大语言模型,在模型架构、训练数据、训练算法和推理系统四个关键维度进行了系统创新,实现了极致的效率提升。支持65,536个标记的上下文长度和混合推理模式。
MiniCPM4-8B是专为端侧设备设计的高效大语言模型,通过模型架构、训练数据、训练算法和推理系统四个维度的创新,实现了极致的效率提升。
openbmb
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个关键维度实现极致的效率提升。
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个维度实现极致效率提升,在端侧芯片上可实现超5倍的生成加速。
Intel
这是一个基于DeepSeek-R1-0528-Qwen3-8B模型,使用Intel的AutoRound算法进行INT4量化的开源大语言模型。该模型在保持较高性能的同时,显著降低了模型大小和推理资源需求,适用于在CPU、Intel GPU或CUDA等设备上进行高效推理。
SVECTOR-CORPORATION
Spec-T1-RL-7B 是一款专注于数学推理、算法问题解决和代码生成的高精度大语言模型,在技术基准测试中表现卓越。
RedHatAI
Qwen3-4B-quantized.w4a16是基于Qwen3-4B模型通过GPTQ算法进行INT4权重量化的高效版本,显著减少了磁盘大小和GPU内存需求约75%,同时保持接近原始模型的性能表现。
BytedTsinghua-SIA
基于Qwen2.5-32B模型使用DAPO算法训练的大语言模型,专注于数学问题解决和多语言文本生成
Video-R1
Video-R1是基于Qwen2.5-7B-Instruct开发的多模态大语言模型,专门针对视频推理任务进行优化。通过提出T-GRPO算法和构建高质量视频推理数据集,显著提升了模型在时间建模和视频理解方面的能力。
ISTA-DASLab
本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本,通过GPTQ算法将权重从16位降至4位,显著减少磁盘大小和GPU内存需求。
HuggingFaceH4
Zephyr 141B-A39B是基于Mixtral-8x22B-v0.1微调的大型语言模型,采用ORPO对齐算法训练,旨在成为有用的助手。
alchemonaut
QuartetAnemoi-70B-t0.0001是一个70B参数的大语言模型,通过自定义NearSwap算法合并了多个优秀模型,擅长故事讲述且避免使用陈词滥调。
BoreanGale-70B 是一个使用自定义算法(NearSwap)合并的70B参数大语言模型,由miqu-1-70b-sf和WinterGoddess-1.4x-70B-L2两个模型合并而成。
Unsloth MCP Server是一个用于高效微调大语言模型的服务器,通过优化算法和4位量化技术,实现2倍训练速度提升和80%显存节省,支持多种主流模型。
PentestThinkingMCP是一个基于大型语言模型和MCP协议的自动化渗透测试框架,能够通过Beam Search和MCTS算法规划攻击路径,为CTF、HTB及真实渗透测试提供步骤推理、工具推荐和关键路径分析。