近日,NVIDIA正式宣布与Meta建立一项为期多年、跨世代的战略合作伙伴关系。根据双方达成的协议内容,Meta计划在其超大规模的AI数据中心内部署数百万颗NVIDIA的Blackwell GPU,以及专为智能体AI推理量身打造的下一代Rubin架构GPU,以强化其AI算力基础。
2026年除夕,阿里巴巴开源新一代大模型千问Qwen3.5-Plus,性能媲美Gemini3Pro,成为全球最强开源大模型。该模型采用底层架构革新,参数3970亿但激活仅170亿,以更小规模超越万亿参数的Qwen3-Max,部署显存占用降低60%,长上下文推理吞吐量提升19倍。API成本低至每百万Token 0.8元,仅为Gemini3Pro的1/18。此外,它实现了从纯文本到原生多模态的跃迁。
OpenAI宣布将于2026年2月13日从ChatGPT模型选择器中移除GPT-4o及其衍生模型,包括GPT-4.1、GPT-4.1mini和o4-mini。这些模型将暂时保留在API中供开发者使用,而普通用户将全面转向更先进的GPT-5系列。OpenAI解释称,这一决策基于真实使用数据,技术演进是主要原因。
字节跳动Seed团队发布新一代视频创作模型Seedance2.0,采用统一的多模态音视频联合生成架构,推动AI视频生成从“单点突破”迈向“全能协作”的工业级应用阶段。相比1.5版本,新模型在复杂交互与运动场景下的可用率显著提升,通过出色的物理还原能力,攻克了双人花滑、多人竞技等高难度动作生成难题。
Openai
$8.75
输入tokens/百万
$70
输出tokens/百万
400
上下文长度
Chatglm
$8
$16
128
Alibaba
$0.7
$1.95
16
Baidu
-
32
Huawei
Sensetime
01-ai
4
Arko007
Zenyx_114M-Tiny-Edu-Instruct 是一个实验性的小型指令微调语言模型,拥有约1.14亿参数。它基于TinyEdu-50M基础模型构建,在FineWeb-Edu数据集上预训练,并在OpenHermes-2.5和CodeFeedback-Filtered混合数据集上进行了指令微调。该模型旨在探索极小架构下指令微调的极限,验证损失收敛至约1.04。
OpenOranje
TweeTaal-nl-en-0.6B 是一个专门针对荷兰语-英语双向翻译任务进行微调的语言模型,基于Qwen3-0.6B架构开发。该模型在资源受限环境下仍能提供准确流畅的翻译服务,支持荷兰语与英语之间的互译。
ai-sage
GigaChat3-10B-A1.8B是GigaChat系列的对话模型,基于混合专家(MoE)架构,共有100亿参数,其中18亿为活跃参数。该模型采用多头潜在注意力和多令牌预测技术,支持25.6万令牌的长上下文,在多语言对话和推理任务中表现出色。
Maxlegrec
BT4模型是LeelaChessZero引擎背后的神经网络模型,专门用于国际象棋对弈。该模型基于Transformer架构设计,能够根据历史走法预测最佳下一步走法、评估棋局形势并生成走法概率。
noctrex
本项目是卡纳娜1.5-15.7B-A3B指令模型的MXFP4_MOE量化版本,可在特定场景下提升模型的运行效率。该模型基于kakaocorp/kanana-1.5-15.7b-a3b-instruct进行优化,采用混合专家架构和MXFP4量化技术。
labhamlet
WavJEPA是基于波形的联合嵌入预测架构的音频基础模型,利用高级语义表示学习解决语音单元或标记级表示学习的不足。在众多下游基准任务中显著优于最先进的时域音频基础模型,同时所需计算资源大幅减少。
bartowski
Apollo-V0.1-4B-Thinking是基于4B参数的大语言模型,采用思维链推理架构,专门针对推理任务优化。该模型提供了多种量化版本,可在不同硬件环境下高效运行。
Qwen
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
unsloth
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
electron271
这是准确性领域的最新前沿模型,致力于实现人工谷物智能,在全球顶尖谷物种植团队的助力下取得了重大进展。该模型基于Qwen3-0.6B架构,利用RX 9070 XT显卡和unsloth工具在本地进行全量微调。
本项目提供了慧慧Qwen3-VL-30B-A3B-Instruct模型的量化版本,旨在提升模型在特定场景下的性能与效率。这是一个基于Qwen3-VL架构的视觉语言模型,支持图像和文本的多模态交互。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本采用增强推理的思维架构,支持从边缘到云的密集架构和混合专家模型架构。
ubergarm2
这是inclusionAI/Ling-1T模型的量化版本集合,基于ik_llama.cpp分支开发,提供多种量化方案以适应不同的内存和性能需求。这些量化模型在给定的内存占用下提供出色的困惑度表现,特别优化了MoE架构的推理效率。
ByteDance-Seed
人工海马网络(AHN)是一种创新的长上下文建模方法,通过将无损记忆转换为固定大小的压缩表示,结合了无损记忆的精确性和压缩记忆的高效性。该模型能够有效处理长序列,计算成本固定,适用于各种类似RNN的架构。
AHN是一种用于高效长上下文建模的创新神经网络架构,通过将无损内存转换为固定大小的压缩表示,结合了Transformer和RNN的优势,在长序列处理中实现高效计算和准确预测。
mlx-community
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本采用混合专家模型架构,支持增强推理思维功能。
vilhess
PatchFM是一个基于Transformer架构的单变量时间序列预测基础模型,采用逐块预测方法,借鉴大语言模型的训练思想,将时间序列分割为块进行下一块预测,支持多分位数输出和不确定性估计。
Auto Causal Inference是一个利用大型语言模型(LLM)自动进行因果推断的项目,用户只需指定处理变量和结果变量,系统就能自动完成变量角色识别、因果图构建、效应估计和模型验证等全流程分析。项目提供两种代理架构(LangGraph和MCP)来实现这一功能,特别适用于银行场景下的因果问题分析。
MockLoop MCP是全球首个AI原生的API测试平台,集成了Model Context Protocol (MCP),通过AI驱动的场景生成、自动化测试执行和智能分析能力,彻底改变了API测试方式。该平台提供5种AI提示、15种场景资源、16种测试工具和10种上下文工具,支持双端口架构和状态化测试工作流,适用于企业级合规和高级分析需求。
Brainrot MCP是一个解决AI编程会话中上下文丢失问题的模型上下文协议服务器,通过存储项目决策、待办事项和架构模式,实现跨会话的持久化记忆和智能检索。