欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。8、NVIDIA发布开源大模型Nemotron3Super:性能直逼GPT-5.4NVIDIA发布了专为AI智能体设计的开源大模型Nemotron3Super,凭借卓越的推理效率和任务成功率迅速成为开源社区焦点。该模型采用创新的Mamba-MoE混合架构,支持超长上下文,性能表现接近闭源大模型,同时适配最新硬件平台并被多家科技巨头集成。
英伟达发布新一代开源大模型Nemotron 3 Super,专为AI智能体设计。该模型采用创新的Mamba-MoE混合架构,参数总量1200亿,激活参数仅120亿,推理效率大幅提升,速度暴增300%,同时保持卓越任务成功率,成为开源社区焦点。
Hume AI开源TADA语音生成模型,采用文本-声学双对齐架构,显著提升TTS系统效率与可靠性。通过实现文本token与声学表示1:1严格同步,有效解决了传统LLM-based TTS中的内容幻觉问题。经超千个样本测试验证,模型表现优异。
腾讯推出SkillHub AI技能社区,专为中国开发者设计,旨在解决使用OpenClaw等开源AI框架时的下载延迟、技能筛选和语言障碍问题,提供本土化解决方案,深化其在AI自主执行领域的布局。
NVIDIA开源企业级AI代理平台,保障安全隐私,支持任务自动化与定制。
开源自主AI代理,有持久记忆和自动创建技能,多平台可用,40+工具
基于AgentScope的开源个人AI助理工作站,支持多渠道和本地大模型运行。
轻量、跨平台、极速的工具,支持多平台架构下载。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
prithivMLmods
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
open-thoughts
OpenThinker-Agent-v1 是一个基于 Qwen3-8B 进行后续训练的开源智能体模型,专为终端操作和软件工程任务而设计。它首先在高质量监督微调数据集上进行训练,然后通过强化学习进一步优化,在 Terminal-Bench 2.0 和 SWE-Bench 等智能体基准测试中表现出色。
meituan-longcat
长猫图像编辑是长猫图像(Longcat-Image)的图像编辑版本,是一个支持中英双语的开源图像编辑模型。它在指令遵循、图像质量和视觉一致性方面达到了开源模型的先进水平,具备出色的精准编辑能力和一致性保留能力。
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
Olmo-3-Think是艾伦人工智能研究所推出的完全开源的语言模型系列,包含7B和32B两种规模。该模型经过专门训练,能够展现明确的推理链,支持透明的逐步推理和可检查的中间思维痕迹,在推理、数学和代码任务中表现出色。
vanta-research
Atom-Olmo3-7B是基于Olmo-3-7B-Instruct微调的语言模型,专门为协作式问题解决和创造性探索而设计。该模型在处理复杂问题时能提供深思熟虑且结构化的分析,同时保持引人入胜的对话风格,具有Apache 2.0开源许可证。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
allenai
Olmo 3是由Allen Institute for AI开发的开源语言模型系列,包含7B和32B两种规格,分为指令(Instruct)和思考(Think)两种变体。该模型具有出色的长链思维能力,能够显著提升数学和编码等推理任务的表现。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Olmo 3是Allen Institute for AI (Ai2)开发的全新32B参数语言模型家族,包含Base、Instruct和Think等变体。该模型基于Dolma 3数据集训练,支持65,536的长上下文处理,旨在推动语言模型科学发展。模型完全开源,遵循Apache 2.0许可证。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
JanusCoder-14B 是基于 Qwen3-14B 构建的 14B 参数开源基础模型,旨在为代码智能建立统一的视觉编程接口。该模型在 JANUSCODE-800K 多模态代码语料库上训练,能够统一处理各种视觉编程任务。
JanusCoder-8B是基于Qwen3-8B构建的开源代码智能基础模型,旨在建立统一的视觉编程接口。该模型在JANUSCODE-800K(迄今为止最大的多模态代码语料库)上训练,能够处理各种视觉编程任务,包括数据可视化、交互式Web UI和代码驱动动画等。
OpenMOSS-Team
MOSS-TTSD是一个开源的双语口语对话合成模型,支持中文和英文,能够将两人对话脚本转化为自然、富有表现力的对话语音,支持语音克隆且单轮语音生成时长最长可达1700秒。
Klavis AI是一个开源项目,提供在Slack、Discord和Web平台上简单易用的MCP(模型上下文协议)服务,包括报告生成、YouTube工具、文档转换等多种功能,支持非技术用户和开发者使用AI工作流。
Container Use是一个开源工具,为编码代理提供容器化隔离环境,支持多代理并行开发且互不干扰。
Aderyn是一个开源的Solidity智能合约静态分析工具,由Rust编写,帮助开发者和安全研究人员发现Solidity代码中的漏洞。它支持Foundry和Hardhat项目,可生成多种格式报告,并提供VSCode扩展。
MCP Toolbox for Databases是一个开源数据库MCP服务器,专注于企业级和生产质量,简化工具开发,提供连接池、认证等复杂功能。
Airweave是一个开源的人工智能代理和RAG系统的上下文检索层,它连接并同步各种应用程序、工具和数据库的数据,通过统一的搜索接口为AI代理提供相关、实时、多源的上下文信息。
Supabase MCP服务器是一个开源工具,允许IDE安全执行SQL、管理模式变更、调用Supabase管理API和使用Auth Admin SDK,内置安全控制。
Refact Agent 是一个开源AI编程助手,支持多语言代码生成、调试和优化,集成主流开发工具,可本地化部署并提供智能补全和代码解释功能。
Solana Agent Kit是一个开源工具包,用于将AI代理连接到Solana协议,支持60多种区块链操作。
Genkit是一个用于构建AI驱动应用的开源框架,提供Node.js和Go库,支持多种AI模型和向量数据库集成,包含开发工具和插件生态系统。
Cipher是一个专为编程AI代理设计的开源记忆层框架,通过MCP协议与各种IDE和AI编码助手集成,提供自动记忆生成、团队记忆共享和双系统记忆管理等核心功能。
Cognee是一个为AI代理提供记忆功能的开源项目,通过模块化ECL管道构建动态知识图谱,支持多种数据源和格式,减少幻觉并降低成本。
Inbox Zero是一款开源AI邮件助手和客户端,帮助用户高效管理邮件,实现收件箱清零。
assistant-ui是一个开源TypeScript/React库,用于快速构建生产级AI聊天界面,提供可组合的UI组件、流式响应、无障碍访问等功能,支持多种AI后端和模型。
Netdata是一个开源实时基础设施监控平台,提供每秒级指标收集、可视化、机器学习驱动的异常检测和自动化告警,无需复杂配置即可实现全栈监控。
Opik是一个开源的LLM评估框架,支持追踪、评估和监控LLM应用,帮助开发者构建更高效、更经济的LLM系统。
Serena是一个强大的开源编码代理工具包,能够将LLM转化为可直接在代码库上工作的全功能代理。它提供类似IDE的语义代码检索和编辑工具,支持多种编程语言,并可通过MCP协议或Agno框架与多种LLM集成。
OpenDia是一款开源浏览器扩展工具,允许AI模型直接控制用户浏览器,利用现有登录状态、书签等数据进行自动化操作,支持多种浏览器和AI模型,注重隐私保护。
Notte是一个开源的全栈网络AI代理框架,提供浏览器会话、自动化LLM驱动的代理、网页观察与操作、凭证管理等功能,旨在将互联网转化为代理友好的环境,并通过自然语言描述网站结构,降低LLM的认知负担。
Klavis AI是一个开源项目,提供在Slack、Discord和网页上使用的多功能计算平台(MCP),支持非技术用户轻松配置AI工作流,开发者可扩展构建。
MCP LLMS-TXT文档服务器是一个开源工具,允许开发者通过MCP协议控制IDE和应用程序访问llms.txt文档资源。