快手Kling AI 2.6版本发布,首次集成音频生成功能,支持中英双语对白、歌唱与音效,实现文本、视频、音频一键同步生成。技术采用扩散变换器与3D时空联合注意力架构,提升复杂指令遵守率15%,并增强跨镜头角色一致性。视频输出保持10秒1080P高清,生成成本降低30%。
阿里千问在多项国际考试中表现优异,包括SAT高分1580,同时升级APP功能,新增“拍题答疑”和“作业批改”,为学生提供专业学习支持。
Sora2 开放后下载量飙升,但用户留存率极低,体验不佳且成本高昂。视频生成合格率仅5%-10%,用户需多次尝试才能获得可用素材,渲染等待和失败率高。OpenAI 每日需支付约1500万美元算力费用,年成本近55亿美元,付费用户难以覆盖巨额开销,商业模式面临挑战。
阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖,论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制,在标准注意力后添加可学习门控,动态筛选关键头和token参与下游计算。实验证明,1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇,录取率仅25%,竞争激烈,该论文是四篇获奖作品中唯一中国成果。
专为创新者、创作者、创始人和实干家设计的新型专业网络。
提供超过5000本书籍的摘要和分析,适合快速阅读。
优化设计过程的AI反馈,预测热图和清晰度评分,节省每周15-20小时。
一站式商业套件,集成15+工具。
Bigcode
$2
输入tokens/百万
-
输出tokens/百万
8
上下文长度
prithivMLmods
VibeThinker-1.5B是微博AI推出的15亿参数密集语言模型,基于Qwen2.5-Math-1.5B微调,专门针对数学和算法编码问题设计。采用'频谱到信号原理'框架训练,在多个数学竞赛测试中超越规模更大的模型,训练成本约7800美元,支持最长约40k词元的输出。
mlx-community
VibeThinker-1.5B的4位量化版本,基于MLX框架针对苹果芯片优化,是一个拥有15亿参数的密集语言模型,专门用于数学推理和算法编码问题
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款拥有150亿参数的混合推理模型,结合了Transformer注意力机制和Mamba状态空间层,在推理、数学和编码等方面表现出色,具备高效性和可扩展性。
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
unsloth
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,提供70亿和80亿两种参数规模。该模型支持超过1000种语言,使用完全合规且开放的训练数据,性能可与闭源模型相媲美。Apertus在15T标记上进行预训练,采用分阶段课程训练方法,支持长达65,536个标记的上下文长度。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
Apriel-1.5-15B-Thinker是一个专为图像理解与推理设计的150亿参数多模态模型,采用中期训练方法而非RLHF训练。本版本为适用于苹果芯片的MLX量化版本,具有内存占用小、启动速度快的特点。
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模态推理模型,具有150亿参数,能够在文本和图像推理任务上与规模大10倍的模型竞争。该模型通过中期训练方案实现了卓越的推理能力,无需图像SFT训练或强化学习即可达到SOTA性能。
yonigozlan
EdgeTAM是SAM 2的轻量化变体,专为设备端视频分割和跟踪而设计。它比SAM 2快22倍,在iPhone 15 Pro Max上可达16 FPS,支持实时视频对象分割和跨帧跟踪。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
Apriel-1.5-15b-Thinker是ServiceNow开发的多模态推理模型,拥有150亿参数,在文本和图像推理任务上表现出色,性能可与比其大10倍的模型竞争。
ibm-granite
Granite-4.0-Micro-Base是IBM开发的仅解码器长上下文语言模型,基于约15万亿标记从头训练,采用四阶段训练策略。该模型专为各类文本生成任务设计,支持多语言和填空式代码补全功能。
olegshulyakov
Qwen2.5-Coder-1.5B是一款基于Qwen系列基础模型开发的代码生成专用模型,拥有15亿参数,专注于代码相关的文本生成任务。该模型经过GGUF量化处理,支持多种部署方式,为开发者提供高效的代码生成解决方案。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
NetoAISolutions
TSLAM-15B是由NetoAI Solutions开发的150亿参数电信专用语言模型,基于混合专家架构,针对电信领域专业知识、高级推理和面向行动的工作流程进行了优化。
jinaai
Jina Code Embeddings 是一款专为代码检索设计的嵌入模型,基于Qwen2.5-Coder-0.5B构建,支持15种以上编程语言,适用于文本到代码、代码到代码、代码到文本、代码到补全等多种代码检索任务以及技术问答。
DavidAU
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
PaddlePaddle
基于PP-OCRv4_server_rec增强的文档文本识别模型,支持超过15000个字符,包括繁体字、日文字符和特殊符号。
nvidia
一款15亿参数的开源权重模型,专为复杂推理任务设计,在数学、编码、科学及逻辑谜题等领域表现卓越。
Cocos Creator MCP Server Plugin 是一个为Cocos Creator 3.8+设计的全面MCP服务器插件,通过标准化协议实现AI助手与编辑器的交互,提供一键安装和151种工具支持,覆盖98%的编辑器控制功能。
一个基于TypeScript的MCP服务器,提供AntV图表生成能力,支持15+种图表类型
Python Alfresco MCP Server是一个基于FastMCP 2.0框架构建的Alfresco内容服务模型上下文协议服务器,提供全文搜索、文档管理、元数据操作等15种工具,支持STDIO/HTTP/SSE多种传输协议,适用于Alfresco社区版和企业版。
MockLoop MCP是全球首个AI原生的API测试平台,集成了Model Context Protocol (MCP),通过AI驱动的场景生成、自动化测试执行和智能分析能力,彻底改变了API测试方式。该平台提供5种AI提示、15种场景资源、16种测试工具和10种上下文工具,支持双端口架构和状态化测试工作流,适用于企业级合规和高级分析需求。
Loaded Vibes是一个企业级Agentic TypeScript Web开发框架,提供包含Next.js 15、React 19、GenAIScript编排器、MCP服务等技术的全栈开发环境与工具链,支持通过18个标准化开发周期进行规范化的项目构建与管理。
Feather Code MCP Server是一个为Claude Desktop设计的GitHub集成工具,通过Model Context Protocol(MCP)提供15种GitHub功能工具,支持自动仓库检测、多种认证方式和零配置使用。