AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Resemble Enhance：开源语音超分辨率AI模型

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Jan 16, 2024

Resemble Enhance是一款开源的语音超分辨率AI模型，专注于去除音频噪声、恢复失真并扩展音频带宽。适用于多领域，提供卓越听觉体验，改善录音质量，恢复老旧录音。详细信息请查阅[项目地址](https://github.com/resemble-ai/resemble-enhance)。

语音处理 AI模型开源

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

清华携手面壁智能重磅开源！首款中文APP专精GUI Agent，覆盖高德、B站、小红书

随着人工智能技术的迅猛发展，智能化交互成为移动互联网的新焦点。近日，清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI，这是全球首个针对中文APP精细优化的开源GUI（图形用户界面）Agent。该项目不仅展示了国产AI技术的硬核实力，还为安卓生态的智能化升级提供了全新可能。模型地址：https://huggingface.co/openbmb/AgentCPM-GUI技术突破:首个中文APP专精GUI AgentAgentCPM-GUI基于面壁智能的MiniCPM-V模型构建，总参数量达8B（80亿）。该模型以手机屏幕图像作为输入，能

2025年5月14号 17:55

1.7k

阶跃星辰开源 3D 大模型 Step1X-3D

Step1X-3D模型总参数量达4.8B，其中几何模块1.3B，纹理模块3.5B。凭借坚实的数据基础与先进的3D原生架构，该模型能够生成高保真、可控的3D内容。Step1X-3D不仅追求视觉上的“好看”，更注重“好用”与“可控”，旨在为3D内容创作提供强大而可靠的技术引擎。

2025年5月14号 16:15

1.4k

谷歌Gemma AI模型下载量突破1.5亿，引多模态功能热议

近日，谷歌推出的 Gemma 人工智能模型集下载量已突破1.5亿次，展示出其在 AI 领域的强大吸引力。Gemma 的多模态功能和支持超过100种语言，使其在众多竞争对手中脱颖而出，吸引了全球开发者的关注。Gemma 的成功不仅体现在下载量上，其基于 Gemma 模型衍生出的版本也已超过7万个。这一数据表明，Gemma 在开发者社区中已经建立了坚实的基础。尽管如此，Gemma 的下载量仍然落后于其他知名模型，如 Llama，其下载量已达到12亿次。这显示出在 AI 技术快速发展的今天，竞争依旧激烈。Gemma 的多模态

2025年5月14号 15:58

1.3k

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

近日，腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下，正式推出了全新研究成果 —— 统一多模态奖励模型（Unified Reward-Think），并宣布全面开源。这一创新模型不仅具备了强大的长链推理能力，还首次实现了在视觉任务中 “思考” 的能力，使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。统一多模态奖励模型的推出，标志着奖励模型在各类视觉任务中的应用达到了新的高度。过去，许多视觉任务往往面临评估不准确和推理能力不足的问题。而这一新模型的研发，

2025年5月14号 9:23

1.9k

昆仑万维推出开源Matrix-Game大模型，推动游戏世界的智能生成

近日，昆仑万维正式宣布开源其最新的 Matrix-Game 大模型，这一模型以其超过10亿参数的规模，成为了工业界首个开源的空间智能大模型，标志着交互式世界生成技术的重大突破。Matrix-Game 不仅支持知名游戏《我的世界》，还专为开放式环境中的高质量生成和精确控制而设计。Matrix-Game 大模型的核心在于其三大组成部分。首先是 “Matrix-Game-MC 数据集”，这个数据集通过自主构建，涵盖了大量的 Minecraft 游戏视频，包括无标签的大规模视频以及带有控制信号的可控视频数据，允许开发者高效建

2025年5月13号 11:19

2.9k

新一代开源视觉编码器 OpenVision 发布：超越 CLIP 与 SigLIP 的强大选择

加州大学圣克鲁兹分校近日宣布推出 OpenVision，这是一个全新的视觉编码器系列，旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为开发者和企业带来了更多灵活性和选择，使得图像处理和理解变得更加高效。什么是视觉编码器?视觉编码器是一种人工智能模型，它将视觉材料（通常是上传的静态图像）转化为可被其他非视觉模型(如大型语言模型)理解的数值数据。视觉编码器是连接图像和文本理解的重要桥梁，使得大型语言模型能够识别图像中的主题、颜色、位置

2025年5月13号 10:45

2.7k

从图像出发构建可控交互世界！昆仑万维正式开源Matrix-Game

昆仑万维集团宣布正式开源Matrix-Game大模型，这是一款专注于交互式世界生成的先进模型，标志着交互式世界生成技术的新突破。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地，也是工业界首个开源的10B+空间智能大模型

2025年5月13号 10:14

2.5k

阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用，支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务，以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到，MNN的此次更新进一步推动了多模态AI在移动端的普及。项目地址：https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md核心亮点:多模态能力全面增强新版MnnLlmApp集成

2025年5月13号 9:54

2.9k

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。模型已开放至 Hugging Face，支持离线部署，开发者可轻松本地推理，适配多样应用场景

2025年5月13号 8:55

2.7k

AI日报：DeepSeek入选2025年度十大IP；快手推出AI作图工具 Poify；字节跳动开源代码模型Seed-Coder

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、快手推出 AI 作图工具 Poify，聚焦电商市场快手最近推出了AI作图工具Poify，专注于电商领域的图像处理，旨在提高商家在产品展示方面的效率和经济性。Poify的核心功能包括文生图和图生图，特别适用于电商需求，提供AI模特试衣、背景更换等创新能力，帮助商家降低成本并提升视觉吸引力。【

2025年5月12号 16:16

6.5k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图