苹果Safari首席设计师Marco Triverio加入The Browser Company,引发业界关注。他在苹果期间主导了iOS和macOS版Safari的设计,对隐私控制、标签页和导航等核心功能贡献显著。此次人才流动被视为苹果设计团队的又一损失。
谷歌Gemini 3 Pro以1501 Elo创LMArena历史新高,超越GPT-5.1等模型,成多模态模型榜首。在科学、数学及视频任务中表现卓越,如“人类终极考试”达37.5%,GPQA Diamond 91.9%。Deep Think模式进一步提升推理能力,通用智能测试ARC-AGI-2得分45.1%。
AI浏览器Dia继承Arc浏览器标志性侧边栏等核心功能,深度融合AI记忆与代理能力,从Arc的激进实验中汲取经验,由The Browser Company创始人确认开发,旨在实现更强大的浏览器革新。
巨人网络与清华大学联合发布多方言语音合成大模型DiaMoE-TTS,实现技术突破并全面开源数据代码。该框架旨在解决方言TTS依赖海量专有数据的行业难题,推动方言语音合成的公平普惠发展。
AI 驱动的图表生成器,快速将想法转化为清晰的图表和信息图。
AI驱动,秒速生成专业软件架构、UML和流程图,无需拖拽
DialLink是一个易于使用的云电话系统,为中小型企业和初创企业提供AI语音代理功能,自动化电话以提高客户满意度和推动增长。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Minimax
Stepfun
Chatglm
Sachin-0001
这是一个基于🤗 Transformers库的双向自回归Transformer模型,已上传至模型中心。模型卡片由系统自动生成,具体技术细节和应用信息需要进一步补充。
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
mradermacher
这是基于diabolic6045/Sanskrit-qwen-7B-Translate-v2的量化版本,专门用于梵语翻译和转写任务。提供多种量化类型,支持英语到梵语的翻译和转写,包括IAST和天城文两种格式。
calcuis
基于nari-labs/Dia-1.6B的文本转语音模型,支持GGUF量化格式,可通过gguf-connector工具运行。
Lorenzob
Aurora-1.6B是基于Dia-1.6B微调的多语言情感与歌唱语音合成模型,支持多种语言和情感控制,具备零样本音色克隆能力。
mmwillet2
Dia 1.6B 是一个适用于文本转语音任务的模型,支持多种量化版本,兼容TTS.cpp框架。
基于Dia-1.6B微调的多语种情感与歌唱语音合成模型,支持音色克隆和情感控制
Alissonerdx
基于Dia 1.6B文本转音频模型的微调版本,专门针对巴西葡萄牙语进行优化
RobAgrees
Dia是一款16亿参数的开源文本转语音模型,支持生成高度逼真的对话和非语言表达
mlx-community
Dia是一款开源权重的文本转对话模型,支持对话文本生成和语音合成。
Dia-1.6B-6bit 是一个基于 Dia-1.6B 的 6 位量化版本,专为 MLX 框架优化的文本转语音模型。
Dia-1.6B-3bit 是一个基于 mlx-community/Dia-1.6B 转换的 3 位量化模型,主要用于文本转语音任务。
Dia-1.6B-4bit 是一个基于 MLX 格式的 4 位量化文本转语音模型,由 nari-labs/Dia-1.6B 转换而来。
thepushkarp
Dia 是由 Nari Labs 开发的 16 亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调调节以及非语言表达生成。
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
Diamantis99
基于PyTorch的Unet图像分割模型,支持多种编码器架构和预训练权重
基于PyTorch的语义分割模型,支持多种编码器架构,适用于图像分割任务。
基于PyTorch的Unet图像分割模型,支持多种编码器架构,适用于语义分割任务。
一个将Mermaid图表转换为PNG图像的MCP服务器,支持多种主题和背景色定制。
一个为Google Dialogflow CX设计的MCP服务器实现,提供AI助手与Dialogflow CX之间的无缝集成。
Dialog是一个AI驱动的Reddit智能研究平台,通过语义搜索和批量处理功能,帮助用户进行市场研究、竞争分析和客户发现,无需Reddit API凭证即可访问2万多个活跃社区。
UML-MCP Server是一个基于MCP协议的UML图表生成工具,支持通过自然语言或PlantUML代码生成多种类型的UML图,并集成到支持MCP的客户端中。