阿里巴巴ATH创新事业部推出新一代多模态视频生成模型HappyHorse,已开启灰度测试。该模型在Arena.ai三大核心榜单(文生视频、图生视频、视频编辑)中表现优异,具备影视级画质与深度语义理解能力,支持1080P超高清输出,能精准驾驭港式风情、古装等多种视觉风格,成为全球AI视频领域的有力竞争者。
4月27日,阿里千问APP灰度测试视频模型HappyHorse,用户点击首页下方按钮即可体验。该模型在叙事能力、音画同步及风格多样性上表现突出,内测期间已生成大量TVB港风、央视三国风、老电影风短片。用户可通过Prompt一键制作同款,尤其擅长剧情类视频,仅需简单描述即可自动生成多镜头内容。
谷歌推出Gemini-TTS模型,定位为“最富表现力的文本转语音解决方案”。其核心突破在于赋予开发者对语音的精细控制能力,通过提示词可灵活调节情感、节奏和风格,告别传统TTS声音单调、缺乏表现力的局限。
小米发布自研语音合成大模型Xiaomi MiMo-V2-TTS,在可控、高表现力语音生成方面取得突破。该模型基于自研Audio Tokenizer及多码本架构,通过大规模预训练,实现从宏观风格到微观情绪的精准调节。它能在单句内完成语气转折与情感递变,高度还原人类自然韵律,支持多种语音风格。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
Alibaba
-
Bytedance
$0.8
$2
128
Tencent
Chatglm
$8
$16
Deepseek
$4
32
$0.5
224
Google
$8.75
$70
1k
Openai
$14
$56
Huawei
$1.5
$6
Xai
$21
$12
28
8
$1
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
vafipas663
基于Qwen-Image-Edit-2509的图像超分辨率LoRA模型,专门用于提升低质量图像的分辨率和视觉效果。该模型在摄影风格的图像上表现出色,能够处理多种图像退化问题。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
gghfez
本项目为 GLM-4.6 模型提供了创意写作控制向量,通过控制向量技术调节模型在特定维度上的表现,如诚实度与马基雅维利主义倾向、沟通风格等。
John6666
诺瓦动漫XL是一个基于Stable Diffusion XL架构的文本到图像生成模型,专门用于生成高质量的动漫、奇幻、风景等多种风格的图像。它融合了多个优秀基础模型的优势,在细节、角色、背景和色彩表现方面有突出表现。
DavidAU
这是一个基于Qwen3架构的6B参数大语言模型,专门针对恐怖主题进行微调,能够生成暗黑、恐怖风格的文本,同时在逻辑推理任务中表现出色。
暗影沉默是一款基于Stable Diffusion XL技术的文本到图像生成模型,专注于生成具有神秘魅力的动漫风格女性角色图像,在明暗对比处理上表现出色。
Realism Illustrious 是一个基于 Stable Diffusion XL 的文本到图像生成模型,专门针对动漫和写实风格的图像生成进行了优化。该模型在人物细节、色彩梯度和动态范围方面表现出色,能够生成高质量的视觉内容。
这是一个基于diffusers库的文本到图像生成模型,专门用于生成具有写实风格的小马图像。该模型在色彩表现、光影效果和对比度方面表现优异,能够生成高质量、逼真的小马图像。
这是一个高质量的文本到图像生成模型,专门针对动漫和可爱风格进行优化,在手部、脚部、纹理、肢体等细节处理上表现出色,具备优秀的光影效果和细节表现能力。
这是一个专注于文本到图像生成的专业模型,能够基于输入的文本描述生成逼真、富有细节的人物摄影风格图像。模型特别擅长生成高质量的人物肖像,具有出色的细节表现和照片写实效果。
PosterCraft
PosterCraft是一个用于高质量美学海报生成的统一框架,在精确文本渲染、抽象艺术无缝融合、醒目布局和风格协调方面表现出色。
allura-org
基于 GLM-4-32B-0414 的角色扮演微调版本,表现优秀,个性鲜明,风格多样,文笔优美。
ParahumanSkitter
一个基于稳定扩散XL的文本到图像生成模型,专注于生成高质量、半写实风格的女性形象,具有照片级真实感和丰富的细节表现。
HiDream-ai
HiDream-I1是一款拥有170亿参数的开源图像生成基础模型,支持多种风格的高质量图像生成,在多项基准测试中表现领先。
Shakker-Labs
卓越羽笔工坊-V15是一款风格多样化的文本生成图像模型,特别擅长卡通和动漫风格,同时支持多种艺术表现手法。
trojblue
基于腾讯混元视频基础模型微调的LoRA模型,专门用于生成动漫风格的像素艺术图像,擅长表现角色动态和像素化场景。
一个基于Stable Diffusion XL的文本到图像生成模型,专注于动漫风格,特别是女孩、手部和足部的细节表现。
一个基于稳定扩散XL的文本生成图像模型,特别擅长生成动漫风格插画,尤其是女孩形象,具有更丰富的肤色表现和更锐利的线条阴影效果。
motimalu
专为无可见线稿、纯色平涂且景深表现极简的图像训练的风格模型