字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
美团LongCat团队开源视频生成模型LongCat-Video-Avatar,推动虚拟人技术发展。该模型在长视频生成领域表现突出,基于LongCat-Video升级,支持音频文本转视频、音频文本图像转视频及视频续写等多任务功能,受到开发者广泛关注。
字节跳动发布新一代音视频创作模型Seedance1.5pro,支持文本或图像引导生成音视频内容,在视觉冲击力和运动效果上实现技术升级,为用户带来更丰富的视听体验。
阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
先进AI视频生成器,多模型支持,可实现文本、图像转专业视频。
从文本或照片生成高质量AI图像和视频,支持4K输出与多模型
基于Flux AI模型,可实现文本生成图像和图像编辑转换
GPTunneL提供多模型AI服务,可生成文本、图像等,支持多方式支付。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
bartowski
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
本项目提供了一个基于微软Phi-3.5-mini-instruct模型进行微调的文本生成模型,已转换为GGUF格式,适用于llama.cpp推理框架。模型在philschmid/guanaco-sharegpt-style数据集上进行了微调,优化了指令遵循和对话能力,适用于资源受限环境下的高效文本生成任务。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
这是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定数据集进行量化处理。该模型基于Llama-3架构,提供多种量化类型选择,支持文本生成任务,适用于推理、对话等多种应用场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
gia-uh
塞西莉亚FT MS v1是基于塞西莉亚2B v0.1微调的古巴语言模型,专门针对古巴西班牙语进行优化,捕捉古巴语言、文化和社会的细微差别。该模型支持西班牙语和英语,主要用于文本生成任务。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
DreadPoor
Strawberry_Smoothie-TEST 是一个使用 mergekit 工具合并三个12B参数模型得到的混合模型,结合了Unity-12B、Chaos-Unknown-12b和Smoothie-12B-Model_Stock的优势,旨在提供更好的文本生成和对话能力
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
Loom是一个MCP服务器,支持用户与基础模型协作构建文本,通过短片段迭代生成和选择来优化长文本创作质量。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,专注于将AI生成的内容优化为更自然、更人性化的文本。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
LMStudio-MCP是一个模型控制协议服务器,用于在Claude与本地运行的LM Studio LLM模型之间建立通信桥梁,实现模型健康检查、列表获取及文本生成功能。
一个基于Google Gemini模型的MCP服务器,提供文本生成图像和图像转换功能,支持高质量图像生成、智能文件名生成和本地存储。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
一个基于TypeScript的MCP服务器,使用OPENAI的dall-e-3模型根据文本提示生成图像,并支持将生成的图像保存到本地指定目录。
一个基于OpenAI GPT-4o/gpt-image-1模型的图像生成与编辑工具,支持通过文本提示生成图像、编辑图像(如修复、扩展、合成等),并兼容多种MCP客户端。
Image Generation MCP Server是一个为Claude Desktop提供图像生成功能的MCP服务器,使用Replicate Flux模型,支持通过文本提示生成图像,并可通过Smithery或npm安装配置。
基于Gemini模型的文本到图像生成MCP服务器
一个基于Go语言的MCP服务器,通过OpenAI的DALL-E API实现文本描述生成图像功能,可与Claude等大型语言模型集成使用。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,能够将AI生成的内容优化得更自然、更人性化。它具备AI检测、自然语言增强、语法修正、可读性优化等功能,帮助用户提升文本质量。