腾讯开源混元3D世界模型2.0,支持文本、图片、视频等多模态输入,可自动生成、重建和模拟3D世界。模型支持Mesh、3DGS、点云等多种格式导出,能与游戏开发流程无缝对接,助力快速生成游戏地图与关卡原型,推动AI“造世界”技术发展。
火山引擎发布Seedance 2.0系列API服务,提供先进的视频生成技术,支持文本、图片、音频和视频四种输入方式,具备多模态内容创建与编辑能力,适用于复杂互动和动态场景。该服务旨在帮助企业及个人用户优化工作流程,探索创新应用,同时确保AI视频创作的合规性与安全性。
阿里千问上线“表格 Agent”功能,用户可通过自然语言对话直接生成、查询和编辑Excel文件,实现从文本答案到直接成果的演进。该功能覆盖零门槛信息转表格、智能检索与深度编辑三大维度,简化传统表格处理流程。
LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
Happy Horse 1.0是在线AI视频生成器,支持文本和图像转视频,无音频。
免费且准确的AI内容检测工具,支持识别ChatGPT、Claude及Gemini等生成的文本。
免费AI视频生成器,基于Happy Horse 1.0,可从文本或图像生成含音频视频。
在线创建AI视频,从文本或图像生成短视频,适用于创作者等
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
bartowski
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
本项目提供了一个基于微软Phi-3.5-mini-instruct模型进行微调的文本生成模型,已转换为GGUF格式,适用于llama.cpp推理框架。模型在philschmid/guanaco-sharegpt-style数据集上进行了微调,优化了指令遵循和对话能力,适用于资源受限环境下的高效文本生成任务。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
这是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定数据集进行量化处理。该模型基于Llama-3架构,提供多种量化类型选择,支持文本生成任务,适用于推理、对话等多种应用场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
gia-uh
塞西莉亚FT MS v1是基于塞西莉亚2B v0.1微调的古巴语言模型,专门针对古巴西班牙语进行优化,捕捉古巴语言、文化和社会的细微差别。该模型支持西班牙语和英语,主要用于文本生成任务。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
PaperBanana是一个自动化生成学术图表和统计图的智能框架,支持从文本描述生成高质量的论文插图,采用多智能体管道和迭代优化,提供CLI、Python API和MCP服务器等多种使用方式。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
tldraw-agent是一个基于AI的文本转图表生成工具,支持通过命令行、库、MCP服务等多种方式使用,可将文本描述(如架构图、流程图)自动生成为PNG或SVG格式的图表。
一个基于TypeScript的MCP服务器,集成Google Gemini Pro模型
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
Loom是一个MCP服务器,支持用户与基础模型协作构建文本,通过短片段迭代生成和选择来优化长文本创作质量。
MIDI MCP服务器是一个通过文本数据生成MIDI音乐文件的工具
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
Scenario.com MCP服务器项目,提供基于文本生成图像和移除图像背景的API服务。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,专注于将AI生成的内容优化为更自然、更人性化的文本。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
一个基于MongoDB Atlas向量搜索和Voyage AI嵌入技术的文档检索系统,支持语义搜索和文本匹配,包含文档分块、嵌入生成和存储功能。