在Microsoft AI Tour年度盛会上,豆神教育推出全新“豆神AI短剧平台”,基于多模态AI架构,融合文本理解、图像生成、视频生成及智能配音技术,涵盖剧本创作、分镜拆解到角色设定等功能,标志着AI在内容创作领域的重大突破。
Google开源AI设计工具Stitch的核心格式DESIGN.md,通过机器可读的标准化协议解决AI Agent界面生成中的品牌一致性问题。该格式整合YAML格式的设计标记(如颜色、字体参数)与纯文本注释,为AI提供直观设计准则和逻辑支撑,使其在生成符合品牌形象的UI界面时,同步遵循WCAG无障碍规则。
腾讯开源混元3D世界模型2.0,支持文本、图片、视频等多模态输入,可自动生成、重建和模拟3D世界。模型支持Mesh、3DGS、点云等多种格式导出,能与游戏开发流程无缝对接,助力快速生成游戏地图与关卡原型,推动AI“造世界”技术发展。
火山引擎发布Seedance 2.0系列API服务,提供先进的视频生成技术,支持文本、图片、音频和视频四种输入方式,具备多模态内容创建与编辑能力,适用于复杂互动和动态场景。该服务旨在帮助企业及个人用户优化工作流程,探索创新应用,同时确保AI视频创作的合规性与安全性。
Seedance 2.0可免费在线生成AI视频,支持文本、图像转视频
Epochal是一款AI视频生成器,支持文本转视频、图像转视频。
新一代AI图像生成器,支持精准文本渲染、写实画质及对话式图像编辑。
OpenAI推出的全能型AI图像生成器,具备超高文本准确率与像素级UI设计能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
bartowski
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
DevQuasar
这是 ai-sage/GigaChat3-702B-A36B-preview-bf16 模型的量化版本,旨在为大众提供免费的知识获取途径。该模型是一个大型语言模型,专注于文本生成任务。
DakkaWolf
Trouper-12B GGUF是由DarwinAnim8or基于原始模型开发的文本生成模型,专门针对角色扮演和创意写作场景进行了优化。该模型从Mistral-Nemo-Base-12B微调而来,使用了自定义的'Actors'数据集进行训练,生成的文本更加自然,避免了常见的'AI语言'特征。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
ss-lab
EXAONE-4.0-1.2B 是一个由 LG AI Research 开发的文本生成模型。它基于 EXAONE-4.0-1.2B 基础模型,使用 tatsu-lab/alpaca 数据集进行了微调,支持英文和韩语两种语言的文本生成任务。模型已转换为 GGUF 格式,便于在本地部署和运行。
noctrex
这是慧慧AI模型Huihui-MoE-60B-A3B-abliterated的MXFP4_MOE量化版本,为文本生成提供支持。该量化版本基于特定的基础模型进行处理,能在一定程度上优化模型的性能和使用体验。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
mrgant
lans_v1 - lora是基于Qwen/Qwen-Image模型使用AI Toolkit by Ostris训练的文本到图像转换模型,采用LoRA技术进行优化,具备良好的图像生成能力。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
tldraw-agent是一个基于AI的文本转图表生成工具,支持通过命令行、库、MCP服务等多种方式使用,可将文本描述(如架构图、流程图)自动生成为PNG或SVG格式的图表。
一个基于MongoDB Atlas向量搜索和Voyage AI嵌入技术的文档检索系统,支持语义搜索和文本匹配,包含文档分块、嵌入生成和存储功能。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,专注于将AI生成的内容优化为更自然、更人性化的文本。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口插件,支持文本生成、图像分析和函数调用。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口,支持文本生成、图像分析和函数调用。
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。
一个基于Google Gemini图像生成模型的MCP服务器,允许AI代理通过文本提示生成、编辑和描述图像,支持多种模型和配置选项。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,能够将AI生成的内容优化得更自然、更人性化。它具备AI检测、自然语言增强、语法修正、可读性优化等功能,帮助用户提升文本质量。
Gemini Nanobanana MCP 是一个让用户通过文本描述生成AI图像的Claude插件,集成了Google Gemini 2.5 Flash图像生成功能,支持多种图像编辑和创作方式。
多提供商AI图像生成服务器,支持Google、ZHIPU AI和阿里云百炼,提供文本生成图像和图像转换功能,兼容MCP客户端应用。
一个集成4o-image API的MCP服务器实现,支持通过标准化协议让LLM和AI系统生成和编辑图像,包括文本生成图像、图像编辑等功能。
Project Synapse是一个革命性的MCP服务器,通过语义分析和知识图谱技术将文本转化为互联知识网络,并自主生成洞察。它结合Montague语义学和Zettelkasten方法,实现AI的认知协作能力。
游戏资产生成器利用AI模型和MCP协议,通过文本提示快速生成2D和3D游戏资源。
Winston AI MCP Server 是一个多功能AI检测服务器,提供文本/图像AI生成检测、抄袭检测和文本对比功能,支持多种集成方式和API访问。