北京智源人工智能研究院发布新一代多模态大模型Emu3.5,实现“世界级统一建模”,突破传统AI在物理理解和因果推理上的短板,让AI从单纯生成图像、文本进化到真正理解物理世界。
亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列,包括四款新模型,在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中,Nova2Lite专为日常负载设计,支持文本、图像和视频输入并生成文本输出,是一款快速经济的推理模型。
Kling AI发布2.6版本,新增原生音频生成功能,支持中英双语对白、歌唱与音效同步输出,实现文本到视频的完整创作流程,标志着AI视频进入有声时代。
快手Kling AI 2.6版本发布,首次集成音频生成功能,支持中英双语对白、歌唱与音效,实现文本、视频、音频一键同步生成。技术采用扩散变换器与3D时空联合注意力架构,提升复杂指令遵守率15%,并增强跨镜头角色一致性。视频输出保持10秒1080P高清,生成成本降低30%。
基于Flux AI模型,可实现文本生成图像和图像编辑转换
AI驱动的照片编辑平台,可文本生成图像或转换现有照片
GPTunneL提供多模型AI服务,可生成文本、图像等,支持多方式支付。
Gen-4.5是先进AI视频生成平台,可将文本和图像转为专业视频
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
bartowski
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
DevQuasar
这是 ai-sage/GigaChat3-702B-A36B-preview-bf16 模型的量化版本,旨在为大众提供免费的知识获取途径。该模型是一个大型语言模型,专注于文本生成任务。
DakkaWolf
Trouper-12B GGUF是由DarwinAnim8or基于原始模型开发的文本生成模型,专门针对角色扮演和创意写作场景进行了优化。该模型从Mistral-Nemo-Base-12B微调而来,使用了自定义的'Actors'数据集进行训练,生成的文本更加自然,避免了常见的'AI语言'特征。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
noctrex
这是慧慧AI模型Huihui-MoE-60B-A3B-abliterated的MXFP4_MOE量化版本,为文本生成提供支持。该量化版本基于特定的基础模型进行处理,能在一定程度上优化模型的性能和使用体验。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
mrgant
lans_v1 - lora是基于Qwen/Qwen-Image模型使用AI Toolkit by Ostris训练的文本到图像转换模型,采用LoRA技术进行优化,具备良好的图像生成能力。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个基于MongoDB Atlas向量搜索和Voyage AI嵌入技术的文档检索系统,支持语义搜索和文本匹配,包含文档分块、嵌入生成和存储功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,专注于将AI生成的内容优化为更自然、更人性化的文本。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口插件,支持文本生成、图像分析和函数调用。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口,支持文本生成、图像分析和函数调用。
AI Humanize MCP Server是一个强大的模型上下文协议服务器,能够将AI生成的内容优化得更自然、更人性化。它具备AI检测、自然语言增强、语法修正、可读性优化等功能,帮助用户提升文本质量。
Gemini Nanobanana MCP 是一个让用户通过文本描述生成AI图像的Claude插件,集成了Google Gemini 2.5 Flash图像生成功能,支持多种图像编辑和创作方式。
一个集成4o-image API的MCP服务器实现,支持通过标准化协议让LLM和AI系统生成和编辑图像,包括文本生成图像、图像编辑等功能。
Project Synapse是一个革命性的MCP服务器,通过语义分析和知识图谱技术将文本转化为互联知识网络,并自主生成洞察。它结合Montague语义学和Zettelkasten方法,实现AI的认知协作能力。
游戏资产生成器利用AI模型和MCP协议,通过文本提示快速生成2D和3D游戏资源。
Winston AI MCP Server 是一个多功能AI检测服务器,提供文本/图像AI生成检测、抄袭检测和文本对比功能,支持多种集成方式和API访问。
多提供商AI图像生成服务器,支持Google、ZHIPU AI和阿里云百炼,提供文本生成图像和图像转换功能,兼容MCP客户端应用。
Image Gen MCP Server是一个通用AI图像生成服务,通过Model Context Protocol(MCP)标准协议为各类LLM聊天机器人提供跨平台、多模型的图像生成能力,支持OpenAI和Google的多种图像模型,实现文本对话到可视化内容的无缝转换。
rag-mcp是一个过度设计的检索增强生成系统,通过Python服务器提供多种文本搜索模式(语义搜索、问答搜索、风格搜索),使用PostgreSQL和pgvector存储文本嵌入向量,支持与AI代理交互,架构复杂但可扩展。