北京智源人工智能研究院發佈新一代多模態大模型Emu3.5,實現“世界級統一建模”,突破傳統AI在物理理解和因果推理上的短板,讓AI從單純生成圖像、文本進化到真正理解物理世界。
亞馬遜雲科技在2025年re:Invent大會上推出Nova2模型系列,包括四款新模型,在推理、多模態、對話AI、代碼生成和Agent任務方面具備領先性價比。其中,Nova2Lite專爲日常負載設計,支持文本、圖像和視頻輸入並生成文本輸出,是一款快速經濟的推理模型。
Kling AI發佈2.6版本,新增原生音頻生成功能,支持中英雙語對白、歌唱與音效同步輸出,實現文本到視頻的完整創作流程,標誌着AI視頻進入有聲時代。
快手Kling AI 2.6版本發佈,首次集成音頻生成功能,支持中英雙語對白、歌唱與音效,實現文本、視頻、音頻一鍵同步生成。技術採用擴散變換器與3D時空聯合注意力架構,提升複雜指令遵守率15%,並增強跨鏡頭角色一致性。視頻輸出保持10秒1080P高清,生成成本降低30%。
基於Flux AI模型,可實現文本生成圖像和圖像編輯轉換
AI驅動的照片編輯平臺,可文本生成圖像或轉換現有照片
GPTunneL提供多模型AI服務,可生成文本、圖像等,支持多方式支付。
Gen-4.5是先進AI視頻生成平臺,可將文本和圖像轉為專業視頻
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
bartowski
這是對ai-sage的GigaChat3-10B-A1.8B模型進行的量化處理版本,採用llama.cpp的imatrix量化技術,可在不同硬件條件下更高效地運行。模型支持俄語和英語,主要用於文本生成任務。
DevQuasar
這是 ai-sage/GigaChat3-702B-A36B-preview-bf16 模型的量化版本,旨在為大眾提供免費的知識獲取途徑。該模型是一個大型語言模型,專注於文本生成任務。
DakkaWolf
Trouper-12B GGUF是由DarwinAnim8or基於原始模型開發的文本生成模型,專門針對角色扮演和創意寫作場景進行了優化。該模型從Mistral-Nemo-Base-12B微調而來,使用了自定義的'Actors'數據集進行訓練,生成的文本更加自然,避免了常見的'AI語言'特徵。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。該模型採用2B參數規模,支持指令交互,適用於多模態AI應用。
pnnbao-ump
VieNeu-TTS是首個可在個人設備上運行的越南語文本轉語音模型,具備即時語音克隆能力。基於NeuTTS Air微調,能夠生成自然逼真的越南語語音,在CPU上具備即時性能。
noctrex
這是慧慧AI模型Huihui-MoE-60B-A3B-abliterated的MXFP4_MOE量化版本,為文本生成提供支持。該量化版本基於特定的基礎模型進行處理,能在一定程度上優化模型的性能和使用體驗。
citizenplain
這是一個基於Wan2.1-T2V-14B模型訓練的LoRA適配器,專門用於文本到視頻轉換任務。該模型使用AI Toolkit訓練,為視頻生成應用提供支持。
lichorosario
這是一個基於Qwen-Image模型訓練的LoRA(Low-Rank Adaptation)模型,專門用於文本到圖像的生成任務。該項目使用AI Toolkit訓練,能夠將文本描述轉化為高質量的圖像,支持在多種圖像生成工具中使用。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基於OpenAI gpt-oss-120b模型的優化版本,採用混合專家(MoE)架構,具備1200億總參數和50億激活參數。該模型支持商業和非商業使用,適用於文本生成任務,特別適合AI Agent系統、聊天機器人等應用開發。
abhi099k
基於DeBERTa-v3-large微調的AI文本檢測模型,能夠準確識別文本是由人類撰寫還是AI生成,在自定義數據集上訓練達到約97%的準確率。
zambawi
joywan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻和圖像生成任務,需要配合基礎模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
mrgant
lans_v1 - lora是基於Qwen/Qwen-Image模型使用AI Toolkit by Ostris訓練的文本到圖像轉換模型,採用LoRA技術進行優化,具備良好的圖像生成能力。
spamnco
這是一個基於Wan2.1-T2V-14B模型訓練的LoRA適配器,專門用於文本到視頻轉換任務,為圖像生成提供增強功能。該模型使用AI Toolkit訓練,需要特定的觸發詞'diddly'來激活圖像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基於 AI Toolkit by Ostris 訓練的 LoRA 模型,專門用於文本到視頻轉換任務,能夠有效提升圖像生成的質量和效果。
MartinSSSTSGH
這是一個基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻的圖像生成任務,使用觸發詞'Lilly'來生成特定風格的圖像內容。
Mark111111111
這是一個基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻轉換,為圖像生成帶來新的體驗。該模型需要配合基礎模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
bigdoinks420518
這是一個使用AI Toolkit by Ostris訓練的LoRA模型,基於Wan-AI/Wan2.1-T2V-14B-Diffusers基礎模型,主要用於文本到視頻生成,在圖像生成領域有獨特應用價值。
deadpoolx22
這是一個基於AI技術的文本到視頻LoRA模型,專門針對alita角色進行優化訓練,可用於圖像生成等場景,為相關領域的應用提供了便利。
GLM-4.6是智譜AI推出的新一代文本生成模型,相比GLM-4.5在多個方面有顯著改進,包括更長的上下文窗口、更優的編碼性能和更強的推理能力。該模型在多個公開基準測試中表現出色,與國內外領先模型相比具有競爭優勢。
基於即夢AI的圖像生成服務,專為Cursor IDE設計,實現文本描述到圖像的生成與保存。
MemoryMesh是一個為AI模型設計的知識圖譜服務器,專注於文本角色扮演遊戲和互動敘事。它通過動態模式定義和自動生成工具,幫助AI在對話中維護一致且結構化的記憶,實現更豐富、更動態的交互體驗。
Minimax MCP Tools是一個集成Minimax AI能力的MCP服務器實現,提供圖像生成和文本轉語音功能。
多提供商AI圖像生成服務器,支持Google、ZHIPU AI和阿里雲百鍊,提供文本生成圖像和圖像轉換功能,兼容MCP客戶端應用。
Grok MCP插件是一個為Cline提供Grok AI強大功能的接口,支持文本生成、圖像分析和函數調用。
AI視頻生成MCP服務器,支持文本和圖像輸入生成動態視頻,提供多種參數控制和模型選擇。
MCP-Diagram是一個通過文本描述快速生成多種類型圖表(如架構圖、UML類圖等)的服務器工具,支持與Claude等AI助手集成。
一個集成4o-image API的MCP服務器實現,支持通過標準化協議讓LLM和AI系統生成和編輯圖像,包括文本生成圖像、圖像編輯等功能。
AI Humanize MCP Server是一個強大的模型上下文協議服務器,能夠將AI生成的內容優化得更自然、更人性化。它具備AI檢測、自然語言增強、語法修正、可讀性優化等功能,幫助用戶提升文本質量。
Project Synapse是一個革命性的MCP服務器,通過語義分析和知識圖譜技術將文本轉化為互聯知識網絡,並自主生成洞察。它結合Montague語義學和Zettelkasten方法,實現AI的認知協作能力。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
Outsource MCP是一個支持多AI模型提供商的統一接口服務,通過MCP協議讓AI應用能便捷調用不同廠商的文本和圖像生成能力。
Winston AI MCP Server 是一個多功能AI檢測服務器,提供文本/圖像AI生成檢測、抄襲檢測和文本對比功能,支持多種集成方式和API訪問。
AI Humanize MCP Server是一個強大的模型上下文協議服務器,專注於將AI生成的內容優化為更自然、更人性化的文本。
MCPollinations是一個基於Model Context Protocol(MCP)的多模態AI服務,支持通過Pollinations API生成圖像、文本和音頻。它提供無需認證的輕量級服務,兼容多種AI模型,並支持圖像保存和Base64編碼返回。
Image Gen MCP Server是一個通用AI圖像生成服務,通過Model Context Protocol(MCP)標準協議為各類LLM聊天機器人提供跨平臺、多模型的圖像生成能力,支持OpenAI和Google的多種圖像模型,實現文本對話到可視化內容的無縫轉換。
rag-mcp是一個過度設計的檢索增強生成系統,通過Python服務器提供多種文本搜索模式(語義搜索、問答搜索、風格搜索),使用PostgreSQL和pgvector存儲文本嵌入向量,支持與AI代理交互,架構複雜但可擴展。
OpenSCAD MCP服務器是一個通過文本或圖像生成參數化3D模型的服務,支持多視角重建、AI圖像生成、遠程CUDA處理和工作流審批,最終輸出OpenSCAD兼容的模型文件。
Grok MCP插件是一個為Cline提供Grok AI強大功能的接口插件,支持文本生成、圖像分析和函數調用。
Minimax MCP Tools是一個集成Minimax API的MCP服務器實現,提供AI圖像生成和文本轉語音功能,支持與Windsurf編輯器無縫集成。