美團LongCat團隊開源視頻生成模型LongCat-Video-Avatar,推動虛擬人技術發展。該模型在長視頻生成領域表現突出,基於LongCat-Video升級,支持音頻文本轉視頻、音頻文本圖像轉視頻及視頻續寫等多任務功能,受到開發者廣泛關注。
字節跳動發佈新一代音視頻創作模型Seedance1.5pro,支持文本或圖像引導生成音視頻內容,在視覺衝擊力和運動效果上實現技術升級,爲用戶帶來更豐富的視聽體驗。
阿里通義Qwen團隊發佈新版Qwen3-Omni-Flash-2025-12-01,作爲新一代全模態大模型,能高效處理文本、圖像、音頻和視頻輸入,實現實時流式響應,生成文本與自然語音輸出。升級重點提升了音視頻交互體驗,增強了對音視頻指令的理解和執行能力,優化了口語化場景中的表現。
阿里巴巴發佈新一代全模態大模型Qwen3-Omni-Flash-2025-12-01,支持文本、圖像、音頻和視頻的無縫輸入,並能實時流式同步生成高質量文本與自然語音,語音自然度接近真人。該模型採用實時流式架構,支持119種文本語言交互。
先進AI視頻生成器,多模型支持,可實現文本、圖像轉專業視頻。
從文本或照片生成高質量AI圖像和視頻,支持4K輸出與多模型
基於Flux AI模型,可實現文本生成圖像和圖像編輯轉換
GPTunneL提供多模型AI服務,可生成文本、圖像等,支持多方式支付。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
gguf-org
flux2-dev-gguf 是一個基於 FLUX.2-dev 的圖像到圖像轉換模型,專門用於根據文本提示生成特定風格的圖像。該模型支持在 ComfyUI 環境中運行,能夠將文本描述轉換為風格化的視覺內容。
ostris
這是一個基於LoRA技術的文本到圖像轉換模型,專門用於生成具有法國印象派畫家貝爾特·莫里索藝術風格的圖像。該模型在FLUX.2-dev基礎模型上訓練,能夠將普通圖像或文本描述轉換為莫里索風格的畫作。
diffusers
FLUX.2-dev是基於NF4量化的DiT和文本編碼器的圖像生成與編輯模型,提供高質量的圖像生成和編輯能力,適用於圖像領域的開發應用。
bartowski
這是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定數據集進行量化處理。該模型基於Llama-3架構,提供多種量化類型選擇,支持文本生成任務,適用於推理、對話等多種應用場景。
ExaltedSlayer
Gemma 3是谷歌推出的輕量級開源多模態模型,本版本為12B參數的指令調優量化感知訓練模型,已轉換為MLX框架的MXFP4格式,支持文本和圖像輸入並生成文本輸出,具有128K上下文窗口和140+語言支持。
noctrex
這是一個基於Huihui-MiroThinker-v1.0-30B模型進行的MXFP4_MOE imatrix量化版本,專門針對文本生成任務優化,在保持模型性能的同時顯著減小了模型體積和推理成本。
gia-uh
塞西莉亞FT MS v1是基於塞西莉亞2B v0.1微調的古巴語言模型,專門針對古巴西班牙語進行優化,捕捉古巴語言、文化和社會的細微差別。該模型支持西班牙語和英語,主要用於文本生成任務。
black-forest-labs
FLUX.2 [dev] 是一個擁有320億參數的校正流變壓器模型,專門用於圖像生成、編輯和組合任務。該模型在文本到圖像生成、單參考編輯和多參考編輯方面處於領先水平,無需微調即可實現角色、對象和風格參考,支持個人、科學和商業用途。
這是對ai-sage的GigaChat3-10B-A1.8B模型進行的量化處理版本,採用llama.cpp的imatrix量化技術,可在不同硬件條件下更高效地運行。模型支持俄語和英語,主要用於文本生成任務。
jayn7
騰訊混元視頻1.5模型的量化GGUF版本,專門用於文本到視頻生成任務,支持720P高清視頻生成,提供多種量化精度版本以優化使用效率。
本項目提供騰訊混元視頻1.5文本到視頻模型的量化GGUF版本,支持480P視頻生成任務,包含蒸餾模型和完整模型兩個版本,可與ComfyUI-GGUF等工具配合使用。
DreadPoor
Strawberry_Smoothie-TEST 是一個使用 mergekit 工具合併三個12B參數模型得到的混合模型,結合了Unity-12B、Chaos-Unknown-12b和Smoothie-12B-Model_Stock的優勢,旨在提供更好的文本生成和對話能力
DevQuasar
這是 ai-sage/GigaChat3-702B-A36B-preview-bf16 模型的量化版本,旨在為大眾提供免費的知識獲取途徑。該模型是一個大型語言模型,專注於文本生成任務。
這是一個基於Huihui-MiroThinker-v1.0-8B模型的量化版本,專門針對文本生成任務進行了優化,通過量化技術提高了推理效率,同時保持了模型的性能表現。
這是對MiroThinker-v1.0-30B模型進行MXFP4_MOE imatrix量化的版本,基於mradermacher的imatrix實現。該量化模型保持了原模型的文本生成能力,同時通過量化技術提高了推理效率,適用於需要高效文本生成的各種應用場景。
這是一個基於REAP方法對MiniMax-M2中40%專家進行均勻剪枝得到的139B參數大語言模型,採用GLM架構和專家混合(MoE)技術,通過llama.cpp進行多種量化處理,適用於文本生成任務。
advy
本模型是基於meta-llama/Llama-3.1-70B-Instruct在特定數據集上微調得到的大語言模型,專門用於文本生成任務,在評估集上取得了0.6542的損失值表現。
tencent
混元視頻-1.5是一款輕量級高性能視頻生成模型,僅用83億參數就能提供頂級的視頻質量,顯著降低了使用門檻。它能在消費級GPU上流暢運行,支持文本到視頻和圖像到視頻生成,讓每個開發者和創作者都能輕鬆使用。
MaziyarPanahi
VibeThinker-1.5B-GGUF 是 WeiboAI/VibeThinker-1.5B 模型的 GGUF 量化版本,由 MaziyarPanahi 進行量化處理。該模型是一個 1.5B 參數的文本生成模型,支持多種量化級別(2位到8位),便於在各種硬件上高效運行。
mradermacher
本項目提供了Qwen-4B-Instruct-2507-Self-correct模型的靜態量化版本,支持文本生成、偏差緩解、自我修正等任務。該模型基於Qwen-4B架構,經過指令微調和自我修正訓練,提供多種量化版本以適應不同硬件需求。
MiniMax官方模型上下文協議(MCP)服務器,支持文本轉語音、視頻/圖像生成等API交互。
MemoryMesh是一個為AI模型設計的知識圖譜服務器,專注於文本角色扮演遊戲和互動敘事。它通過動態模式定義和自動生成工具,幫助AI在對話中維護一致且結構化的記憶,實現更豐富、更動態的交互體驗。
一個通過fal.ai API和MCP協議從文本生成圖像的Node.js工具,支持多種模型和參數,適合開發者和創作者快速生成圖像。
基於TypeScript的MCP服務器,集成Flux Schnell模型實現文本轉圖像生成功能
一個基於Google Gemini圖像生成模型的MCP服務器,允許AI代理通過文本提示生成、編輯和描述圖像,支持多種模型和配置選項。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,可與Claude等大型語言模型集成使用。
AI視頻生成MCP服務器,支持文本和圖像輸入生成動態視頻,提供多種參數控制和模型選擇。
該項目是一個基於MCP協議的Gemini模型服務端,封裝了Google的Gemini API,提供文本生成、函數調用、文件處理等功能。
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
AI Humanize MCP Server是一個強大的模型上下文協議服務器,能夠將AI生成的內容優化得更自然、更人性化。它具備AI檢測、自然語言增強、語法修正、可讀性優化等功能,幫助用戶提升文本質量。
Groq MCP Server是一個通過Model Context Protocol(MCP)提供快速模型推理的服務,支持文本生成、語音轉換、圖像分析和批量處理等多種功能。
一個基於Google Gemini模型的MCP服務器,提供文本生成圖像和圖像轉換功能,支持高質量圖像生成、智能文件名生成和本地存儲。
Outsource MCP是一個支持多AI模型提供商的統一接口服務,通過MCP協議讓AI應用能便捷調用不同廠商的文本和圖像生成能力。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
MiniMax MCP JS是一個JavaScript/TypeScript實現的MiniMax模型上下文協議工具包,提供文本轉語音、圖像生成、視頻生成和語音克隆等功能,支持多種配置方式和傳輸模式。
MCPollinations是一個基於Model Context Protocol(MCP)的多模態AI服務,支持通過Pollinations API生成圖像、文本和音頻。它提供無需認證的輕量級服務,兼容多種AI模型,並支持圖像保存和Base64編碼返回。
AI Humanize MCP Server是一個強大的模型上下文協議服務器,專注於將AI生成的內容優化為更自然、更人性化的文本。
一個基於TypeScript的MCP服務器,使用OpenAI的DALL-E 3模型根據文本提示生成圖像。
該項目實現了一個MCP服務器,通過OpenAI的gpt-image-1模型提供圖像生成和編輯功能,支持文本描述生成圖像、基於參考圖像編輯或修復圖像,並可將結果保存到本地。
Image Gen MCP Server是一個通用AI圖像生成服務,通過Model Context Protocol(MCP)標準協議為各類LLM聊天機器人提供跨平臺、多模型的圖像生成能力,支持OpenAI和Google的多種圖像模型,實現文本對話到可視化內容的無縫轉換。