xAI旗下Grok Imagine實現純文本生成短視頻,用戶輸入描述即可在17秒內獲得帶音效、動態鏡頭和專業畫質的6-15秒視頻,無需圖像輸入或編輯基礎。這一升級打通“想法到成片”環節,以高速優勢挑戰OpenAI Sora和Google Veo的市場地位。
谷歌推出DS STAR多智能體框架,可將模糊商業問題自動轉化爲可執行Python代碼,無需人工介入。該框架突破傳統依賴結構化SQL數據庫的限制,能直接處理CSV、JSON、Markdown及非結構化文本等混合格式數據。通過Aanalyzer等組件分階段實現從問題分析到代碼生成的全流程自動化。
芝加哥大學研究發現,市面AI文本檢測工具性能差異顯著。研究基於1992篇人類文本(含評論、新聞、小說等六類)及GPT-4等主流模型生成的AI文本進行測試,結果顯示不同檢測工具準確率存在明顯差距,呼籲提升檢測技術可靠性。
魔琺科技發佈全球首個3D數字人開放平臺“魔琺星雲”,讓AI從文字對話升級爲實時生成帶表情、手勢和身體動作的3D數字人。其核心3D多模態引擎可輸入文本後毫秒級輸出同步語音與動作,並適配手機、車載等多種終端,實現AI從“說話”到“表演”的進化。
全球可訪問的無水印AI視頻生成平臺,支持文本、圖像轉視頻等功能。
免費AI動漫角色生成器,支持多風格文本轉圖像,輸出專業品質
全球首個開源MoE視頻生成模型,支持文本/圖像轉720P視頻
insMind免費AI文本轉視頻生成器,在線根據文本提示創建精彩視頻
baidu
$4
輸入tokens/百萬
$16
輸出tokens/百萬
128k
上下文長度
meta
$1.22
$4.32
1M
openai
$18
$72
tencent
32k
google
$0.72
$2.88
$0.58
$2.16
10M
alibaba
$2.52
131.1k
$1.08
-
$216
$432
8.2k
azure
$0.36
$0.43
$3.6
$10.8
32.8k
moonshot
$1
$8
DavidAU
這是一個增強版的多模態視覺語言模型,基於Qwen3-VL-8B-Thinking模型,通過Brainstorm 20x技術擴展至12B參數,採用NEO Imatrix增強的GGUF量化。模型具備強大的圖像理解、文本生成和多模態推理能力,在視覺感知、文本質量和創意場景方面都有顯著提升。
noctrex
這是MiniMax-M2-THRIFT模型的MXFP4_MOE量化版本,在原模型基礎上進行了壓縮處理,包括25%的專家剪枝(從256到192)並設置top_k=8,同時保留了編碼模型的特性,可用於文本生成任務。
Aquif-3.5-Max-42B-A3B是一個420億參數的大型語言模型,經過MXFP4_MOE量化處理,在保持高質量文本生成能力的同時優化了推理效率。該模型基於先進的混合專家架構,適用於多種自然語言處理任務。
kirankumarpetlu
這是一個基於Google Gemma-2B-IT基礎模型,使用PEFT(參數高效微調)和LoRA技術進行優化的文本生成模型。該模型通過參數高效的方法在保持基礎模型能力的同時,針對特定任務進行了優化。
Clemylia
梅爾塔是一款基於Discord機器人Melta27開發的獨特小型語言模型,具有可愛、迷人和充滿熱情的個性特點,專門用於生成原創、獨特且可愛的文本內容。
unsloth
Qwen3-VL是通義系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力以及出色的智能體交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文處理、空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL-8B-Thinking是通義千問系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL是通義系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面全面升級。該模型提供密集架構和混合專家架構,支持從邊緣設備到雲端的靈活部署。
Qwen3-VL是Qwen系列中最強大的視覺語言模型,實現了全方位的綜合升級,包括卓越的文本理解與生成能力、更深入的視覺感知與推理能力、更長的上下文長度、增強的空間和視頻動態理解能力,以及更強的智能體交互能力。
anikifoss
本項目是對MiniMax-M2模型進行的高質量HQ4_K量化,專門針對文本生成任務優化,特別適用於對話場景。該量化版本未使用imatrix,保持了模型的性能表現。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的視覺語言模型,基於2B參數規模,使用MLX進行8位量化,專門針對Apple Silicon芯片進行了優化。該模型支持圖像和文本的多模態理解與生成任務。
Qwen3-VL是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。該版本為2B參數的思考增強版,專門優化了推理能力。
oberbics
本模型是基於Meta的Llama-3.1架構微調的文本生成模型,使用TRL庫和GRPO(Group Relative Policy Optimization)方法進行強化學習訓練,專門針對論證生成任務進行了優化。
Qwen
Qwen3-VL-30B-A3B-Instruct是通義系列中最強大的視覺語言模型,採用混合專家模型架構,具備出色的文本理解與生成能力、深入的視覺感知與推理能力,支持256K長上下文和視頻理解,可在多種設備上進行推理。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-32B-Instruct是通義系列中最強大的視覺語言模型,具備出色的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。
Qwen3-VL-8B-Instruct是通義系列中最強大的視覺語言模型,具備卓越的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
mlx-community
這是基於moonshotai/Kimi-Linear-48B-A3B-Instruct模型轉換的4位量化版本,專為Apple MLX框架優化,提供高效的文本生成能力
Qwen3-VL-32B-Thinking是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
MiniMax Model Context Protocol (MCP) 是一個官方服務器,支持與強大的文本轉語音、視頻/圖像生成API交互,適用於多種客戶端工具如Claude Desktop、Cursor等。
基於即夢AI的圖像生成服務,專為Cursor IDE設計,實現文本描述到圖像的生成與保存。
開源短視頻自動生成工具,整合文本轉語音、自動字幕、背景視頻和音樂,從簡單文本輸入創建專業短視頻。
MiniMax官方模型上下文協議(MCP)服務器,支持文本轉語音、視頻/圖像生成等API交互。
MemoryMesh是一個為AI模型設計的知識圖譜服務器,專注於文本角色扮演遊戲和互動敘事。它通過動態模式定義和自動生成工具,幫助AI在對話中維護一致且結構化的記憶,實現更豐富、更動態的交互體驗。
一個通過fal.ai API和MCP協議從文本生成圖像的Node.js工具,支持多種模型和參數,適合開發者和創作者快速生成圖像。
多提供商AI圖像生成服務器,支持Google、ZHIPU AI和阿里雲百鍊,提供文本生成圖像和圖像轉換功能,兼容MCP客戶端應用。
基於TypeScript的MCP服務器,集成Flux Schnell模型實現文本轉圖像生成功能
Minimax MCP Tools是一個集成Minimax AI能力的MCP服務器實現,提供圖像生成和文本轉語音功能。
Grok MCP插件是一個為Cline提供Grok AI強大功能的接口,支持文本生成、圖像分析和函數調用。
Scenario.com MCP服務器項目,提供基於文本生成圖像和移除圖像背景的API服務。
ComfyUI MCP服務器是一個用於集成ComfyUI與MCP的服務實現,需要配合運行的ComfyUI服務器使用,提供多種內置工具如文本生成圖像、下載圖像及運行自定義工作流等功能,支持通過UV或Docker方式運行。
MiniMax MCP JS是一個基於JavaScript/TypeScript實現的MiniMax MCP協議工具集,提供圖像生成、視頻生成、文本轉語音等功能,支持與MCP兼容客戶端交互。
一個用於讀寫Excel數據的MCP服務器,支持讀取文本值、公式以及生成屏幕截圖等功能。
一個集成4o-image API的MCP服務器實現,支持通過標準化協議讓LLM和AI系統生成和編輯圖像,包括文本生成圖像、圖像編輯等功能。
一個基於TypeScript的MCP服務器,實現本地文檔的檢索增強生成(RAG)系統,支持Git倉庫和文本文件的查詢與索引。
該項目是一個基於MCP協議的Gemini模型服務端,封裝了Google的Gemini API,提供文本生成、函數調用、文件處理等功能。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,可與Claude等大型語言模型集成使用。
AI視頻生成MCP服務器,支持文本和圖像輸入生成動態視頻,提供多種參數控制和模型選擇。
一個基於Pollinations API的多模態MCP服務器,支持生成圖像、文本和音頻內容