微軟推出輕量級實時文本轉語音模型VibeVoice-Realtime-0.5B,支持流式輸入與長篇輸出,適用於代理應用和實時數據講述。該模型能在約300毫秒內開始輸出語音,配合語言模型生成回答。其框架通過連續語音標記實現下一個標記的擴散。
騰訊高管在電影節論壇上指出,生成式AI正深刻改變影視創作,未來一年將是AI長片涌現的關鍵期。AI不僅加速短視頻內容生產,更將重塑行業權力結構,推動影視進入新的“文藝復興”。
智譜AI推出清影2.0,基於自研CogVideoX模型,可直接生成1080P高清視頻,最長10秒。模型全面控制運動、鏡頭和風格,支持多視頻同時生成及鏡頭指定。實測畫質接近Sora,中文提示理解更準、生成更快。還集成CogSound音效模塊,實現文本到視頻的高效創作。
螞蟻集團開源百靈大模型Ring-flash-linear-2.0-128K,專攻超長文本編程。採用混合線性注意力與稀疏MoE架構,僅激活6.1B參數即可媲美40B密集模型,在代碼生成和智能代理領域達到最優表現,高效解決長上下文處理痛點。
Qwen Image是阿里巴巴的免費開源AI圖像生成器,擅長在圖像中進行文本渲染。
一款經過優化的大型語言模型,擅長文本生成和對話。
長文本問答增強型檢索生成模型
日常電腦可用的免費萬字長文寫作軟件
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
DavidAU
基於Qwen 3微調的12B參數大語言模型,具備256k超長上下文處理能力,專門針對長文本生成任務進行優化。該模型結合了VLTO 8B模型基礎、Brainstorm 20x調優和NEO Imatrix數據集量化技術,能夠生成高質量的長文本內容。
Tarka-AIR
Tarka-Embedding-350M-V1是一個擁有3.5億參數的文本嵌入模型,能夠生成1024維的密集文本表示。該模型針對語義相似性、搜索和檢索增強生成(RAG)等下游應用進行了優化,支持多種語言並具有長上下文處理能力。
unsloth
Qwen3-VL是通義系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力以及出色的智能體交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文處理、空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL-8B-Thinking是通義千問系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL是通義系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面全面升級。該模型提供密集架構和混合專家架構,支持從邊緣設備到雲端的靈活部署。
Qwen3-VL是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL是Qwen系列中最強大的視覺語言模型,實現了全方位的綜合升級,包括卓越的文本理解與生成能力、更深入的視覺感知與推理能力、更長的上下文長度、增強的空間和視頻動態理解能力,以及更強的智能體交互能力。
Qwen3-VL是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。該版本為2B參數的思考增強版,專門優化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。
Qwen3-VL-30B-A3B-Instruct是通義系列中最強大的視覺語言模型,採用混合專家模型架構,具備出色的文本理解與生成能力、深入的視覺感知與推理能力,支持256K長上下文和視頻理解,可在多種設備上進行推理。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-32B-Instruct是通義系列中最強大的視覺語言模型,具備出色的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。
Qwen3-VL-8B-Instruct是通義系列中最強大的視覺語言模型,具備卓越的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
Qwen3-VL-32B-Thinking是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及出色的智能體交互能力。
Qwen3-VL是迄今為止Qwen系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面都進行了全面升級。該模型採用混合專家(MoE)架構,提供卓越的多模態處理能力。
Qwen3-VL是通義大模型系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力以及出色的智能體交互能力。該模型採用混合專家(MoE)架構,是增強推理的思維版。
Loom是一個MCP服務器,支持用戶與基礎模型協作構建文本,通過短片段迭代生成和選擇來優化長文本創作質量。
ComfyUI_StoryDiffusion是一個基於ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用於生成連貫的長序列圖像和視頻。項目支持多種功能,包括雙角色同框、ControlNet控制、Lora加速、文本到圖像和圖像到圖像轉換等。