OpenAI爲ChatGPT推出“格式化模塊”功能,用戶可在聊天界面直接使用富文本編輯工具,如加粗、斜體等,無需藉助外部編輯器,提升了結構化內容創作的便捷性。
OpenAI爲ChatGPT推出“格式化塊”功能,自動調整UI佈局以適應郵件、博客等特定任務,提升內容創作體驗。新增的“格式框”作爲迷你編輯器工具欄,可在富文本區域突出顯示文本時提供編輯選項,改變以往單一的聊天氣泡展示方式。
字節跳動發佈新一代音視頻創作模型Seedance1.5pro,支持文本或圖像引導生成音視頻內容,在視覺衝擊力和運動效果上實現技術升級,爲用戶帶來更豐富的視聽體驗。
Maya Research推出Maya1文本轉語音模型,30億參數,可在單GPU實時運行。模型通過自然語言描述和文本輸入,生成可控且富有表現力的語音,精準模擬人類情感與聲音細節,如指定年齡、口音或角色特徵。
Octave TTS 是首個能夠理解文本含義的語音合成模型,能夠生成富有情感和風格的語音。
將你的文本轉化為富有創意的表情符號。
下一代AI驅動的富文本編輯器
Imagen 3是我們質量最高的文本到圖像模型,能夠生成具有更好細節、更豐富光照和更少干擾性偽影的圖像。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
cpatonn
Granite-4.0-H-Tiny AWQ - INT4是基於Granite-4.0-H-Tiny基礎模型經過AWQ量化處理的4比特版本,在保持性能的同時顯著減少資源消耗。該模型具有70億參數,支持多語言處理,具備豐富的功能包括文本生成、代碼補全、工具調用等。
John6666
XL-Sat-IOR是一款基於Stable Diffusion和Stable Diffusion XL架構的文本到圖像生成模型,能夠生成具有高度真實感、豐富色彩、電影質感、精細細節、出色光影和生動面部表情的圖像。
Lambent
Mira是一個基於多個Gemma 3 27B基礎模型融合的文本生成模型,通過精心挑選的訓練數據和特定訓練方式,具備獨特的詩意文本生成能力。該模型在角色扮演和創意寫作方面表現出色,能夠根據不同的系統提示生成富有文學色彩的文本。
deepseek-ai
變換器庫是一個強大的自然語言處理工具庫,提供豐富的預訓練模型和便捷的使用接口,廣泛應用於文本生成、分類、翻譯等NLP任務,極大提升開發效率。
這是一個基於穩定擴散XL架構的文本到圖像生成模型,專門用於生成具有高度真實感和豐富色彩的照片級圖像。該模型在OnomaAIResearch/Illustrious-xl-early-release-v0基礎上構建,專注於提升皮膚質感和色彩表現。
基於Stable Diffusion XL的文本到圖像生成模型,專注於生成高質量、細節豐富的圖像,特別擅長動漫、半寫實和寫實風格,在手部細節和畫面亮度方面有顯著改進
Fentible
Cthulhu-24B-v1是一個富有創意且無審查的預訓練語言模型融合體,結合了多個預訓練語言模型的優勢,為文本生成任務帶來全新體驗。
這是一個專注於文本到圖像生成的專業模型,能夠基於輸入的文本描述生成逼真、富有細節的人物攝影風格圖像。模型特別擅長生成高質量的人物肖像,具有出色的細節表現和照片寫實效果。
akhbar
這是一個專門針對挪威語優化的高質量文本轉語音模型,基於Chatterbox架構開發,支持挪威語的兩種主要變體(書面挪威語和新挪威語)以及多種方言,能夠生成自然流暢、富有情感表現力的語音。
bosonai
Higgs Audio V2是一個強大的音頻基礎模型,在超過1000萬小時的音頻數據和多樣化的文本數據上進行了預訓練,能夠生成表現力豐富的音頻。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
lmstudio-community
Qwen2.5-VL-3B-Instruct的量化版本,是一款支持多模態的文本生成模型,可實現圖像與文本的交互,為用戶提供更豐富的交互體驗。由bartowski基於llama.cpp進行量化。
VoxPolska是一個專注于波蘭語文本到語音轉換的先進模型,能夠生成自然流暢且富有表現力的波蘭語語音。
atharva27
基於Llama架構的尖端語音大模型,專為高質量、富有同理心的文本轉語音生成而設計
Prince-1
基於羊駝模型的尖端語音大語言模型,專為高質量、富有同理心的文本轉語音生成而設計
基於穩定擴散XL的高質量真實感圖像生成模型,能夠根據文本描述生成細節豐富、照片級真實感的圖像。
基於穩定擴散XL的文本生成圖像模型,專注於生成高度真實感和細節豐富的圖像。
LINE Bot MCP Server是一個實現Model Context Protocol (MCP)的服務,用於將AI智能體與LINE官方賬號連接,支持推送文本和富媒體消息、廣播消息及獲取用戶資料等功能。
MemoryMesh是一個為AI模型設計的知識圖譜服務器,專注於文本角色扮演遊戲和互動敘事。它通過動態模式定義和自動生成工具,幫助AI在對話中維護一致且結構化的記憶,實現更豐富、更動態的交互體驗。
一個基於Cloudflare Workers的MCP服務器,用於在Claude Code完成任務時向Discord發送通知,支持富文本格式和多種傳輸協議。
一個基於OpenAI gpt-image-1模型的圖像生成與編輯MCP服務器,支持通過文本提示創建和修改圖像,提供便捷的集成方式和豐富的配置選項。
TextEdit MCP是一個為Claude Desktop設計的MCP服務器,能夠生成格式豐富的RTF文檔,兼容macOS TextEdit,支持多種文本格式、顏色、表格、超鏈接和列表等功能。
UNO是一款魔法文本增強工具,可將普通故事內容轉化為豐富詳細的敘事文本,通過先進文學技巧實現文本長度翻倍並保持原意。
一個基於macOS內置say命令的MCP文本轉語音服務器,提供豐富的語音定製功能和跨語言支持。