蘋果發佈兩項機器學習研究:SQUIRE系統利用GPT-4o和槽查詢中間表示,提升AI生成UI的可控性與微調效率;另一項研究則強化圖像安全審查能力,旨在解決現有技術痛點。
Fish Audio發佈新一代開源TTS模型S2,實現文本轉語音在情感與韻律上的精細控制。用戶可通過自然語言指令或標籤(如[笑]、[耳語])調節情緒,支持詞級或短語級調整,顯著提升語音表現力與可控性。
AI視頻生成正從隨機性強的“開盲盒”階段轉向實用化。儘管Sora曾引發行業焦慮,但畫面不連貫等問題阻礙了其工業化應用。爲此,萬興劇廠平臺通過流程再造,致力於將AI視頻從演示“玩具”升級爲可靠“生產力工具”,核心在於解決連貫性與可控性難題。
可靈3.0Pro以1240分登頂全球視頻大模型榜首,展現了強大的技術實力。該系列共有7款模型進入前15名,在視頻真實感、一致性和可控性方面均處於行業領先地位。這一成就標誌着AI生成視頻技術邁入新階段。
CineMaster 是一個 3D 意識的可控文本到視頻生成框架,允許用戶在 3D 空間中操縱對象和相機。
SliderSpace 是一種用於分解擴散模型視覺能力的技術,通過直觀的滑塊實現對模型的可控性和可解釋性。
提升文本到圖像生成的可控性
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Stepfun
-
Baidu
4
MCG-NJU
SteadyDancer是一個基於圖像到視頻範式的強大動畫框架,專門用於生成高保真且時間連貫的人體動畫。該框架通過穩健的首幀保留機制,有效解決了傳統方法中的身份漂移問題,在視覺質量和可控性上表現出色,同時顯著減少了訓練資源需求。
briaai
FIBO是首個專為長結構化描述訓練的開源文本到圖像模型,為可控性、可預測性和特徵解耦設定了新標準。該模型擁有80億參數,僅使用有許可的數據進行訓練,支持專業工作流程需求。
JackAILab
ConsistentID是一個多模態細粒度身份保持的肖像生成模型,能夠生成具有極高身份保真度的肖像,同時不犧牲多樣性和文本可控性。