Kling AI發佈2.6版本,新增原生音頻生成功能,支持中英雙語對白、歌唱與音效同步輸出,實現文本到視頻的完整創作流程,標誌着AI視頻進入有聲時代。
阿里巴巴通義實驗室開源Z-Image-Turbo-Fun-Controlnet-Union模型,擴展Z-Image系列圖像生成生態。該模型強化了精確控制與創意生成能力,已在Hugging Face上線,採用Apache2.0許可,支持商用。
阿里通義發佈生圖模型Z-Image,首日登頂Hugging Face趨勢榜,下載量達50萬次。該模型僅6億參數,卻能媲美大型模型,精細還原皮膚、髮絲、光影和紋理,構圖氛圍出色。同時推出優化版Z-Image-Turbo,僅需8步即可生成高質量圖像。
阿里通義實驗室推出Z-Image-Turbo模型,僅6B參數卻媲美20B+閉源模型。在RTX4090上2.3秒完成1024×1024圖像渲染,顯存佔用13GB。支持8步採樣輸出印刷級畫質,兼容3060 6G等消費級顯卡,顯存需求最高16G。模型精準理解複雜中文提示,如“夜晚的陽光”等抽象描述。
drbaph
Z-Image(造相)是一個擁有60億參數的高效圖像生成基礎模型,專門解決圖像生成領域的效率和質量問題。其蒸餾版本Z-Image-Turbo僅需8次函數評估就能達到或超越領先競品,在企業級H800 GPU上可實現亞秒級推理延遲,並能在16G VRAM的消費級設備上運行。
T5B
Z-Image-Turbo 是經過 FP8 E5M2 和 E4M3FN 格式量化的圖像處理模型,基於原始 Tongyi-MAI/Z-Image-Turbo 模型優化,在保持性能的同時顯著減少模型大小和推理資源需求。
Tongyi-MAI
Z-Image是一款功能強大且高效的圖像生成模型,擁有60億參數。它能有效解決圖像生成領域在效率、質量和功能多樣性方面的問題,為用戶提供高質量的圖像生成和編輯服務。