Sora模型的出现正在引发文生视频领域的变革,黄礼强表示,Sora模型经过多方探索和突破,使用了DiT的技术框架,突破了扩散模型的局限。七火山通过与知名企业合作推动文生视频内容本地化和国际化发展,而超讯通信则通过战略投资七火山,将AI模型应用落地。
相关AI新闻推荐

AI日报:阿里发布紧凑型Qwen3-VL模型;科大讯飞AI翻译耳机全球首发;Gemini代码惊现Veo3.1
阿里巴巴发布紧凑型Qwen3-VL视觉语言模型系列,含4亿和8亿参数版本,旨在推动多模态AI技术在边缘设备的应用。该模型有助于提升设备端AI处理能力,促进技术普及。

蚂蚁 dInfer 框架:扩散模型推理速度提升 10 倍,超越自回归模型
蚂蚁集团开源dInfer框架,专用于扩散大语言模型高效推理。该框架将推理速度提升10倍,在保持同等模型性能下超越传统自回归模型。自回归模型逐字生成文本速度受限,扩散模型通过去噪过程实现更高效推理,推动自然语言处理技术发展。
字节跳动开源FaceCLIP模型:文本驱动的高保真人脸生成技术正式上线
字节跳动发布FaceCLIP视觉-语言模型,支持通过文本和参考图像生成身份一致的人脸图像。该模型在人脸语义处理领域实现突破,能根据输入照片和文字描述,保持原始身份特征的同时创造多样化新图像。

巨人网络联手清华大学首创DiaMoE-TTS,开源多方言语音合成大模型框架
巨人网络与清华大学联合发布多方言语音合成大模型DiaMoE-TTS,实现技术突破并全面开源数据代码。该框架旨在解决方言TTS依赖海量专有数据的行业难题,推动方言语音合成的公平普惠发展。

Google Veo3.1视频生成模型即将发布 Gemini代码库惊现Veo3.1免责声明
谷歌Gemini AI平台代码库中已集成Veo3.1免责声明,预示这款高级视频生成工具即将上线。该声明明确了使用指南和限制,表明谷歌正为模型推广做准备,可能允许用户通过对话提示直接生成高保真视频。
阿里通义千问推出Qwen3-VL轻量级模型:4B和8B参数版本性能逼近此前72B旗舰
阿里巴巴通义千问团队推出Qwen3-VL系列两款轻量级模型,参数规模分别为4B和8B。该系列是迄今最强的视觉语言模型家族,新增小参数版本旨在降低部署门槛,同时保持强劲性能。每个规模均提供指令遵循和思维链推理两个版本,为开发者提供更灵活选择。

阿里巴巴推出紧凑型Qwen3-VL模型,提升多模态AI效率,加速边缘设备部署
阿里巴巴发布Qwen3-VL视觉语言模型紧凑版,含4亿和8亿参数变体,推动多模态AI在边缘设备应用。模型优化了STEM推理、视觉问答、OCR、视频理解等核心能力,性能媲美大型模型,实现技术重大突破。

NotebookLM集成Nano Banana,可用于视频生成配图
谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。

宾夕法尼亚大学研究发现:对AI越“粗鲁”回答准确率越高
宾夕法尼亚州立大学研究发现:与AI对话时,直白甚至粗鲁的语气可能比礼貌用语获得更准确答案。研究通过50道多领域选择题测试,验证了五种提问语气对模型表现的影响,颠覆了传统交互认知。

国产AI视觉模型"橘洲"V1.5发布:首个基于国产算力的全生态端侧大模型落地长沙
中科曙光与湖南汇视威在长沙联合发布"橘洲"V1.5端侧版,这是国产首个基于国产算力训练的视觉基座大模型重要升级。新版本实现从"单系统"到"全生态"转型,全面适配安卓系统,构建跨平台、多芯片的端侧AI部署能力,标志着国产AI视觉技术在端侧部署领域取得新突破。