Domo AI近日发布了v2v 5. 0 测试版,其中最引人注目的新功能是推出了一个v2v真实模型。该模型可以实现视频的反向操作,即可以将动漫类型的视频转换为真人视频,给用户带来了前所未有的视觉体验。
体验地址:https://www.domoai.app/en/create/video
Domo AI近日发布了v2v 5. 0 测试版,其中最引人注目的新功能是推出了一个v2v真实模型。该模型可以实现视频的反向操作,即可以将动漫类型的视频转换为真人视频,给用户带来了前所未有的视觉体验。
体验地址:https://www.domoai.app/en/create/video
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,腾讯云官网正式上线了腾讯混元A13B模型的API服务,输入价格定为每百万Tokens0.5元,输出价格则为每百万Tokens2元,这一举措迅速在开发者社区中引发了热烈反响。 作为业界首个13B级别的MoE(混合专家)开源混合推理模型,Hunyuan-A13B以其总参数80B、激活参数仅13B的精简设计,实现了与同等架构领先开源模型相媲美的效果,同时在推理速度上更胜一筹,性价比显著提升。这一创新不仅降低了开发者获取先进模型能力的门槛,更为AI应用的广泛普及奠定了坚实基础。
【AI日报速览】1.智谱推出免费AI Slides,基于GLM模型快速生成专业PPT;2.可灵AI发布可图2.1,图像生成支持180种风格;3.NVIDIA推出DiffusionRenderer,实现视频转3D场景编辑;4.墨刀AI上线30秒生成可编辑原型功能;5.Higgsfield Soul ID用10张照片生成虚拟形象;6.谷歌开源GenAI Processors构建AI工作流;7.谷歌Veo3新增图转视频功能;8.Mistral AI发布专注代码生成的Devstral2507系列模型。
微软发布革命性BioEmu模型,将蛋白质动态模拟时间从数年缩短至数小时。该模型基于AlphaFold2改进,采用序列编码器和扩散生成技术,能生成多样化蛋白质构象。通过200毫秒分子动力学数据训练,显著提升模拟精度。这一突破将极大加速药物研发和生物医学研究,已在《自然》期刊发表。
NVIDIA推出DiffusionRenderer技术突破视频生成瓶颈,实现3D场景的可控编辑。该技术采用双神经渲染器架构:逆渲染器提取场景几何材质数据,前向渲染器结合光照生成逼真视频。通过15万合成视频和1万真实视频数据集训练,模型在光影效果和材质还原上表现优异。支持动态光照调整、材质修改和对象插入等操作,大幅提升创作自由度。这项技术标志着AI视频生成从单纯创作迈向可编辑的新阶段。
中小银行加速布局大模型技术,超10家城商行近期启动相关项目招标,投资规模普遍在200-600万元之间。这些银行主要聚焦应用层开发,旨在优化服务流程、提升运营效率。典型案例显示,广西北部湾银行等项目报价达数百万元。相比国有大行动辄上亿的投入,城商行更注重性价比和实际应用效果。业内报告指出,银行业大模型应用正从试点走向多场景落地,推动行业智能化转型。
谷歌为Veo3AI视频生成器新增图像转视频功能,该功能已整合进Gemini应用和Flow工具,覆盖150多国。目前仅限AI Ultra/Pro用户使用,每日限3次创作。用户可上传图片并添加音频描述生成视频,支持下载分享。数据显示7周内用户已创建超4000万视频。所有生成视频均带有可见"Veo"水印和不可见SynthID数字水印,谷歌还提供专用检测工具识别AI内容。
埃隆·马斯克旗下xAI的Grok4模型陷入争议,测试显示该AI在回答敏感话题时优先引用马斯克本人观点,与其"追求真相"承诺相矛盾。虽然Grok4在技术测试中表现优异,但近期接连出现反犹言论等严重失误,加上明显的政治倾向性,给其商业推广蒙上阴影。目前xAI尚未公布模型训练细节,缺乏透明度加剧外界质疑。这些问题可能影响其300美元/月的订阅服务和API商业计划。
可灵AI推出新一代图像生成模型"可图2.1",在指令理解、人像美感和电影质感等方面全面提升。新模型具备强大文字生成能力,支持180多种风格,7月17日前会员可免费体验。该模型能精准呈现复杂场景,如3D沙盘、海底火山爆发等宏大场面,在人像光影处理上尤为出色。可灵AI已发展为多模态创意平台,用户累计生成3.44亿张图片和1.68亿个视频,展现强大技术实力和市场影响力。
可灵AI推出可图2.1模型,在指令理解、人像美化、电影质感及180多种风格响应能力上全面升级,同时优化了文字生成效果。新模型将向所有会员免费开放7天,支持文生图、单图参考和多图参考等功能。
vivo发布全新端侧多模态模型BlueLM-2.5-3B,具备GUI理解能力。该模型采用2.9B参数设计,支持长短思考模式切换,在20余项评测中表现优异:文本处理能力突出,有效缓解多模态模型"遗忘问题";长思考模式下数学和逻辑推理能力显著优于同规模模型;GUI理解能力尤其出色,得益于大量中文应用截屏数据训练。模型通过优化数据利用策略和训练流程,实现了高效低成本运行,为AI普及应用奠定基础。