谷歌AI Studio推出全新AI应用构建器,用户仅需输入文本描述即可创建AI驱动应用,实现“零代码”开发。此举使谷歌与微软、OpenAI等公司在无代码工具领域并驾齐驱。核心亮点是深度集成多模态Gemini模型,开发者可利用Nano Banana模型轻松实现图像生成功能。
Apache Doris 4.0 正式发布,聚焦AI驱动、搜索增强和离线提效三大方向。新增向量索引和AI函数等特性,提升数据处理效率与用户体验。通过深度集成向量索引技术,高效处理文本嵌入等高维向量数据,支持用户在同一平台使用SQL进行结构化分析。
中国首个标准大模型“同道”互联网版上线,推动标准化工作进入AI驱动新阶段。该模型旨在解决标准领域“检索难、撰写慢、应用弱”的难题,通过人工智能提升效率、精度和协同性,助力在海量文本中精准定位信息,实现标准化工作的深刻变革。
字节跳动发布FaceCLIP视觉-语言模型,支持通过文本和参考图像生成身份一致的人脸图像。该模型在人脸语义处理领域实现突破,能根据输入照片和文字描述,保持原始身份特征的同时创造多样化新图像。
AI驱动在线工具,用自拍或文本提示定制专属安卓机器人
AI驱动的文本转动态图形工具,聊天即可创作,无需复杂软件和学习曲线。
Nano Banana是由Google模型驱动的AI图像生成编辑平台,用文本提示操作。
Gomotion是一个AI驱动的视频生成工具,可以从简单的文本提示中生成震撼的动态设计视频。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
TIGER-Lab
PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型,采用好奇心驱动强化学习训练,专注于图像文本到文本的任务。
InstantX
CSGO是一个用于文本生成图像的PyTorch实现,支持图像驱动的风格迁移、文本驱动的风格化合成和文本编辑驱动的风格化合成。