谷歌AI Studio推出全新AI应用构建器,用户仅需输入文本描述即可创建AI驱动应用,实现“零代码”开发。此举使谷歌与微软、OpenAI等公司在无代码工具领域并驾齐驱。核心亮点是深度集成多模态Gemini模型,开发者可利用Nano Banana模型轻松实现图像生成功能。
Apache Doris 4.0 正式发布,聚焦AI驱动、搜索增强和离线提效三大方向。新增向量索引和AI函数等特性,提升数据处理效率与用户体验。通过深度集成向量索引技术,高效处理文本嵌入等高维向量数据,支持用户在同一平台使用SQL进行结构化分析。
中国首个标准大模型“同道”互联网版上线,推动标准化工作进入AI驱动新阶段。该模型旨在解决标准领域“检索难、撰写慢、应用弱”的难题,通过人工智能提升效率、精度和协同性,助力在海量文本中精准定位信息,实现标准化工作的深刻变革。
字节跳动发布FaceCLIP视觉-语言模型,支持通过文本和参考图像生成身份一致的人脸图像。该模型在人脸语义处理领域实现突破,能根据输入照片和文字描述,保持原始身份特征的同时创造多样化新图像。
AI驱动的文本转视频生成器,快速将文字转化为专业视频。
由谷歌Veo 3.1 AI驱动,快速将文本和图像转化为惊艳视频。
免费的ChatGPT图像生成器,由GPT Image 1.5驱动,支持文本到图像及图像编辑。
AI驱动的照片编辑平台,可文本生成图像或转换现有照片
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
TIGER-Lab
PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型,采用好奇心驱动强化学习训练,专注于图像文本到文本的任务。
InstantX
CSGO是一个用于文本生成图像的PyTorch实现,支持图像驱动的风格迁移、文本驱动的风格化合成和文本编辑驱动的风格化合成。
一个基于Model Control Protocol(MCP)的服务器,用于管理和提供动态提示模板。它利用强大的Go文本模板引擎,支持变量、条件、循环和可复用组件,允许创建逻辑驱动的提示模板,并能与Claude、Gemini等兼容MCP的客户端无缝集成。
一个独立的MCP服务器,通过IbInputSimulator提供驱动程序级别的键盘鼠标输入控制工具,支持文本输入、快捷键、窗口管理等操作,无需UIA或视觉模块。