德国AI公司Black Forest Labs发布全新图像生成编辑系统FLUX.2,包含四个不同规模模型,支持高效创意工作流程。技术提升包括多参考条件、更高保真度输出和改进文本渲染,推动图像生成技术进步。
字节跳动联合香港三所大学开源DreamOmni2系统,突破性提升AI图像编辑生成能力。该系统实现多模态指令理解,可同时处理文本指令与参考图像,显著改善抽象任务处理效果,推动图像生成技术发展。
香港中文大学MMLab联合北航、上交等推出结构化图像生成编辑系统,突破AI在图表、公式等结构化图像生成瓶颈。现有模型如FLUX.1和GPT-Image虽在自然图像生成表现优异,但处理结构化图像时数据准确性与逻辑性不足。该系统填补了这一技术空白,推动AI在数据可视化领域的发展。
谷歌DeepMind推出Gemini Robotics项目,首次实现机器人行动前“思考”能力。通过两个协同模型,该系统突破传统机器人仅执行固定任务的局限,将生成式AI从文本、图像创作延伸至动作指令输出,有望彻底改变机器人技术发展路径。
AI系统从单张图片生成3D世界
基于级联扩散的文本到图像生成系统
先进的文本到图像生成系统
基于LLM的文本到图像生成系统
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
一个集成4o-image API的MCP服务器实现,支持通过标准化协议让LLM和AI系统生成和编辑图像,包括文本生成图像、图像编辑等功能。
一个结合3D卡通图像生成与文件系统管理的专业服务器,提供基于Gemini AI的高质量3D卡通生成和安全的文件操作功能。
该项目是一个MCP服务器,用于将Google的Gemini模型与Claude Code集成,实现两大AI系统的协作。提供直接查询、协作头脑风暴、代码分析、文本分析、内容摘要和图像提示生成等功能。