一群特殊的“AI老法师”ManuDrive正悄然改变传统制造业,在生物发酵、建筑设计、污水处理等领域替代蓝领工人。这是上海交通大学AIMS Lab的科研成果转化,由李金金教授创立的科技公司,将AI从文字、图像处理拓展至工业时序控制,推动制造业智能化转型。
OpenAI将实时语音与视觉功能整合进ChatGPT主界面,用户按住麦克风图标即可边说话边查看地图、图表等视觉内容,文字转录同步显示。更新亮点包括多模态同屏交互(语音提问时实时展示相关图像并自动滚动文字),以及连续对话无中断(语音回复同时更新画面,延迟低于300毫秒),无需跳转页面。
谷歌在英国推出AI搜索新模式,基于Gemini2.5模型支持复杂提问,可处理多部分问题。新功能采用查询扩展技术,将问题分解为子主题并行搜索,提供更精准回答。支持文字/语音/图像多种交互方式,用户可上传图片或语音提问。AI模式会评估回答可信度,低信度时转为传统搜索结果。该功能旨在提升搜索深度和效率,同时促进网站流量多元化。目前仍在优化中,谷歌鼓励用户反馈使用体验。
火山方舟平台推出豆包图像编辑模型SeedEdit3.0,主打"动嘴P图"功能。该模型基于Seedream3.0技术,支持千万像素高清图像处理,能精准修改发型、服装等细节而不影响背景。其亮点在于强大的自然语言理解能力,用户通过语音或文字指令即可完成复杂编辑,如文字替换、昼夜转换等。应用场景覆盖专业设计、电商运营等,支持去水印、老照片修复、艺术风格转换等功能,大幅降低图像编辑门槛,让创意实现更便捷。
在浏览器中实现图像或文字快速转3D模型,支持多格式导出。
GPT Image 2:免费AI图像生成器与在线照片编辑器,4K文字转图像。
免费AI图像生成器,无需注册,无限文字转图像,即时出图。
免费AI视频生成器,可将文字和图像转化为4K视频,无需编辑技能。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
$8
$1.6
$4
Tencent
24
sivan22
一个用于希伯来语图像转文本的OCR模型,能够识别图像中的希伯来语文字。