阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问答等多种应用。相比其他模型,Qwen-VL可以进行中文开放域定位,在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。Qwen-VL在多项视觉语言任务中的测试中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,仍面临一定技术挑战。
相关AI新闻推荐

字节跳动开源Trae-Agent,助力智能开发新体验
今日,字节跳动旗下AI原生集成开发环境(IDE)Trae宣布正式开源其核心组件Trae-Agent,为全球开发者带来全新智能编程体验。据官方推文(@Trae_ai)透露,开发者现可通过`git clone`和`cd trae-agent`快速获取并体验这一智能开发助手。Trae-Agent是字节跳动打造的智能开发工具,支持自然语言驱动的编程任务自动化,极大提升开发效率。其核心亮点包括:- **多模型支持**:兼容OpenAI、Anthropic等多种大语言模型,安装配置简便,灵活适配不同开发需求。- **强大功能集成**:内置文件编辑、脚本执行等工具,支

谷歌在全球推行全新 Veo 3 视频生成模型
谷歌宣布正式在全球范围内推出其最新的视频生成模型 Veo3。此次发布的消息令广大用户期待已久,Veo3现已向超过159个国家的 Gemini 用户开放,提供全新的视频创作体验。Veo3视频生成模型的特点在于其能够让用户通过简单的文本提示生成最多八秒钟的视频。根据谷歌的介绍,这项技术专为追求创意的用户设计,尤其是对短视频内容需求日益增加的社交媒体用户来说,Veo3将大大简化视频创作过程。不过,值得注意的是,Veo3目前仅对谷歌的 AI Pro 计划付费用户开放,且每日生成视频的数量限制

揭开大模型的秘密!那些 “思考词” 背后藏着惊人的信息量
近日,来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时,所使用的 “思考词” 实际上反映了其内部信息量的显著提升。这一研究成果通过信息论的方法,为我们更好地理解人工智能的推理机制提供了新的视角。你或许见过大模型在解答问题时,会输出一些看似人类化的语言,比如 “嗯……”、“让我想想……” 或 “因此……”。这些 “思考词” 是简单的表面装饰,还是代表着模型真正的思考

开源革命!Kyutai TTS发布:超低延迟语音合成,AI语音新纪元来袭!
近日,法国AI实验室Kyutai宣布,其全新文本转语音模型 Kyutai TTS 正式开源,为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。这一突破性发布不仅推动了开源AI技术的发展,也为多语言语音交互应用开辟了新的可能性。AIbase为您独家解析这一技术亮点及其潜在影响。 超低延迟,实时交互新体验Kyutai TTS以其卓越的性能表现成为业界焦点。该模型支持 文本流式传输,能够在极短时间内生成自然流畅的语音。得益于强大的 L40S GPU 支持,Kyutai TTS能够同时处理多达32个请求,

DeepMind 推出 Crome:提升大型语言模型对人类反馈的对齐能力
在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。这种失败导致了脆弱的奖励模型(RMs),从而生成不对齐的策略。为了解决这一问题,需要一种利用因果理解来训练 RMs 的新方法,以便对因果质量属性敏感,并对

MiniMax 发布全球首个开源大规模 AI 模型,技术突破引发行业关注
近日,上海的 AI 独角兽公司 MiniMax 正式推出了全球首个开源大规模混合架构推理模型 ——MiniMax-M1。该模型一经推出,便迅速跻身权威评测榜单,成为全球开源模型的第二名,仅次于近期发布的 DeepSeek-R1-0528。这一里程碑式的成就让 MiniMax 创始人兼 CEO 闫俊杰在社交媒体上感慨:“第一次感觉到大山不是不能翻越。”MiniMax-M1的亮相不仅令人瞩目,其在技术细节上的表现更是出色。该模型在长文本处理和工具调用等方面显示出强大的优势,支持高达100万 token 的上下文输入能力,足以一次性处理

CoreWeave 率先推出英伟达最新 AI 芯片,助力云计算行业创新
近日,英伟达与 CoreWeave 宣布,英伟达最新的人工智能图形处理器 Blackwell Ultra 芯片已在 CoreWeave 实现商业部署。这一消息无疑为 AI 技术的云计算服务注入了新的活力。戴尔也表示,CoreWeave 已经收到基于英伟达 GB300NVL72AI 系统的定制设备,这标志着 CoreWeave 成为首家安装基于 Blackwell Ultra 系统的云服务提供商。图源备注:图片由AI生成,图片授权服务商MidjourneyBlackwell Ultra 是英伟达推出的最新芯片,预计将在今年剩余的时间内批量出货。CoreWeave 所安装的系统采用了先进的液冷技术,包含72个 B

昆仑万维再次开源奖励模型Skywork-Reward-V2
2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。第一阶段,先构建未经验证的初始偏好池,借助

谷歌Veo 3视频生成模型向 Pro / Ultra 会员开放,将新增“照片生成视频”功能
谷歌在全球范围内宣布其最新一代AI文生视频模型 Veo3 正式向 Google AI Pro 和 Ultra 会员开放。这款由 Google DeepMind 研发的视频生成模型,以其卓越的高清画质、音画同步能力以及多模态创作功能,迅速成为AI视频生成领域的焦点。Veo3:重新定义AI视频生成在2025年 Google I/O 开发者大会上首次亮相的 Veo3,被誉为谷歌在AI视频生成领域的里程碑式产品。相比前代模型,Veo3在以下方面实现了显著突破:高清画质与物理真实感:Veo3支持生成 1080p 高清视频,内部测试甚至可达 4K 分辨率。其视频画面不仅细节

Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术
7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。在语言