上海 AI 实验室发布 “浦医 2.0”OpenMEDLab2.0

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。
蚂蚁集团旗下百灵大模型团队在近期蚂蚁技术日上宣布重大决定:将统一多模态大模型Ming-lite-omni进行全面开源。这一举措不仅标志着蚂蚁集团在AI领域的又一次重大开放,更被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。220亿参数的技术突破Ming-lite-omni基于Ling-lite构建,采用先进的MoE(专家混合)架构,拥有220亿总参数和30亿激活参数的强大配置。这一参数规模在开源多模态模型中达到了新的高度,展现了蚂蚁集团在大模型技术上的深度积累。目前,Ming-lite-omni的模型权重和
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。因此,LMEval 应运而生,它通过标准化评估流程,使得一旦设置好基准,就能轻松地将其应用于任何支持
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、全球首款Office智能体APP!昆仑万维天工超级智能体APP上线昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用,天工超级智能体APP通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建,未来还将扩展至更多领域。【AiBase提要:】✨ 天工超级智能体APP是
字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5。BAGEL模型基于大规模交错多模态数据进行训练,不仅具备强大的文本转图像生成能力,其效果甚至可媲美专业级生成器Stable Diffusion3(SD3)。在图像编辑、自由形式操作、多视图合成等复杂任务中,BAGEL的定性
字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。更重要的是,BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型。BAGEL 采用了一种名为混合变换器专家(MoT)的架构,旨在最大化模型对多样化多模态信息的学习能力。它使用两个独立的编
Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用,这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。BLIP3-o通过创新的扩散变换器架构,结合语义丰富的CLIP图像特征,不仅提升了训练效率,还显著优化了生成效果。AIbase综合最新社交媒体动态,深入解析BLIP3-o的技术突破及其对AI生态的影响。BLIP3-o核心:统一多模态架构的突破BLIP3-o是Salesforce xGen-MM(BLIP-3)系列的最新成果,旨在通过单一自回归架构实现图像理解与图像生成的统一。AIbase了解到,BLIP3-o摒弃了
1、中国版Cursor!腾讯推出 AI 编程助手 CodeBuddy腾讯推出CodeBuddy3.0插件,与微信小程序开发工具深度整合,支持代码补全、智能提示等功能,提升开发效率。【AiBase提要:】🌐 CodeBuddy3.0助力微信小程序开发,提升开发灵活性。🛠️ 支持多种开发工具,整合双模型,提供智能代码补全与生成。📱 插件化设计,无需更换开发环境,兼容游戏开发等多种功能。产品链接:https://copilot.tencent.com/2、仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA字节跳动发布Seed1.5-VL多模态模型,仅20B参数,性能达
在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比,Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视频理解和多模态智能体功能,使其在处理复杂任务时表现更加出色。 超高性能与低成本优势 尽管 Seed1.5-VL 的激活参
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得