AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航 MCP

浙大微软开源竞争GPT-4的多模态AI系统LLaVA-1.5

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Oct 8, 2023

浙江大学、微软研究院和哥伦比亚大学研究人员联合开发了新的多模态AI系统LLaVA-1.5,在11项基准测试中刷新记录,在多模态理解能力上超过GPT-4V,可与其形成竞争。LLaVA-1.5采用简单的系统架构和公开数据集取得进步,证明开源模型通过合理设计也可取得强大能力,为AI发展带来启发。LLaVA-1.5的开源填补了多模态AI的空白,被业界视为“硬刚GPT-4”的强力新秀。

LLaVA 多模态AI 视觉问答

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用，支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务，以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到，MNN的此次更新进一步推动了多模态AI在移动端的普及。项目地址：https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md核心亮点:多模态能力全面增强新版MnnLlmApp集成

2025年5月13号 9:54

3.4k

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现，为行业发展提供了可量化参考。测试结果显示，Gemini2.5Flash在综合实力上力压群雄，但却在OCR和分类任务中出现意外"滑铁卢"，表现甚至不如上一代的Gemini2.0Flash，分别下降了1.84%和0.05%。业内分析认为，这一现象可能源于谷歌在模型迭代

2025年5月12号 8:58

2.5k

Barracuda推出多模态AI升级，提升网络安全威胁检测能力

Barracuda Networks 近日发布了其新一代的威胁检测技术，利用多模态人工智能（AI）提升对网络攻击的防护能力。这项技术能够实时分析并关联多种数据类型，包括网址、文档、图像和二维码，从而最大限度地提高威胁检测的准确性和速度。Barracuda 表示，最新的多模态 AI 整合了其现有的人工智能和机器学习能力，使系统能够并行处理和解读多条数据流。通过结合机器学习分类器和专用的沙箱引擎，这一升级显著提升了安全性能。公司报告称，这项技术使恶意文件的检测数量增加了三倍，检测

2025年5月9号 17:08

1.8k

快手祭出“内容净化器”KuaiMod！让多模态AI帮你过滤烂片

在短视频已经成为亿万用户日常生活的重要组成部分的今天，它不仅仅是一种娱乐方式，更是人们获取信息、表达观点和进行社交的主要渠道。随着短视频内容的爆炸式增长，各大平台正面临前所未有的挑战:一方面需要高效识别和管理内容，另一方面则需要精准地将优质内容推送给真正感兴趣的用户。为了解决这些问题，快手作为国内领先的短视频平台，推出了基于多模态大模型的创新方案 KuaiMod，旨在优化短视频平台生态并提升用户体验。KuaiMod 的核心在于其对短视频内容的质量判别。

2025年5月9号 13:47

2.3k

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布在2025年4月25日的百度Create AI开发者大会上，百度推出了文心快码3.5版本及其多模态AI程序员文心快码Comate Zulu智能体，标志着AI编程工具的新纪元。Zulu智能体通过高效的多模态交互，能够自动生成代码并支持多种开发环境，极大

2025年4月28号 15:34

8.6k

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中，百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，标志着AI编程工具进入了一个全新的发展阶段。

2025年4月28号 10:18

2.7k

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

近日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。突破性特性:全能音频处理能力Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构，并结合Whisper技术，展现了强大的多功能性。该模型支持多种音频相关任务，包括但不限于:语音识别（ASR）、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件

2025年4月27号 9:04

4.7k

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新，其功能全面升级，不仅新增了视觉处理能力，还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破，为用户提供了更智能、更便捷的交互体验。以下，AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月，xAI曾宣布Grok-1.5Vision（Grok-1.5V）具备处理文档、图表、截图和照片等视觉信息的能力，但该版

2025年4月23号 8:54

5.1k

苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能（AI）领域，苹果公司的工程师们与法国索邦大学的研究团队合作，展开了一项重要研究。近日，科技媒体 marktechpost 发布了相关博文，探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明，从头训练的早期融合模型在计算效率和可扩展性上更具优势。多模态 AI 的目标是同时处理图像、文本等多种数据类型，然而，整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合（late-fusion）策略，即将预训练的单模态模型(如视觉和语言模型)组合

2025年4月16号 16:30

4.7k

核能级进化！可灵AI迈入2.0时代新增多模态编辑和图片编辑功能

刚刚，国内AI生成创作平台可灵AI正式发布了全面革新的2.0版本，此次升级不仅涵盖了多个核心模型的彻底更新，还带来了一系列突破性的新功能，标志着该平台正式迈入多模态AI创作的新阶段。本次更新的核心是两大基础模型的全面革新:可灵2.0（大师版）和可图2.0。可灵2.0(大师版)专注于视频生成，在语义响应、动态质量和画面美感三方面实现了质的飞跃。该模型现在能够精确响应更复杂的时序描述，例如"女孩从静坐到慢慢离开，伴随着从晨光到暮色的天空变化"等高度复杂的场景描述。

2025年4月15号 14:45

3.5k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图