浙大微软开源竞争GPT-4的多模态AI系统LLaVA-1.5

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。项目地址:https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md核心亮点:多模态能力全面增强新版MnnLlmApp集成
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。业内分析认为,这一现象可能源于谷歌在模型迭代
Barracuda Networks 近日发布了其新一代的威胁检测技术,利用多模态人工智能(AI)提升对网络攻击的防护能力。这项技术能够实时分析并关联多种数据类型,包括网址、文档、图像和二维码,从而最大限度地提高威胁检测的准确性和速度。Barracuda 表示,最新的多模态 AI 整合了其现有的人工智能和机器学习能力,使系统能够并行处理和解读多条数据流。通过结合机器学习分类器和专用的沙箱引擎,这一升级显著提升了安全性能。公司报告称,这项技术使恶意文件的检测数量增加了三倍,检测
在短视频已经成为亿万用户日常生活的重要组成部分的今天,它不仅仅是一种娱乐方式,更是人们获取信息、表达观点和进行社交的主要渠道。随着短视频内容的爆炸式增长,各大平台正面临前所未有的挑战:一方面需要高效识别和管理内容,另一方面则需要精准地将优质内容推送给真正感兴趣的用户。为了解决这些问题,快手作为国内领先的短视频平台,推出了基于多模态大模型的创新方案 KuaiMod,旨在优化短视频平台生态并提升用户体验。KuaiMod 的核心在于其对短视频内容的质量判别。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布在2025年4月25日的百度Create AI开发者大会上,百度推出了文心快码3.5版本及其多模态AI程序员文心快码Comate Zulu智能体,标志着AI编程工具的新纪元。Zulu智能体通过高效的多模态交互,能够自动生成代码并支持多种开发环境,极大
百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。
近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。突破性特性:全能音频处理能力Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构,并结合Whisper技术,展现了强大的多功能性。该模型支持多种音频相关任务,包括但不限于:语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。以下,AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月,xAI曾宣布Grok-1.5Vision(Grok-1.5V)具备处理文档、图表、截图和照片等视觉信息的能力,但该版
在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。多模态 AI 的目标是同时处理图像、文本等多种数据类型,然而,整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合(late-fusion)策略,即将预训练的单模态模型(如视觉和语言模型)组合
刚刚,国内AI生成创作平台可灵AI正式发布了全面革新的2.0版本,此次升级不仅涵盖了多个核心模型的彻底更新,还带来了一系列突破性的新功能,标志着该平台正式迈入多模态AI创作的新阶段。本次更新的核心是两大基础模型的全面革新:可灵2.0(大师版)和可图2.0。可灵2.0(大师版)专注于视频生成,在语义响应、动态质量和画面美感三方面实现了质的飞跃。该模型现在能够精确响应更复杂的时序描述,例如"女孩从静坐到慢慢离开,伴随着从晨光到暮色的天空变化"等高度复杂的场景描述。