阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问答等多种应用。相比其他模型,Qwen-VL可以进行中文开放域定位,在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。Qwen-VL在多项视觉语言任务中的测试中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,仍面临一定技术挑战。
相关AI新闻推荐

阿里通义Qwen3语言模型上线 ,开源实力再升级!
在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。此外,Qwen3-30B-A3B 作为小型 MoE 模型,其激活参数数量仅为 QwQ-32B 的10%,但性能却显著提升,甚至是 Qwen3-4B 这样的迷你模型也能与 Qwen2.5-72B-Instruct 相媲美。此次开源的还有多个 Dense 模型,包括 Qwen3-

英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升
近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。 超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称,该模型能够在仅仅一秒内完成60分钟音频的转录,极大提高了语音处理的速度。这一效率让开发者和企业在构建语音识别和转录服务时,能够获得更快的反馈和更高的生产力。在技术参数上,Parakeet-TDT-0.6B-V2拥有6亿个参数,结合了 Fas

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。模型亮点:专注数学推理,性能卓越DeepSeek-Prover-V2-671B 是 DeepSeek 针对数学问题解决量身打造的最新力作。社交媒体上流传的信息显示,该模型在复

AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、小米首个推理大模型开源Xiaomi MiMo,70 亿参数小米正式推出其首个大型开源推理模型Xiaomi MiMo,标志着其在人工智能领域的重要进展。MiMo以7亿参数在数学推理和代码竞赛中超越了OpenAI和阿里巴巴的模型,展现出卓越的推理能力。通过独特的训练方法和强化学习策略,MiMo在推理任务上树立了新

小米首个推理大模型开源Xiaomi MiMo,70 亿参数
全球知名科技公司小米正式发布其首个针对推理(Reasoning)而生的大型开源模型 ——Xiaomi MiMo。该模型旨在解决当前预训练模型在推理能力上的瓶颈,探索如何更有效地激发模型的推理潜能。MiMo 的推出标志着小米在人工智能领域的一次重要尝试,尤其是在数学推理和代码竞赛方面,表现出色。** Xiaomi MiMo 的显著优势 **据小米介绍,MiMo 在数学推理(AIME24-25)和代码竞赛(LiveCodeBench v5)的公开测评中,仅以7亿参数的规模便超越了 OpenAI 的闭源推理模型 o1-mini 和阿里巴巴的开源推理模型 QwQ-32B-P

小米首个推理大模型Xiaomi MiMo开源
小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。

阿里Qwen3深度解析:新一代开源大语言模型的革新与突破
Qwen3是什么?阿里Qwen3是通义千问系列的最新一代开源大语言模型(LLM),于2025年4月29日正式发布。作为全球首个支持“混合推理”的模型,Qwen3包含8款不同规模的模型,涵盖稠密模型(如0.6B、4B、32B)和混合专家模型(MoE,如30B-A3B、235B-A22B),采用Apache2.0协议开源,支持免费商用。其核心目标是提供高性能、低成本的AI解决方案,同时覆盖从边缘设备到企业级服务器的全场景需求。 Qwen3的主要功能混合推理模式:支持“思考模式”与“非思考模式”无缝切换。前者适用于复杂推理(如数学、代码

AI日报:通义千问Qwen3重磅发布;抖音AI搜索能力开放;ChatGPT 搜索新增网购功能;Suno V4.5版本将发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、通义千问Qwen3发布:推理能力显著增强通义千问团队推出了Qwen3,这是其大型语言模型系列的最新成员。Qwen3在多个基准测试中表现出色,尤其在代码、数学和通用能力方面,展现了与顶级模型的竞争力。该模型支持两种思考模式,能够灵活应对复杂和简单问题,并且开源了多个模型的权重,旨

暗月之面发布开源模型 Kimi-VL, 28 亿个参数即可处理文本、图像和视频
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍