LLM360:全球首个完全开源透明的大语言模型

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。模型亮点:专注数学推理,性能卓越DeepSeek-Prover-V2-671B 是 DeepSeek 针对数学问题解决量身打造的最新力作。社交媒体上流传的信息显示,该模型在复
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、小米首个推理大模型开源Xiaomi MiMo,70 亿参数小米正式推出其首个大型开源推理模型Xiaomi MiMo,标志着其在人工智能领域的重要进展。MiMo以7亿参数在数学推理和代码竞赛中超越了OpenAI和阿里巴巴的模型,展现出卓越的推理能力。通过独特的训练方法和强化学习策略,MiMo在推理任务上树立了新
全球知名科技公司小米正式发布其首个针对推理(Reasoning)而生的大型开源模型 ——Xiaomi MiMo。该模型旨在解决当前预训练模型在推理能力上的瓶颈,探索如何更有效地激发模型的推理潜能。MiMo 的推出标志着小米在人工智能领域的一次重要尝试,尤其是在数学推理和代码竞赛方面,表现出色。** Xiaomi MiMo 的显著优势 **据小米介绍,MiMo 在数学推理(AIME24-25)和代码竞赛(LiveCodeBench v5)的公开测评中,仅以7亿参数的规模便超越了 OpenAI 的闭源推理模型 o1-mini 和阿里巴巴的开源推理模型 QwQ-32B-P
小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。
Qwen3是什么?阿里Qwen3是通义千问系列的最新一代开源大语言模型(LLM),于2025年4月29日正式发布。作为全球首个支持“混合推理”的模型,Qwen3包含8款不同规模的模型,涵盖稠密模型(如0.6B、4B、32B)和混合专家模型(MoE,如30B-A3B、235B-A22B),采用Apache2.0协议开源,支持免费商用。其核心目标是提供高性能、低成本的AI解决方案,同时覆盖从边缘设备到企业级服务器的全场景需求。 Qwen3的主要功能混合推理模式:支持“思考模式”与“非思考模式”无缝切换。前者适用于复杂推理(如数学、代码
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍
4月29日,通义App与通义网页版(tongyi.com)全面上线阿里新一代通义千问开源模型Qwen3(简称千问3)。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”,以及主对话页面,体验到全球最强开源模型的顶级智能能力。据了解,千问3一经发布便登顶全球最强开源模型。本次发布的千问3开源模型包含8款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。其中,千问3旗舰模型Qwen3-235B-A22B是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源
阿里巴巴正式推出新一代通义千问模型 Qwen3(千问3),并宣布其开源。阿里云表示,千问3是国内首个 “混合推理模型”,同时集成了 “快思考” 与 “慢思考” 的能力。相比于 DeepSeek-R1,千问3的参数量仅为其三分之一,而部署成本大幅降低,使用仅需四张 H20显卡即可实现满血版的部署。根据官方技术博客,千问3采用了混合专家(MoE)架构,拥有2350亿个参数,实际激活时仅需220亿参数。这款模型在预训练阶段使用了36TB 的数据,并通过多轮强化学习进行后训练。同时,千问3能够无缝结
开源人工智能的星空,昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架,已于2025年4月24日正式登陆 Hugging Face 社区,瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布,更像是一次对现有图像编辑格局的强力挑战。据悉,Step1X-Edit 巧妙地将强大的多模态大语言模型(Qwen-VL)与先进的扩散变换器(DiT)深度融合,赋予用户通过简单的自然语言指令,即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能,甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash