小米继2月开源VLA大模型Xiaomi-Robotics-0后,近日公布其真机后训练全流程,旨在解决机器人从实验室到实际生产的“最后一公里”问题。演示中,搭载该模型的机器人仅用20小时训练便展现出精细操作能力,推动AI机器人成为开箱即用的生产力工具。
阿里通义实验室发布Fun-ASR1.5语音识别大模型,通过统一架构实现通用性与精准度的平衡。该模型支持全球30种主流语言,并深度适配汉语七大方言及20多种地方口音,在多语言、多方言及复杂语境下表现突出。
阿里巴巴宣布组织架构调整,核心是加速AI建设。CEO吴泳铭通过内部信宣布,设立集团技术委员会并升级业务部门,开启AI全面加速期。最受关注的是全球顶尖科学家李飞飞加盟,出任阿里云CTO,全面负责阿里云技术及AI云基础设施建设。
阿里通义实验室Qwen Pilot团队推出FIPO算法,通过引入Future-KL机制,精准识别推理链中的关键Token,以优化大模型推理能力,突破传统强化学习方法在区分重要Token上的瓶颈。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Mungert
Apriel-1.5-15b-Thinker 是一款由 ServiceNow SLAM 实验室开发的多模态推理模型,参数规模为150亿。它具备强大的文本和图像理解与推理能力,采用‘思考-回答’的链式推理模式,旨在以较小的模型规模实现与大型模型相媲美的性能。
tensorblock
LongWriter-Zero-32B是由清华大学知识工程实验室开发的32B参数大语言模型,专门针对长文本写作任务优化。本仓库提供该模型的GGUF量化格式文件,支持多种量化级别,适用于不同的硬件配置和使用场景。
bartowski
这是一个由ServiceNow语言模型(SLAM)实验室构建的15B参数大语言模型,经过llama.cpp工具量化处理,适用于本地推理部署。
Equall
SaulLM-54B-Instruct是一款专为法律领域设计的540亿参数语言模型,由Equall与巴黎萨克雷大学MICS实验室合作开发,基于欧美法律数据进行预训练与微调。
saltlux
Saltlux AI实验室基于Meta Llama-3-8B优化的韩语大语言模型,扩展了韩语分词器并精选100GB韩语数据预训练
johnsnowlabs
由约翰斯诺实验室开发的70亿参数医学大语言模型,专为生物医学领域优化
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
MiniCPM是由面壁智能与清华大学自然语言处理实验室联合开发的端侧大语言模型,非词嵌入参数量仅24亿(2.4B),支持128k上下文窗口。
nlpai-lab
KULLM3是由韩国大学NLP&AI实验室开发的大型语言模型,具备先进的指令遵循和流畅对话能力,在韩语处理方面表现卓越,性能接近GPT-3.5-turbo,是目前公开可用的最佳韩语语言模型之一。
MiniCPM是由面壁智能与清华大学自然语言处理实验室联合开源的一系列端侧大语言模型,核心语言模型MiniCPM-2B仅含24亿非词嵌入参数。
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧语言大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。
LoneStriker
InternLM-Math是由上海人工智能实验室开发的最先进的双语开源数学推理大语言模型。它在数学推理任务上表现卓越,支持多种数学问题的解决和证明,还可作为奖励模型使用,同时具备数据增强和代码解释等实用功能。
duoqi
Nanbeige-16B是由南贝格大模型实验室开发的160亿参数语言模型,采用2.5万亿token进行预训练,支持中文和英文。
internlm
InternLM2是由上海人工智能实验室开发的开源大语言模型,具有200K上下文窗口、出色的综合性能、代码解释器与数据分析能力以及强大的工具使用能力,能为用户提供高效、准确的文本生成服务。
riotu-lab
ArabianGPT-0.3B是专为阿拉伯语优化的GPT-2模型,由沙特王子大学机器人与物联网实验室研发,针对阿拉伯语复杂特性进行优化。
GOAT-AI
GOAT-70B-Storytelling是由GOAT.AI实验室训练的大语言模型,专注于生成高质量、连贯且引人入胜的叙事内容,如故事和书籍。
deeplang-ai
深言科技联合清华大学NLP实验室开源的中英双语大语言模型,基于数万亿token高质量数据预训练,具备8K上下文窗口处理能力
Jiabin99
GraphGPT 是一款基于图指令调优范式优化的面向图结构数据的大语言模型,由香港大学数据智能实验室开发。
ShengbinYue
复旦大学数据智能与社会计算实验室研发的中文法律领域大模型,提供智能法律服务
InternLM-20B是由上海人工智能实验室联合商汤科技、香港中文大学和复旦大学发布的200亿参数预训练模型,在超过2.3T高质量中英文及代码token数据上进行预训练,具备卓越的综合性能和强大的工具调用能力。