北京智源人工智能研究院发布新一代多模态大模型Emu3.5,实现“世界级统一建模”,突破传统AI在物理理解和因果推理上的短板,让AI从单纯生成图像、文本进化到真正理解物理世界。
北京发布《人工智能产业白皮书(2025)》,预计核心产值超4500亿元。白皮书详细介绍了2025年中国人工智能大会在京召开情况,以及北京市科委发布的相关规划,聚焦AI技术趋势与创新应用,为开发者提供洞见。
全球海拔最高大语言模型“阳光清言”V1.0在西藏发布,参数量超千亿,训练语料达288亿Token,覆盖多领域,填补藏语AI空白。响应国家AI+行动,拉萨社区和贡嘎机场已接入AI客服与翻译服务。
小米创始人雷军近日表示,未来五年人工智能将深刻影响传统产业,强调“所有产业都值得用AI再做一遍”。他以小米汽车工厂为例,指出AI视觉大模型与X光机技术使大压铸件检测效率达人工十倍,仅需两秒完成一次检测。
全球首个人工智能直播流扩散模型。
TwelveLabs是被领先研究人员认可为视频理解中性能最出色的人工智能,超越了云计算巨头和开源模型的基准。
KAYAK AI Beta驱动引擎是一款基于人工智能模型ChatGPT的旅行问题解答引擎。
专为虚构写作设计的人工智能模型,帮助作者创作高质量的小说内容。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Clemylia
Gheya-1是LES-IA-ETOILES生态系统中的新一代基础语言模型,拥有2.02亿参数,是旧版Small-lamina系列的升级版本。该模型专为专业微调而设计,在人工智能、专业语言模型和生物学领域具有针对性训练。
prithivMLmods
Olmo-3-Think是艾伦人工智能研究所推出的完全开源的语言模型系列,包含7B和32B两种规模。该模型经过专门训练,能够展现明确的推理链,支持透明的逐步推理和可检查的中间思维痕迹,在推理、数学和代码任务中表现出色。
fibonacciai
RealRobot_chatbot_llm是基于Gemma3n架构的专业产品人工智能模型,专门在RealRobot产品目录的专有数据集上进行了微调。该模型能够根据企业自身的产品数据,快速创建准确、经济高效且可部署的专业语言模型,提供高度专业化的产品问答服务。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
nineninesix
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
DragonLLM
LLM Pro Finance是一款专为金融和经济专业人士设计的多语言人工智能模型,基于大量高质量的金融和经济数据训练,能够针对复杂的金融问题生成准确且贴合上下文的回应。
Tesslate
WEBGEN DEVSTRAL IMAGES 是一个专注于网页生成的人工智能模型,能够利用 HTML、CSS、JS 和 Tailwind 技术生成单页式网页。该项目基于自定义模板进行训练,采用监督微调方法,使用 GPT-OSS-120B 生成的数据集进行训练。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
mlx-community
这是一个基于MLX框架的4位量化大语言模型,由瑞士人工智能研究所开发,支持多语言文本生成任务,采用Apache-2.0许可证发布。
Quatfit
Isha-1B-preview是一个拥有10亿参数的对话式人工智能模型,模拟名为Isha Verma的青少年形象,能够生成高度拟人、随意且略带羞涩的对话回复,包含内部思考过程。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
基于Qwen3架构构建的专业模型,专注于科学、人工智能设计和通用推理领域。该模型在高难度科学推理数据集上进行了微调,具备出色的通用和创造性推理能力,体积小巧适合本地设备和服务器部署。
Phonepadith
这是一个专门针对老挝语优化的摘要生成模型,基于Google Gemma-3-4B-Instruct模型微调,使用超过5000个高质量老挝语输入-输出对进行训练,主要聚焦人工智能与数字内容(AIDC)主题。
menzo-ai
这是一款基于LLaMA-3-8B微调的对话式人工智能模型,专门为心理健康指导提供富有同理心、无偏见的支持。模型使用精心策划的心理健康数据集进行微调,能够提供体贴、支持性的回复,模拟治疗式对话。
stanfordmimi
MedVAL-4B是一个经过微调的语言模型,能够以接近医生级别的可靠性评估人工智能生成的医学文本输出。它是一个自监督框架,利用合成数据训练评估器大语言模型,无需医生标签或参考输出即可评估大语言模型生成的医学输出与输入之间的事实一致性。
aisingapore
WangchanLION-v3-IT是由VISTEC和新加坡人工智能公司联合开发的多语言大语言模型,专门针对泰语进行指令调优。该模型基于Llama3架构,使用约376万个泰语指令-完成对进行微调,支持英语和泰语处理。
Llama-3.1-8B-Instruct-RM-RB2是Allen人工智能研究所发布的奖励模型之一,基于Llama-3.1-8B-Instruct微调,用于评估和优化生成模型的偏好学习。
该项目基于Nasdanika能力构建人工智能系统,专注于在资源集合(互连模型)上操作,通过“叙述者”处理器多角度描述模型元素及其关系,并利用嵌入和向量存储实现语义搜索和RAG(检索增强生成),同时支持OpenAI和Ollama的聊天完成功能。