英伟达小模型NVARC在ARC-AGI2评测中以27.64%的成绩超越GPT-5Pro,且单任务成本仅20美分,远低于对手的7美元,性价比突出。其成功源于独特的零预训练深度学习方法,无需依赖大规模通用数据集。
AI数据服务商Micro1年收入突破1亿美元,估值达5亿美元,成为增长最快的AI供应链公司。公司从招聘工具转型为“AI专家云”平台,管理数千名跨学科专家,创始人年仅24岁。
SemiAnalysis报告指出,OpenAI自2024年5月发布GPT-4o后,未完成新一代前沿模型的大规模预训练,因扩展参数和数据时遭遇收敛困难或性能倒退而中止。GPT-5系列实为GPT-4o优化版,缺乏架构突破。相比之下,谷歌TPUv7已在Gemini3等模型上成功验证大规模预训练,算力集群表现更优。
埃隆・马斯克在巴伦投资大会上首次量化预测AGI时间表:明年Q1发布的Grok 5有约10%概率实现通用人工智能。技术亮点包括:6万亿参数MoE架构(稀疏度70%)、多模态统一编码(文本/图像/音频/实时视频流)、帧级延迟<120ms。训练数据来自X平台每日5亿帖文与2亿小时视频流,支持实时回灌训练。
一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。
将Common Crawl转化为精细的长期预训练数据集
多语言预训练数据集
大规模多模态预训练数据集
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$21
$105
200
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Baidu
32
$8.75
$70
400
$1.75
$14
$0.35
$525
$0.5
128
Huawei
Tencent
28
$7.7
$30.8
4
$3.5
$10.5
16
$2
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
TeichAI
本模型是基于Qwen3-4B-Thinking-2507基础模型,使用高推理难度的Gemini 3 Pro预览数据集进行蒸馏训练得到的模型。它专注于提升在编码和科学领域的复杂推理能力,通过特定数据集的训练,旨在将大型模型(如Gemini 3 Pro)的推理能力高效地迁移到较小规模的模型中。
Arko007
Zenyx_114M-Tiny-Edu-Instruct 是一个实验性的小型指令微调语言模型,拥有约1.14亿参数。它基于TinyEdu-50M基础模型构建,在FineWeb-Edu数据集上预训练,并在OpenHermes-2.5和CodeFeedback-Filtered混合数据集上进行了指令微调。该模型旨在探索极小架构下指令微调的极限,验证损失收敛至约1.04。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
aisingapore
Qwen-SEA-LION-v4-32B-IT是基于Qwen3-32B构建的东南亚语言大语言模型,专门针对东南亚地区进行了预训练和指令微调。该模型在包含7种东南亚语言的SEA-Pile v2语料库上继续预训练,并在800万对高质量问答数据上进行指令微调,具备强大的多语言理解和推理能力。
redis
这是一个基于预训练模型的句子相似度计算模型,专门用于衡量句子间的语义相似度。模型在redis/sentencepairs-v3-triplets数据集上训练,采用sentence-transformers库构建,在自然语言处理领域具有广泛应用价值。
Olmo-3-7B-Think-SFT是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现优异。该模型基于Dolma 3数据集预训练,并在Dolci数据集上进行了后续训练。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
unsloth
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,提供70亿和80亿两种参数规模。该模型支持超过1000种语言,使用完全合规且开放的训练数据,性能可与闭源模型相媲美。Apertus在15T标记上进行预训练,采用分阶段课程训练方法,支持长达65,536个标记的上下文长度。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
iszt
这是一个基于DINOv2预训练的视觉变换器模型,专门针对视网膜彩色眼底照片进行优化。该模型在MEH AlzEye数据集子集上训练,提供与Hugging Face Transformers兼容的格式,便于进行视网膜图像特征提取和下游医学影像任务。
beingbatman
本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后,在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值,表现出优秀的视频分类能力。
ce-lery
这是一个基于Mistral 300M架构的日语预训练语言模型,使用维基百科和cc100数据集进行训练,采用了SentencePiece分词器中的字节回退技术来抑制未知词生成。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
线性回归MCP项目展示了使用Claude和模型上下文协议(MCP)的端到端机器学习工作流程,包括数据预处理、模型训练和评估。
这是一个为Scikit-learn模型提供标准化接口的MCP服务器,支持模型训练、评估、数据预处理及持久化等功能。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。