国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
埃隆·马斯克旗下社交平台X(原推特)近期因AI助手Grok生成大量虚假裸照陷入信誉危机。这些未经授权的图像涉及名模、影星、新闻从业者及女性世界领导人,传播速度惊人,仅1月5日至6日24小时内就达每小时6700张。
2025年AI编程领域迎来爆发式增长,从代码补全进化到多代理协作系统,AI已成为能独立处理复杂任务的“智能伙伴”。斯坦福大学报告显示,AI在软件工程基准测试SWE-bench上的得分一年内大幅提升67.3个百分点,达到71.7%,标志着AI编程能力实现重大突破。
微博推出开源大模型Vibe Thinker,仅15亿参数却在数学竞赛基准测试中击败6710亿参数的DeepSeek R1,准确率更高且训练成本仅7800美元。采用轻量化MoE架构与知识蒸馏技术,仅需5GB数学语料即可微调,支持Hugging Face下载和商用。该模型在AIME等国际数学竞赛中表现优异。
一个旨在推动人工智能民主化的开源项目。
一款具有671B参数的Mixture-of-Experts语言模型。
用于 Node.js 应用的开源 AI,速度提升最多 67 倍。
bartowski
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
richardyoung
这是一个高性能的4位量化版本的Kimi K2 Instruct模型,专为使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上运行而优化。该模型拥有6710亿参数,支持128K上下文窗口,在质量和效率之间实现了出色的平衡,是大多数实际部署的理想选择。
deepcogito
Cogito v2.1是经过指令微调的6710亿参数混合专家生成式模型,采用开放许可发布,支持商业用途。该模型能有效解决复杂的推理和指令遵循问题,支持30多种语言和128k上下文长度。
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
adamo1139
DeepSeek-R1-0528 671B模型的4位AWQ量化版本,适合在高端GPU节点上使用
hoskinson-center
ProofGPT-v0.1 是一个基于 GPT-NeoX 架构、拥有 67 亿参数的语言模型,训练数据来源于 proof-pile 数据集。
TroyDoesAI
67亿参数的AI模型,专注于代码理解与叙事可视化,擅长生成Mermaid JS语法的知识图谱和流程图
BUT-FIT
基于英语MPT7b模型持续预训练的大型捷克语模型,训练语料达2720亿token,使用捷克语分词器在约670亿token的捷克大型语料集上预训练
Joy28
基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,准确率达67.13%
llama-moe
LLaMA-MoE-v1-3.5B (4/16) 是基于 LLaMA-2 架构的混合专家(MoE)模型,从16个专家网络中激活4个,总参数量为67亿,激活参数量为35亿。该模型通过持续预训练得到,未经过指令微调,不适合作为聊天机器人使用。
TheBloke
Openbuddy Deepseek 67B V15 Base的GGUF量化版本,支持多语言文本生成任务,提供多种量化级别以适应不同硬件需求。
DeepSeek LLM 67B Chat AWQ是基于DeepSeek 670亿参数大语言模型的4位量化版本,采用AWQ(Activation-aware Weight Quantization)技术进行优化,在保持高质量的同时显著提升推理速度,支持中英文对话任务。
KnutJaegersberg
基于Galactica架构的67亿参数大语言模型,专注于文章写作任务,在开放大语言模型排行榜中平均得分37.75。
Phind
Phind-CodeLlama-34B-v1是基于CodeLlama-34B微调的高性能代码生成模型,在HumanEval数据集上达到67.6%的pass@1分数,超越了GPT-4的表现。该模型经过严格的数据去污染处理,训练高效且结果可靠。
PULI GPT-3SX 是一个拥有67亿参数的匈牙利语GPT-NeoX模型,由NYTK训练,支持匈牙利语文本生成任务。
UBC-NLP
JASMINE是一个面向小样本学习的阿拉伯语GPT模型系列,参数量从3亿至67亿不等,预训练数据规模达235GB文本。
tmoodley
这是一个用于识别稀有酒瓶品牌的图像分类模型,准确率为67.7%。
KoboldAI
这是Artetxe等人论文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67亿参数模型的Hugging Face transformers适配版本。