國產AI芯片與大模型協同優化取得重要進展。摩爾線程與硅基流動基於國產GPU MTT S5000,成功完成對千億參數大模型DeepSeek V3 671B的深度適配。通過應用FP8低精度推理技術,實現單卡預填充吞吐量超4000 tokens/秒,解碼吞吐量超1000 tokens/秒,推理速度已接近國際主流高端AI加速器水平。
埃隆·馬斯克旗下社交平臺X(原推特)近期因AI助手Grok生成大量虛假裸照陷入信譽危機。這些未經授權的圖像涉及名模、影星、新聞從業者及女性世界領導人,傳播速度驚人,僅1月5日至6日24小時內就達每小時6700張。
2025年AI編程領域迎來爆發式增長,從代碼補全進化到多代理協作系統,AI已成爲能獨立處理複雜任務的“智能夥伴”。斯坦福大學報告顯示,AI在軟件工程基準測試SWE-bench上的得分一年內大幅提升67.3個百分點,達到71.7%,標誌着AI編程能力實現重大突破。
微博推出開源大模型Vibe Thinker,僅15億參數卻在數學競賽基準測試中擊敗6710億參數的DeepSeek R1,準確率更高且訓練成本僅7800美元。採用輕量化MoE架構與知識蒸餾技術,僅需5GB數學語料即可微調,支持Hugging Face下載和商用。該模型在AIME等國際數學競賽中表現優異。
一個旨在推動人工智能民主化的開源項目。
一款具有671B參數的Mixture-of-Experts語言模型。
用於 Node.js 應用的開源 AI,速度提升最多 67 倍。
richardyoung
這是一個高性能的4位量化版本的Kimi K2 Instruct模型,專為使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上運行而優化。該模型擁有6710億參數,支持128K上下文窗口,在質量和效率之間實現了出色的平衡,是大多數實際部署的理想選擇。
deepcogito
Cogito v2.1是經過指令微調的6710億參數混合專家生成式模型,採用開放許可發佈,支持商業用途。該模型能有效解決複雜的推理和指令遵循問題,支持30多種語言和128k上下文長度。
Ken-Z
本模型是基於OpenAI Whisper-small在拉丁語上微調的自動語音識別模型,使用67小時拉丁語音頻數據訓練,字符錯誤率(CER)為20,支持拉丁語語音轉文本任務。
本模型是microsoft/speech-t5的微調版本,專門針對拉丁語進行了優化訓練。它使用了來自Vox Classica數據集的67小時拉丁語音頻數據進行訓練,能夠實現高質量的拉丁語文本轉語音功能。
adamo1139
DeepSeek-R1-0528 671B模型的4位AWQ量化版本,適合在高端GPU節點上使用
hoskinson-center
ProofGPT-v0.1 是一個基於 GPT-NeoX 架構、擁有 67 億參數的語言模型,訓練數據來源於 proof-pile 數據集。
TroyDoesAI
67億參數的AI模型,專注於代碼理解與敘事可視化,擅長生成Mermaid JS語法的知識圖譜和流程圖
BUT-FIT
基於英語MPT7b模型持續預訓練的大型捷克語模型,訓練語料達2720億token,使用捷克語分詞器在約670億token的捷克大型語料集上預訓練
Joy28
基於MCG-NJU/videomae-base模型在未知數據集上微調的視頻理解模型,準確率達67.13%
llama-moe
LLaMA-MoE-v1-3.5B (4/16) 是基於 LLaMA-2 架構的混合專家(MoE)模型,從16個專家網絡中激活4個,總參數量為67億,激活參數量為35億。該模型通過持續預訓練得到,未經過指令微調,不適合作為聊天機器人使用。
TheBloke
Openbuddy Deepseek 67B V15 Base的GGUF量化版本,支持多語言文本生成任務,提供多種量化級別以適應不同硬件需求。
DeepSeek LLM 67B Chat AWQ是基於DeepSeek 670億參數大語言模型的4位量化版本,採用AWQ(Activation-aware Weight Quantization)技術進行優化,在保持高質量的同時顯著提升推理速度,支持中英文對話任務。
KnutJaegersberg
基於Galactica架構的67億參數大語言模型,專注於文章寫作任務,在開放大語言模型排行榜中平均得分37.75。
Phind
Phind-CodeLlama-34B-v1是基於CodeLlama-34B微調的高性能代碼生成模型,在HumanEval數據集上達到67.6%的pass@1分數,超越了GPT-4的表現。該模型經過嚴格的數據去汙染處理,訓練高效且結果可靠。
PULI GPT-3SX 是一個擁有67億參數的匈牙利語GPT-NeoX模型,由NYTK訓練,支持匈牙利語文本生成任務。
UBC-NLP
JASMINE是一個面向小樣本學習的阿拉伯語GPT模型系列,參數量從3億至67億不等,預訓練數據規模達235GB文本。
tmoodley
這是一個用於識別稀有酒瓶品牌的圖像分類模型,準確率為67.7%。
KoboldAI
這是Artetxe等人論文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67億參數模型的Hugging Face transformers適配版本。