Firefox新版默認開啓AI功能引發爭議,用戶擔憂隱私與性能問題。測試顯示啓用後CPU和內存佔用顯著增加,影響瀏覽體驗,且多數用戶不知情。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
蘋果發佈搭載M5芯片的14英寸MacBook Pro,首次針對AI任務進行硬件優化。M5芯片配備10核CPU和GPU,每個GPU核心內置神經網絡加速單元,顯著提升本地AI計算能力。集成第三代光線追蹤引擎和動態緩存技術,可智能分配顯存資源。新品續航達24小時,主打高效AI處理與圖形性能。
軟銀與OpenAI深化合作,OpenAI與Arm合作定製CPU,並與博通合作開發AI XPU,共同構建自有芯片架構,以打造更強大的AI硬件系統。
為Firefox瀏覽器翻譯功能優化的CPU加速神經機器翻譯模型。
一個基於音頻驅動的即時2D聊天頭像生成模型,可在僅使用CPU的設備上實現30fps的即時推理。
高效CPU本地離線LaTeX識別工具
低比特大型語言模型在CPU上的推理加速
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通義千問系列的多模態視覺語言模型的GGUF量化版本,具備20億參數,支持圖像理解和文本生成的無縫融合,可在CPU、GPU等設備上高效運行。
LeviDeHaan
SecInt是一個針對即時nginx安全日誌分類進行微調的SmolLM2-360M模型,旨在自動檢測Web服務器日誌中的安全威脅、錯誤和正常流量模式,準確率超過99%,可在CPU上實現即時檢測。
pnnbao-ump
VieNeu-TTS是首個可在個人設備上運行的越南語文本轉語音模型,具備即時語音克隆能力。基於NeuTTS Air微調,能夠生成自然逼真的越南語語音,在CPU上具備即時性能。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
MikeKuykendall
這是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通過llama.cpp的Rust綁定啟用了MoE(專家混合)CPU卸載功能,顯著減少顯存使用。
這是基於WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次實現了創新的MoE CPU專家卸載技術。該技術在保持完整生成質量的同時,實現了99.9%的顯存縮減,僅需2MB顯存即可運行200億參數的混合專家模型。
bartowski
這是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多種量化選項,從高質量到低內存佔用,支持在CPU和GPU上高效運行。模型使用llama.cpp進行量化,並針對不同硬件進行了優化。
vito95311
這是Qwen3-Omni 31.7B參數模型的專業量化版本,採用先進的INT8+FP16混合精度量化技術,內存使用減少50%以上,支持智能GPU/CPU混合推理,讓大型多模態模型能夠在消費級硬件上高效運行。
ModernVBERT
ColModernVBERT是ModernVBERT的後期交互版本,專門針對視覺文檔檢索任務進行了微調,是該任務上性能最佳的模型。它是一個參數為2.5億的緊湊型視覺-語言編碼器,在視覺文檔基準測試中達到了近乎參數大10倍模型的性能,同時在CPU上具有可觀的推理速度。
SkynetM1
本模型是基於huihui-ai/Huihui-Tongyi-DeepResearch-30B-A3B-abliterated轉換的GGUF格式版本,專門為llama.cpp優化,支持高效的CPU推理。模型採用Q4_K_M量化級別,在保持較好性能的同時顯著減小模型體積。
samunder12
基於Llama 3.1 8B Instruct微調的GGUF量化模型,具有強勢、果斷且具有挑釁性的AI人設,專為角色扮演和創意寫作場景優化,支持在CPU或GPU上進行本地推理。
DavidAU
基於OpenAI的gpt-oss-120b模型優化的大型語言模型,使用NEO數據集進行性能提升,支持多場景應用,可在CPU、GPU或部分卸載模式下運行,具有128k上下文長度和最多128個專家的混合專家架構。
這是一個基於Qwen 3平臺的編碼/編程模型,具備完整的推理能力,速度極快。在中等硬件上每秒能處理超過150個token,僅使用CPU時每秒也能處理50個以上token。它是一個通用的編碼模型,適用於生成代碼塊、構思編碼思路以及快速生成代碼草稿。
Menlo
Lucy是一款基於17億參數Qwen3-1.7B構建的輕量級自主網絡搜索模型,針對移動設備優化,可在CPU上高效運行。
pytorch
SmolLM3-3B-INT8-INT4是基於HuggingFaceTB/SmolLM3-3B模型進行量化的版本,使用torchao實現了8位嵌入、8位動態激活和4位權重線性量化。該模型轉換為ExecuTorch格式,通過優化在CPU後端實現高性能,特別適合移動設備部署。
rasyosef
這是一個基於BERT-Mini(1100萬參數)的SPLADE稀疏檢索模型,通過在MSMARCO數據集上對交叉編碼器進行知識蒸餾訓練得到。該模型比官方splade-v3-distilbert小6倍,但能達到其85%的性能,可在CPU上處理數千個文檔。
一個基於Talos SDK的簡單MCP實現,用於從多個Talos節點獲取數據,包括磁盤、網絡接口、CPU和內存使用情況,並支持重啟節點。
基於MCP協議的Mac系統監控服務器,可監控CPU、內存和磁盤使用情況
一個為Claude提供即時系統監控功能的MCP服務器,支持CPU、內存、磁盤、網絡、電池和網速的監測。
基於Gradio的輕量級應用,使用Hugging Face Transformers進行情感分析和反諷檢測,兼容MCP架構,可在CPU上運行。
一個提供即時系統信息的MCP服務器,可獲取CPU、內存、磁盤、網絡等指標,支持跨平臺運行並通過標準化接口訪問。
Perfetto MCP是一個模型上下文協議服務器,能夠將自然語言提示轉換為專業的Perfetto跟蹤分析,幫助開發者無需編寫SQL即可進行性能分析、ANR檢測、CPU熱點線程識別、鎖競爭分析和內存洩漏檢測。
一個為Claude提供即時系統監控功能的MCP服務器,可監測CPU、內存、磁盤、網絡、電池和網速等指標。