馬斯克旗下xAI公司公佈太空AI戰略,計劃利用SpaceX星鏈和星艦,在地球軌道部署數據中心,並在月球建立AI衛星工廠,以利用太空低溫散熱和太陽能解決算力資源限制。
中國AI公司月之暗面在達沃斯論壇宣佈,其Kimi模型僅用美國頂尖實驗室1%的計算資源,便研發出性能領先的開源大模型,部分指標超越美國閉源模型,展示了高效創新的技術路徑。
OpenAI首席財務官透露公司正經歷指數級增長,服務能力與計算資源高度相關。數據中心容量從2023年的0.2GW增至2024年的0.6GW,預計2025年達1.9GW,三年增長9.5倍,算力擴張直接驅動業務發展。
DeepSeek團隊推出Engram模塊,爲稀疏大語言模型引入“條件記憶軸”,旨在解決傳統Transformer處理重複知識時計算資源浪費的問題。該模塊作爲混合專家模型的補充,將N-gram嵌入技術融入模型,提升處理重複模式的效率。
計算機使用代理資源集合
AI開發規模化的民主化平臺
Run:ai為AI和深度學習工作負載優化和編排GPU計算資源。
輕鬆投資於精心策劃的主題
Openai
$7.7
輸入tokens/百萬
$30.8
輸出tokens/百萬
200
上下文長度
-
Anthropic
$21
$105
Deepseek
$4
$12
128
Tencent
$1
32
Alibaba
$2
$0.75
256
$8.75
$70
400
$1.75
$14
Chatglm
$8
$16
$0.3
Google
$0.5
224
$525
$1050
8
bartowski
這是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型通過量化技術顯著減少了存儲和計算資源需求,同時保持了較好的模型性能,便於在各種設備上部署運行。
labhamlet
WavJEPA是基於波形的聯合嵌入預測架構的音頻基礎模型,利用高級語義表示學習解決語音單元或標記級表示學習的不足。在眾多下游基準任務中顯著優於最先進的時域音頻基礎模型,同時所需計算資源大幅減少。
noctrex
慧慧Qwen3-VL-8B指令消融模型的量化版本,專門用於圖像文本到文本的轉換任務。該模型基於Qwen3-VL-8B架構,經過指令消融優化和量化處理,可在保持性能的同時降低計算資源需求。
這是對internlm的JanusCoder-8B模型進行量化處理的版本,採用llama.cpp的imatrix量化技術,在保證性能的前提下顯著減少模型的存儲和計算資源需求,使模型能夠在更多設備上高效運行。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,採用AWQ量化方法,在保持模型性能的同時顯著減少了存儲和計算資源需求。該模型支持200K上下文長度,在編碼、推理和智能體任務方面相比GLM-4.5有顯著提升。
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4是基於Qwen3-VL-32B-Instruct基礎模型的4位量化版本,採用AWQ量化方法,在保持性能的同時顯著減少存儲和計算資源需求。這是Qwen系列中最強大的視覺語言模型,在文本理解、視覺感知、上下文長度等方面全面升級。
這是Cerebras公司Qwen3-Coder-REAP-25B-A3B模型的量化版本,使用llama.cpp的imatrix技術進行量化處理,能夠在減少模型存儲空間和計算資源需求的同時保持模型性能。
這是Llama-3.2-8X3B-MOE-Dark-Champion-Instruct-uncensored-abliterated-18.4B模型的MXFP4_MOE量化版本,專門針對文本生成任務進行優化,能夠在保持性能的同時顯著降低計算資源需求。
這是Qwen3-VL-4B-Thinking模型的量化版本,通過llama.cpp的imatrix量化方法在保證性能的同時大幅減少模型存儲和計算資源需求,支持在各種硬件環境中部署使用。
這是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技術處理,旨在提升模型在不同硬件環境下的運行效率和性能。該版本提供多種量化級別,從高質量到極致壓縮,適應不同的內存和計算資源需求。
這是IBM Granite-4.0-H-Tiny模型的GGUF量化版本,使用llama.cpp進行多種精度量化處理,在保證性能的同時顯著減少模型存儲空間和計算資源需求,便於部署和運行。
inferencerlabs
GLM-4.6是基於MLX框架的高效文本生成模型,採用6.5bit量化技術,在保持高質量文本生成能力的同時顯著降低計算資源需求。該模型在單臺M3 Ultra設備上即可運行,支持高效的文本生成任務。
DevQuasar
Apertus-70B-Instruct-2509 是一個基於 swiss-ai 開發的 700 億參數大語言模型的量化版本,專注於指令跟隨和文本生成任務。該項目致力於免費分享知識,具有實驗性質,提供了經過優化的量化模型以降低計算資源需求。
這是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該版本在保持相對較好性能的同時,顯著減少了模型的內存佔用和計算資源需求,使其能夠在各種硬件環境下運行。
Intel
基於Qwen3-Next-80B-A3B-Thinking模型,通過英特爾auto-round工具生成的混合int4量化模型。採用混合精度量化技術,非專家層回退到8位,在保證精度的同時顯著降低計算資源需求,支持思維內容解析功能。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
llmat
Apertus-8B-Instruct-2509-NVFP4是基於swiss-ai/Apertus-8B-Instruct-2509的NVFP4量化版本,通過llmcompressor工具生成。該模型在保持性能的同時顯著減少了存儲空間和計算資源需求,提升了推理效率。
mradermacher
YanoljaNEXT-Rosetta-20B是多語言翻譯模型,支持11種語言互譯,包括英語、中文、日語、韓語等。該模型經過靜態量化處理,提供多種量化版本,在保持翻譯質量的同時顯著減少模型大小和計算資源需求。
這是TheDrummer的Behemoth R1 123B v2模型的量化版本,使用llama.cpp和imatrix技術進行量化處理,可在保持較好性能的同時顯著減少模型存儲空間和計算資源需求,適合在不同設備上運行。
guyhadad01
all-MiniLM-L6-v2是sentence-transformers庫中的一個高效句子嵌入模型,基於MiniLM架構構建。該模型專門針對句子和段落級別的語義相似度任務進行了優化,能夠在保持較高性能的同時顯著減少計算資源需求。
基於mcp-server的項目,支持AI大模型高效調用spinq的量子計算硬件資源,提供Windows和macOS的一鍵安裝腳本,自動檢測Python環境並安裝依賴。
這是一個專注於醫療領域的MCP服務器集合,涵蓋了PubMed文獻檢索、醫學預印本訪問、FHIR數據交互、DICOM醫學影像處理、蛋白質結構分析、醫學計算工具以及醫學教育資源整合等多種醫療相關的MCP服務實現。
該項目是一個基於Python的MCP服務器,提供程序化查詢Azure資源定價的功能,通過結構化工作流從Azure零售價格API獲取即時定價信息,支持計算月度成本。
一個基於MCP協議的服務器實現,用於管理阿里雲實時計算Flink資源,提供集群管理、作業部署、監控等功能。
該倉庫收集了與猶太文化相關的MCP服務器項目,包括猶太經典文本訪問(如Sefaria和Otzaria)、猶太日曆計算(Hebcal)以及以色列政府數據服務。這些項目通過MCP協議使大型語言模型能夠獲取猶太文化資源和即時數據。
Stay AI的MCP服務器,用於通過標準化工具和資源與物業管理系統API交互,支持物業搜索、預訂管理、價格計算等功能。
一個基於Azure CLI的MCP服務器實現,提供對Azure雲資源的程序化訪問,支持多種Azure服務操作,包括計算、存儲、網絡、數據庫等,幷包含身份認證和安全管理功能。
RealVest的MCP服務器提供31個專業房地產投資計算器和教育資源,使AI助手能夠直接訪問專業級房地產分析功能,適用於集成到Claude等AI助手中。
這是一個用於Oracle雲基礎設施的MCP服務器項目,允許LLM直接管理OCI資源,支持動態配置文件切換、計算實例和數據庫系統管理等功能