OpenAI與AWS簽署價值380億美元、爲期七年的合作協議,將獲得數十萬臺英偉達GPU計算資源,託管於亞馬遜全球數據中心。此舉強化了OpenAI在AI領域的基礎設施佈局,超越傳統雲服務租賃模式。
勞德研究所啓動首批“彈弓”AI資助計劃,通過提供資金、算力及工程支持,加速AI科研與創新。首批15個項目入選,要求受助者產出可轉化成果,如初創公司或開源項目,推動AI實踐應用。
MiniMax M2模型採用全注意力機制,放棄線性或稀疏注意力技術。開發團隊認爲,儘管後者能節省計算資源,但全注意力在工業應用中更高效,能提升模型性能。這一決策旨在優化實際部署效果,推動AI技術發展。
OpenAI視頻生成應用Sora上線一月引爆全球,因用戶激增與算力壓力,項目負責人宣佈將逐步減少每日30次免費額度,推出付費選項與創作者分成計劃,標誌其正式邁入商業化階段。免費額度收縮是GPU資源告急下的必然選擇。
計算機使用代理資源集合
AI開發規模化的民主化平臺
Run:ai為AI和深度學習工作負載優化和編排GPU計算資源。
輕鬆投資於精心策劃的主題
mistral
-
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
openai
$21.6
$86.4
nvidia
reka-ai
labhamlet
WavJEPA是基於波形的聯合嵌入預測架構的音頻基礎模型,利用高級語義表示學習解決語音單元或標記級表示學習的不足。在眾多下游基準任務中顯著優於最先進的時域音頻基礎模型,同時所需計算資源大幅減少。
noctrex
慧慧Qwen3-VL-8B指令消融模型的量化版本,專門用於圖像文本到文本的轉換任務。該模型基於Qwen3-VL-8B架構,經過指令消融優化和量化處理,可在保持性能的同時降低計算資源需求。
bartowski
這是對internlm的JanusCoder-8B模型進行量化處理的版本,採用llama.cpp的imatrix量化技術,在保證性能的前提下顯著減少模型的存儲和計算資源需求,使模型能夠在更多設備上高效運行。
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4是基於Qwen3-VL-32B-Instruct基礎模型的4位量化版本,採用AWQ量化方法,在保持性能的同時顯著減少存儲和計算資源需求。這是Qwen系列中最強大的視覺語言模型,在文本理解、視覺感知、上下文長度等方面全面升級。
這是Cerebras公司Qwen3-Coder-REAP-25B-A3B模型的量化版本,使用llama.cpp的imatrix技術進行量化處理,能夠在減少模型存儲空間和計算資源需求的同時保持模型性能。
這是Llama-3.2-8X3B-MOE-Dark-Champion-Instruct-uncensored-abliterated-18.4B模型的MXFP4_MOE量化版本,專門針對文本生成任務進行優化,能夠在保持性能的同時顯著降低計算資源需求。
這是Qwen3-VL-4B-Thinking模型的量化版本,通過llama.cpp的imatrix量化方法在保證性能的同時大幅減少模型存儲和計算資源需求,支持在各種硬件環境中部署使用。
這是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技術處理,旨在提升模型在不同硬件環境下的運行效率和性能。該版本提供多種量化級別,從高質量到極致壓縮,適應不同的內存和計算資源需求。
這是IBM Granite-4.0-H-Tiny模型的GGUF量化版本,使用llama.cpp進行多種精度量化處理,在保證性能的同時顯著減少模型存儲空間和計算資源需求,便於部署和運行。
inferencerlabs
GLM-4.6是基於MLX框架的高效文本生成模型,採用6.5bit量化技術,在保持高質量文本生成能力的同時顯著降低計算資源需求。該模型在單臺M3 Ultra設備上即可運行,支持高效的文本生成任務。
DevQuasar
Apertus-70B-Instruct-2509 是一個基於 swiss-ai 開發的 700 億參數大語言模型的量化版本,專注於指令跟隨和文本生成任務。該項目致力於免費分享知識,具有實驗性質,提供了經過優化的量化模型以降低計算資源需求。
這是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該版本在保持相對較好性能的同時,顯著減少了模型的內存佔用和計算資源需求,使其能夠在各種硬件環境下運行。
Intel
基於Qwen3-Next-80B-A3B-Thinking模型,通過英特爾auto-round工具生成的混合int4量化模型。採用混合精度量化技術,非專家層回退到8位,在保證精度的同時顯著降低計算資源需求,支持思維內容解析功能。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
llmat
Apertus-8B-Instruct-2509-NVFP4是基於swiss-ai/Apertus-8B-Instruct-2509的NVFP4量化版本,通過llmcompressor工具生成。該模型在保持性能的同時顯著減少了存儲空間和計算資源需求,提升了推理效率。
mradermacher
YanoljaNEXT-Rosetta-20B是多語言翻譯模型,支持11種語言互譯,包括英語、中文、日語、韓語等。該模型經過靜態量化處理,提供多種量化版本,在保持翻譯質量的同時顯著減少模型大小和計算資源需求。
這是TheDrummer的Behemoth R1 123B v2模型的量化版本,使用llama.cpp和imatrix技術進行量化處理,可在保持較好性能的同時顯著減少模型存儲空間和計算資源需求,適合在不同設備上運行。
guyhadad01
all-MiniLM-L6-v2是sentence-transformers庫中的一個高效句子嵌入模型,基於MiniLM架構構建。該模型專門針對句子和段落級別的語義相似度任務進行了優化,能夠在保持較高性能的同時顯著減少計算資源需求。
TildeAI
TildeOpen LLM 是一個開源的基礎語言模型,專門為服務代表性不足的北歐和東歐語言而設計。該模型由歐盟委員會資助,在LUMI超級計算機上訓練,擁有300億參數,解決了19種重點語言使用者在現有AI系統中面臨的性能差距問題。
GLM-4.5V-AWQ-4bit是基於智譜AI下一代旗艦文本基礎模型構建的量化版本多模態模型,通過AWQ-4bit量化技術優化,在保持優異性能的同時顯著降低計算資源需求。該模型在42個公開視覺語言基準測試中達到同規模模型的SOTA性能,具備強大的視覺推理能力。
基於mcp-server的項目,支持AI大模型高效調用spinq的量子計算硬件資源,提供Windows和macOS的一鍵安裝腳本,自動檢測Python環境並安裝依賴。
這是一個專注於醫療領域的MCP服務器集合,涵蓋了PubMed文獻檢索、醫學預印本訪問、FHIR數據交互、DICOM醫學影像處理、蛋白質結構分析、醫學計算工具以及醫學教育資源整合等多種醫療相關的MCP服務實現。
該項目是一個基於Python的MCP服務器,提供程序化查詢Azure資源定價的功能,通過結構化工作流從Azure零售價格API獲取即時定價信息,支持計算月度成本。
一個基於MCP協議的服務器實現,用於管理阿里雲實時計算Flink資源,提供集群管理、作業部署、監控等功能。
該倉庫收集了與猶太文化相關的MCP服務器項目,包括猶太經典文本訪問(如Sefaria和Otzaria)、猶太日曆計算(Hebcal)以及以色列政府數據服務。這些項目通過MCP協議使大型語言模型能夠獲取猶太文化資源和即時數據。
Stay AI的MCP服務器,用於通過標準化工具和資源與物業管理系統API交互,支持物業搜索、預訂管理、價格計算等功能。
一個基於Azure CLI的MCP服務器實現,提供對Azure雲資源的程序化訪問,支持多種Azure服務操作,包括計算、存儲、網絡、數據庫等,幷包含身份認證和安全管理功能。
RealVest的MCP服務器提供31個專業房地產投資計算器和教育資源,使AI助手能夠直接訪問專業級房地產分析功能,適用於集成到Claude等AI助手中。
這是一個用於Oracle雲基礎設施的MCP服務器項目,允許LLM直接管理OCI資源,支持動態配置文件切換、計算實例和數據庫系統管理等功能