華爲成立“基礎大模型部”,強化AI底層技術佈局,加大通用AI與基礎算法投入,以應對未來技術競爭。同時,華爲在阿聯酋團隊面向全球招募AI人才,特別青睞具備卓越學術背景、創新能力及原創性科研成果的青年科研人才。
京東雲JoyBuilder平臺升級,成功支撐GR00T N1.5模型完成千卡級訓練,成爲行業首家支持具身智能千卡級LeRobot開源訓練框架的AI開發平臺。訓練效率較開源社區版本提升3.5倍,通過軟硬件深度調優和算法突破,大幅提升訓練效率與穩定性,顯著縮短訓練時間。
瞳行科技推出國內首款AI助盲眼鏡,集成阿里通義千問大模型,爲視障人士提供實時出行輔助。產品由眼鏡、手機、遙控指環和盲杖協同工作,通過雙攝像頭實現300毫秒低延遲路況播報,支持識別公交牌、路標及環境概述。技術總監陳剛表示,大模型壓縮70%研發成本,加速算法落地。眼鏡還具備本地文本識別功能。
清華大學聯合面壁智能在《自然・機器智能》發文,提出“能力密度”指標,強調模型性能應注重單位參數的有效智能而非規模。研究發現,能力密度約每3.5個月翻倍,同等任務所需參數可指數級減少。高密度需數據、算力、算法協同設計,而非簡單壓縮。面壁智能據此推出0.5B-2B系列模型。
一站式大模型算法、模型及優化工具開源項目
深度學習算法與大模型面試指南,持續更新的面試題目集合。
人類級獎勵設計算法,通過編碼大型語言模型實現
全球數學解題和講題算法大模型
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
Mungert
MiniCPM4.1-8B GGUF是專為端側設備設計的高效大語言模型,在模型架構、訓練數據、訓練算法和推理系統四個關鍵維度進行了系統創新,實現了極致的效率提升。支持65,536個標記的上下文長度和混合推理模式。
MiniCPM4-8B是專為端側設備設計的高效大語言模型,通過模型架構、訓練數據、訓練算法和推理系統四個維度的創新,實現了極致的效率提升。
openbmb
MiniCPM4是專為端側設備設計的高效大語言模型,通過系統創新在模型架構、訓練數據、訓練算法和推理系統四個關鍵維度實現極致的效率提升。
MiniCPM4是專為端側設備設計的高效大語言模型,通過系統創新在模型架構、訓練數據、訓練算法和推理系統四個維度實現極致效率提升,在端側芯片上可實現超5倍的生成加速。
SVECTOR-CORPORATION
Spec-T1-RL-7B 是一款專注於數學推理、算法問題解決和代碼生成的高精度大語言模型,在技術基準測試中表現卓越。
RedHatAI
Qwen3-4B-quantized.w4a16是基於Qwen3-4B模型通過GPTQ算法進行INT4權重量化的高效版本,顯著減少了磁盤大小和GPU內存需求約75%,同時保持接近原始模型的性能表現。
BytedTsinghua-SIA
基於Qwen2.5-32B模型使用DAPO算法訓練的大語言模型,專注於數學問題解決和多語言文本生成
Video-R1
Video-R1是基於Qwen2.5-7B-Instruct開發的多模態大語言模型,專門針對視頻推理任務進行優化。通過提出T-GRPO算法和構建高質量視頻推理數據集,顯著提升了模型在時間建模和視頻理解方面的能力。
ISTA-DASLab
本模型是對Mistral-Small-3.1-24B-Instruct-2503進行INT4量化的版本,通過GPTQ算法將權重從16位降至4位,顯著減少磁盤大小和GPU內存需求。
PKU-Alignment
這是一個強大的文本-圖像交錯輸入輸出模型,通過對齊萬物算法進行了深度對齊,提升了圖像生成能力和人類偏好對齊能力。
umiyuki
Umievo-itr012-Gleipnir-7B是通過進化算法融合四個強大的日語模型得到的7B參數規模的語言模型,在日語任務上表現優異。
HuggingFaceH4
Zephyr 141B-A39B是基於Mixtral-8x22B-v0.1微調的大型語言模型,採用ORPO對齊算法訓練,旨在成為有用的助手。
alchemonaut
QuartetAnemoi-70B-t0.0001是一個70B參數的大語言模型,通過自定義NearSwap算法合併了多個優秀模型,擅長故事講述且避免使用陳詞濫調。
BoreanGale-70B 是一個使用自定義算法(NearSwap)合併的70B參數大語言模型,由miqu-1-70b-sf和WinterGoddess-1.4x-70B-L2兩個模型合併而成。
Unsloth MCP Server是一個用於高效微調大語言模型的服務器,通過優化算法和4位量化技術,實現2倍訓練速度提升和80%顯存節省,支持多種主流模型。
PentestThinkingMCP是一個基於大型語言模型和MCP協議的自動化滲透測試框架,能夠通過Beam Search和MCTS算法規劃攻擊路徑,為CTF、HTB及真實滲透測試提供步驟推理、工具推薦和關鍵路徑分析。