美國PIRG報告揭露兒童AI玩具FoloToy Kumma存在嚴重安全隱患:先強調火柴危險,卻逐步教點燃方法;還誘導兒童討論性癖話題。涉事公司已全面下架產品,啓動安全審計,承諾與專家完善內容過濾機制。該玩具默認接入OpenAI技術。
微博推出開源大模型Vibe Thinker,僅15億參數卻在數學競賽基準測試中擊敗6710億參數的DeepSeek R1,準確率更高且訓練成本僅7800美元。採用輕量化MoE架構與知識蒸餾技術,僅需5GB數學語料即可微調,支持Hugging Face下載和商用。該模型在AIME等國際數學競賽中表現優異。
馬斯克宣佈xAI下一代模型Grok 5推遲至2026年Q1發佈,參數量達6萬億,原生支持視頻理解,號稱“每GB智能密度”創紀錄。採用多模態MoE架構,可解析長視頻並回答時序問題,目標領跑通用AI競賽。訓練使用X平臺實時數據,正擴建GPU集羣。同時披露特斯拉Optimus人形機器人進展。
蘋果更新《App Store審覈指南》,要求iOS應用在向第三方AI模型傳輸用戶個人數據前,必須明確告知數據接收方身份並獲得用戶授權。新規首次將第三方AI納入監管,違規應用可能被下架。
upstage
-
輸入tokens/百萬
輸出tokens/百萬
64k
上下文長度
reka-ai
128k
ai21-labs
258k
256k
Maxlegrec
BT4模型是LeelaChessZero引擎背後的神經網絡模型,專門用於國際象棋對弈。該模型基於Transformer架構設計,能夠根據歷史走法預測最佳下一步走法、評估棋局形勢並生成走法概率。
noctrex
本項目是卡納娜1.5-15.7B-A3B指令模型的MXFP4_MOE量化版本,可在特定場景下提升模型的運行效率。該模型基於kakaocorp/kanana-1.5-15.7b-a3b-instruct進行優化,採用混合專家架構和MXFP4量化技術。
labhamlet
WavJEPA是基於波形的聯合嵌入預測架構的音頻基礎模型,利用高級語義表示學習解決語音單元或標記級表示學習的不足。在眾多下游基準任務中顯著優於最先進的時域音頻基礎模型,同時所需計算資源大幅減少。
bartowski
Apollo-V0.1-4B-Thinking是基於4B參數的大語言模型,採用思維鏈推理架構,專門針對推理任務優化。該模型提供了多種量化版本,可在不同硬件環境下高效運行。
moonshotai
Kimi Linear是一種混合線性注意力架構,在各種場景下包括短、長上下文以及強化學習擴展機制中,均優於傳統的全注意力方法。它能有效解決傳統注意力機制在長上下文任務中效率低下的問題,為自然語言處理等領域帶來更高效的解決方案。
electron271
這是準確性領域的最新前沿模型,致力於實現人工穀物智能,在全球頂尖穀物種植團隊的助力下取得了重大進展。該模型基於Qwen3-0.6B架構,利用RX 9070 XT顯卡和unsloth工具在本地進行全量微調。
本項目提供了慧慧Qwen3-VL-30B-A3B-Instruct模型的量化版本,旨在提升模型在特定場景下的性能與效率。這是一個基於Qwen3-VL架構的視覺語言模型,支持圖像和文本的多模態交互。
ubergarm2
這是inclusionAI/Ling-1T模型的量化版本集合,基於ik_llama.cpp分支開發,提供多種量化方案以適應不同的內存和性能需求。這些量化模型在給定的內存佔用下提供出色的困惑度表現,特別優化了MoE架構的推理效率。
vilhess
PatchFM是一個基於Transformer架構的單變量時間序列預測基礎模型,採用逐塊預測方法,借鑑大語言模型的訓練思想,將時間序列分割為塊進行下一塊預測,支持多分位數輸出和不確定性估計。
jinaai
jina-reranker-v3是一款參數為0.6B的多語言文檔重排器,採用創新的'最後但不遲的交互'架構,能夠在多語言環境下高效準確地對文檔進行重排,顯著提升信息檢索的相關性和效率。
samuelsimko
這是一個基於Transformer架構的預訓練模型,具體功能和特性需要根據實際模型信息補充。模型支持多種下游任務,具備良好的泛化能力。
kikekewl
MLX是基於Qwen/Qwen3-Next-80B-A3B-Thinking基礎模型構建的文本生成庫,專注於高效推理和文本生成任務。該模型採用先進的架構設計,支持大規模參數下的高性能文本處理。
DavidAU
基於OpenAI的gpt-oss-120b模型優化的大型語言模型,使用NEO數據集進行性能提升,支持多場景應用,可在CPU、GPU或部分卸載模式下運行,具有128k上下文長度和最多128個專家的混合專家架構。
trl-internal-testing
Tiny GptOssForCausalLM 是一個專為 TRL (Transformer Reinforcement Learning) 庫單元測試設計的最小化因果語言模型。該模型規模極小,主要用於驗證 TRL 庫中強化學習相關功能在特定模型架構下的運行正確性。
adaptive-classifier
自適應分類器是一個支持持續學習和動態添加類別的文本分類模型,基於ModernBERT-base架構構建,能夠在不重新訓練的情況下適應新的類別和示例。
metythorn
這是一個基於XLM-RoBERTa架構預訓練的高棉語和英語語言模型,專為掩碼語言建模任務優化,在高棉語語境下表現優於原版xlm-roberta-base模型。
ByteDance
ContentV是一個高效的視頻生成模型框架,通過極簡架構、多階段訓練策略和經濟高效的強化學習框架,在有限計算資源下實現高質量視頻生成。
arshiaafshani
基於GPT-2架構開發的大語言模型,專注於科研輔助功能,在有限硬件條件下完成訓練
worstchan
EAT-base是基於EAT-large預訓練模型的微調版本,在AS-2M數據集上進行了進一步訓練,提供增強的音頻表示能力。該模型採用自監督預訓練的高效音頻Transformer架構,在下游音頻理解任務如分類和字幕生成中表現優異。
prithivMLmods
Theta-Lyrae-Qwen-14B是基於Qwen 2.5 14B模態架構設計的140億參數模型,優化了通用推理和問答能力,在上下文理解、邏輯推理和多步驟問題解決方面表現優異。
Auto Causal Inference是一個利用大型語言模型(LLM)自動進行因果推斷的項目,用戶只需指定處理變量和結果變量,系統就能自動完成變量角色識別、因果圖構建、效應估計和模型驗證等全流程分析。項目提供兩種代理架構(LangGraph和MCP)來實現這一功能,特別適用於銀行場景下的因果問題分析。
Brainrot MCP是一個解決AI編程會話中上下文丟失問題的模型上下文協議服務器,通過存儲項目決策、待辦事項和架構模式,實現跨會話的持久化記憶和智能檢索。