快手Kling AI 2.6版本發佈,首次集成音頻生成功能,支持中英雙語對白、歌唱與音效,實現文本、視頻、音頻一鍵同步生成。技術採用擴散變換器與3D時空聯合注意力架構,提升複雜指令遵守率15%,並增強跨鏡頭角色一致性。視頻輸出保持10秒1080P高清,生成成本降低30%。
阿里千問在多項國際考試中表現優異,包括SAT高分1580,同時升級APP功能,新增“拍題答疑”和“作業批改”,爲學生提供專業學習支持。
Sora2 開放後下載量飆升,但用戶留存率極低,體驗不佳且成本高昂。視頻生成合格率僅5%-10%,用戶需多次嘗試才能獲得可用素材,渲染等待和失敗率高。OpenAI 每日需支付約1500萬美元算力費用,年成本近55億美元,付費用戶難以覆蓋鉅額開銷,商業模式面臨挑戰。
阿里巴巴通義千問團隊在NeurIPS 2025獲最佳論文獎,論文《Attention Gating Makes Better Foundation Models》提出“滑動門”機制,在標準注意力後添加可學習門控,動態篩選關鍵頭和token參與下游計算。實驗證明,1.7B稠密模型性能媲美15B MoE模型。本屆大會投稿2萬篇,錄取率僅25%,競爭激烈,該論文是四篇獲獎作品中唯一中國成果。
專為創新者、創作者、創始人和實幹家設計的新型專業網絡。
提供超過5000本書籍的摘要和分析,適合快速閱讀。
優化設計過程的AI反饋,預測熱圖和清晰度評分,節省每週15-20小時。
一站式商業套件,集成15+工具。
Bigcode
$2
輸入tokens/百萬
-
輸出tokens/百萬
8
上下文長度
prithivMLmods
VibeThinker-1.5B是微博AI推出的15億參數密集語言模型,基於Qwen2.5-Math-1.5B微調,專門針對數學和算法編碼問題設計。採用'頻譜到信號原理'框架訓練,在多個數學競賽測試中超越規模更大的模型,訓練成本約7800美元,支持最長約40k詞元的輸出。
mlx-community
VibeThinker-1.5B的4位量化版本,基於MLX框架針對蘋果芯片優化,是一個擁有15億參數的密集語言模型,專門用於數學推理和算法編碼問題
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款擁有150億參數的混合推理模型,結合了Transformer注意力機制和Mamba狀態空間層,在推理、數學和編碼等方面表現出色,具備高效性和可擴展性。
almanach
Gaperon-Young-1125-1B 是一個擁有15億參數的雙語(法語-英語)語言模型,由法國國家信息與自動化研究所(Inria Paris)的ALMAnaCH團隊開發。該模型在約3萬億個高質量令牌上訓練,特別注重語言質量和通用文本生成能力,而非基準測試優化。
unsloth
Apertus是一款由瑞士AI開發的全開放多語言大語言模型,提供70億和80億兩種參數規模。該模型支持超過1000種語言,使用完全合規且開放的訓練數據,性能可與閉源模型相媲美。Apertus在15T標記上進行預訓練,採用分階段課程訓練方法,支持長達65,536個標記的上下文長度。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow開發的150億參數多模態推理模型,具備文本和圖像推理能力,性能可媲美比它大10倍的模型,在人工分析指數上獲得52分,在企業領域基準測試中表現優異。
birder-project
這是一個基於RoPE(旋轉位置編碼)的Vision Transformer模型,參數規模為150M,採用14x14的patch大小。該模型在約2100萬張圖像的多樣化數據集上進行了預訓練,可作為通用視覺特徵提取器使用。
Apriel-1.5-15B-Thinker是一個專為圖像理解與推理設計的150億參數多模態模型,採用中期訓練方法而非RLHF訓練。本版本為適用於蘋果芯片的MLX量化版本,具有內存佔用小、啟動速度快的特點。
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模態推理模型,具有150億參數,能夠在文本和圖像推理任務上與規模大10倍的模型競爭。該模型通過中期訓練方案實現了卓越的推理能力,無需圖像SFT訓練或強化學習即可達到SOTA性能。
yonigozlan
EdgeTAM是SAM 2的輕量化變體,專為設備端視頻分割和跟蹤而設計。它比SAM 2快22倍,在iPhone 15 Pro Max上可達16 FPS,支持即時視頻對象分割和跨幀跟蹤。
nineninesix
KaniTTS是一款高速、高保真的文本轉語音模型,專為即時對話式人工智能應用而優化。該模型採用兩階段處理流程,結合大語言模型和高效音頻編解碼器,在Nvidia RTX 5080上生成15秒音頻的延遲僅需約1秒,MOS自然度評分達4.3/5,支持英語、中文、日語等多種語言。
Apriel-1.5-15b-Thinker是ServiceNow開發的多模態推理模型,擁有150億參數,在文本和圖像推理任務上表現出色,性能可與比其大10倍的模型競爭。
ibm-granite
Granite-4.0-Micro-Base是IBM開發的僅解碼器長上下文語言模型,基於約15萬億標記從頭訓練,採用四階段訓練策略。該模型專為各類文本生成任務設計,支持多語言和填空式代碼補全功能。
olegshulyakov
Qwen2.5-Coder-1.5B是一款基於Qwen系列基礎模型開發的代碼生成專用模型,擁有15億參數,專注於代碼相關的文本生成任務。該模型經過GGUF量化處理,支持多種部署方式,為開發者提供高效的代碼生成解決方案。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首個端到端音頻基礎模型,專為低延遲和即時對話設計。該模型僅15億參數,能夠實現無縫的對話交互,其能力可與參數規模大得多的模型相媲美。
NetoAISolutions
TSLAM-15B是由NetoAI Solutions開發的150億參數電信專用語言模型,基於混合專家架構,針對電信領域專業知識、高級推理和麵向行動的工作流程進行了優化。
jinaai
Jina Code Embeddings 是一款專為代碼檢索設計的嵌入模型,基於Qwen2.5-Coder-0.5B構建,支持15種以上編程語言,適用於文本到代碼、代碼到代碼、代碼到文本、代碼到補全等多種代碼檢索任務以及技術問答。
DavidAU
這是一個基於Qwen 3平臺的編碼/編程模型,具備完整的推理能力,速度極快。在中等硬件上每秒能處理超過150個token,僅使用CPU時每秒也能處理50個以上token。它是一個通用的編碼模型,適用於生成代碼塊、構思編碼思路以及快速生成代碼草稿。
PaddlePaddle
基於PP-OCRv4_server_rec增強的文檔文本識別模型,支持超過15000個字符,包括繁體字、日文字符和特殊符號。
nvidia
一款15億參數的開源權重模型,專為複雜推理任務設計,在數學、編碼、科學及邏輯謎題等領域表現卓越。
一個基於TypeScript的MCP服務器,提供AntV圖表生成能力,支持15+種圖表類型
Python Alfresco MCP Server是一個基於FastMCP 2.0框架構建的Alfresco內容服務模型上下文協議服務器,提供全文搜索、文檔管理、元數據操作等15種工具,支持STDIO/HTTP/SSE多種傳輸協議,適用於Alfresco社區版和企業版。
Cocos Creator MCP Server Plugin 是一個為Cocos Creator 3.8+設計的全面MCP服務器插件,通過標準化協議實現AI助手與編輯器的交互,提供一鍵安裝和151種工具支持,覆蓋98%的編輯器控制功能。
MockLoop MCP是全球首個AI原生的API測試平臺,集成了Model Context Protocol (MCP),通過AI驅動的場景生成、自動化測試執行和智能分析能力,徹底改變了API測試方式。該平臺提供5種AI提示、15種場景資源、16種測試工具和10種上下文工具,支持雙端口架構和狀態化測試工作流,適用於企業級合規和高級分析需求。
Loaded Vibes是一個企業級Agentic TypeScript Web開發框架,提供包含Next.js 15、React 19、GenAIScript編排器、MCP服務等技術的全棧開發環境與工具鏈,支持通過18個標準化開發週期進行規範化的項目構建與管理。
Feather Code MCP Server是一個為Claude Desktop設計的GitHub集成工具,通過Model Context Protocol(MCP)提供15種GitHub功能工具,支持自動倉庫檢測、多種認證方式和零配置使用。