人工智能公司 Clipto.AI 完成 Pre-A++ 輪融資,估值超2.5億美元。本輪由 EnvisionX Capital 和 Palm Drive Capital 領投,紅杉中國、高瓴創投等老股東跟投,資金將重點投入端側多模態 AI 模型與系統的研發。
英偉達發佈大模型微調指南,降低技術門檻,讓普通開發者也能在消費級設備上高效完成模型定製。該指南詳解如何在NVIDIA全系硬件上利用開源框架Unsloth實現專業級微調。Unsloth專爲NVIDIA GPU打造,優化訓練全流程,提升性能。
Jan團隊發佈300億參數多模態大模型Jan-v2-VL-Max,專爲長週期、高穩定性自動化任務設計,性能超越谷歌Gemini2.5Pro與DeepSeek R1。該模型重點解決多步任務中的“誤差累積”和“失焦”問題,爲開源智能體生態提供強大支持。
2025年AI醫療迎來爆發增長。海外平臺OpenEvidence正融資2.5億美元,估值達120億美元;國內螞蟻集團也推出健康AI升級產品,顯示行業前景廣闊。
Wan 2.5驅動的AI視頻生成平臺,可文本轉視頻,高效專業
Nano Banana 2連接Gemini 2.5 Flash,支持文本到圖像及圖像編輯並帶水印輸出。
用WAN 2.5和Veo 3.1無縫AI視頻擴展,時長3 - 10s,畫質專業
基於Gemini 2.5的圖像編輯器,免費使用,自然語言指令實現快速編輯
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
-
$2
$20
Bytedance
$1.2
$3.6
4
$0.8
128
Baidu
Openai
$0.4
64
$0.63
$3.15
131
Chatglm
$8
$16
TeichAI
本模型是基於Qwen3-4B架構的知識蒸餾模型,通過約5440萬個由Gemini 2.5 Flash生成的標記進行訓練,旨在整合Gemini-2.5 Flash的行為、推理過程和知識到單一數據集中。
ModernVBERT
ColModernVBERT是ModernVBERT的後期交互版本,專門針對視覺文檔檢索任務進行了微調,是該任務上性能最佳的模型。它是一個參數為2.5億的緊湊型視覺-語言編碼器,在視覺文檔基準測試中達到了近乎參數大10倍模型的性能,同時在CPU上具有可觀的推理速度。
tensorblock
這是基於Google Gemma-3-4b模型針對提格雷語優化的GGUF格式版本,專門為提格雷語文本生成任務設計,在提格雷語新聞語料庫上取得了2.5的困惑度表現。
John6666
KiraDepth 是一個基於穩定擴散XL的文本到圖像生成模型,專注於生成具有深度、細節和陰影的2.25D/2.5D風格圖像,特別適合動漫風格的創作。
unsloth
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
lmstudio-community
AM Thinking v1是由A-M團隊開發的基於Qwen 2.5-32B-Base的大語言模型,增強推理能力,支持132k tokens的上下文長度。
maldv
Qwentile Λ 2.5 32B指導模型是基於多個優秀模型進行標準化去噪傅里葉插值融合的成果,融合了思維能力和創造性輸出。
a-m-team
專注於增強推理能力的320億參數稠密語言模型,基於Qwen 2.5‑32B‑Base構建,在推理基準測試中展現出與更大規模MoE模型相媲美的性能。
SWE-bench
基於SWE-smith工具包訓練的軟件工程專用語言模型,採用Qwen 2.5 Coder Instruct微調而成
declare-lab
Nora是一個開源的視覺-語言-動作模型,基於Qwen 2.5 VL - 3B訓練,能夠根據語言指令和相機圖像生成機器人動作。
Mungert
OpenHands LM是一款基於Qwen Coder 2.5 Instruct 32B構建的開源編碼模型,通過特殊微調在軟件工程任務中表現出色。
HyperX-Sen
基於Qwen 2.5(7B)打造的雙語(英語和印地英語)文本生成模型
prithivMLmods
Viper-Coder-v1.7-Vsm6是基於千問2.5 14B模態架構設計的大語言模型,專注於提升編碼效率和計算推理能力,優化內存使用並減少冗餘文本生成。
基於千問2.5 14B模態架構設計的增強推理模型,優化通用推理與問答場景,支持128K上下文和8K輸出
OddTheGreat
基於Qwen 2.5架構的多模型融合系統,專為角色扮演場景優化,支持英語和俄語,具備出色的創造力和指令跟隨能力
Nu2-Lupi-Qwen-14B是基於Qwen 2.5 14B架構設計的數學推理優化模型,擅長複雜問題求解和邏輯推導。
NAMAA-Space
Adasah是基於Qwen 2.5 3B模型的微調版本,專為阿拉伯語視覺理解場景優化,支持阿拉伯語視覺問答與圖片內容理解。
OpenGVLab
InternVL3-78B是OpenGVLab推出的先進多模態大語言模型,展現卓越的綜合性能。相比前代InternVL 2.5,具備更強大的多模態感知與推理能力,並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。
基於Qwen 2.5 14B架構構建的新一代語言模型,專為數學推理、編程和通用邏輯任務優化。
nvidia
Eagle 2.5是一款前沿的視覺語言模型(VLM),專為長上下文多模態學習設計,支持處理長達512幀的視頻序列和高分辨率圖像。
一個與AI代碼編輯器集成的MCP服務器,通過Gemini 2.5的百萬token上下文窗口和任務管理功能,優化Cursor的代理能力。
Gemini MCP服務器實現,支持Claude Desktop與Google Gemini 2.5 Pro實驗模型的交互
一個MCP服務器項目,提供基於token數量自動選擇OpenAI O3或Google Gemini 2.5 Pro模型的服務,支持文件路徑遞歸嵌入提示詞,適用於代碼審查和複雜問題解決。
基於Google Gemini 2.5 Flash API的MCP圖像生成與編輯服務器,支持文本生成圖像、圖像編輯、迭代創作和風格遷移功能
Gemini UI設計服務器是一個基於MCP協議的企業級UI/UX設計和前端實現專家系統,通過集成Google Gemini 2.5 PRO提供專業的UI組件設計、代碼審查、前端代碼生成和架構諮詢服務
一個MCP服務器,允許Claude Code在需要深入分析複雜問題時諮詢更強大的AI模型(如o3、Gemini 2.5 Pro、DeepSeek Reasoner)。
Gemini Nanobanana MCP 是一個讓用戶通過文本描述生成AI圖像的Claude插件,集成了Google Gemini 2.5 Flash圖像生成功能,支持多種圖像編輯和創作方式。
該項目展示瞭如何利用Google的Gemini 2.5 Pro模型通過函數調用功能與MCP協議下的航班搜索工具交互,實現自然語言查詢航班信息並返回格式化結果。
基於Google Gemini 2.5 Flash Image API的MCP服務器,提供文本生成圖像、圖像編輯、多圖合成和風格轉換等功能,支持多種MCP客戶端使用。
一個簡單高效的LLDB MCP服務器,支持自動化輸出捕獲,依賴少且功能完整,專為o4-mini和Gemini 2.5 Pro優化設計。