PixVerse AI V5.5版本上線,用戶通過一句話即可生成帶聲音、口型同步的高清視頻,並支持智能多鏡頭自動切換,大幅簡化視頻製作流程。該版本提供5秒、8秒、10秒多鏡頭選項,可一鍵生成包含遠景、中景、近景的自然切換鏡頭,使運鏡更流暢。
英偉達CEO黃仁勳在內部會議上強調AI應用,要求員工全面使用AI工具,以鞏固公司在AI硬件領域的領導地位並推動內部革新。在宣佈創紀錄的570億美元季度營收後,他明確表示要將AI技術拓展至所有可自動化領域。
字節跳動發佈120億參數視頻理解模型Vidi2,能處理數小時原始素材,理解故事脈絡,並根據提示生成TikTok短視頻或電影片段。其核心突破是精細時空定位(STG)功能,可同時識別視頻中的時空細節,有望顛覆視頻編輯行業。
崑崙萬維發佈Mureka V7.6和O2模型,推動AI音樂創作發展。新模型優化用戶體驗和生成效果,引發全球關注。自3月底O1和V6模型上線後,平臺新增近700萬用戶,覆蓋超100個國家。持續迭代的V7系列進一步提升了服務能力。
全球貿易情報與自動化平臺,AI掃描找商機,多渠道自動化成交
先進AI數據工具,輕鬆實現數據可視化、轉換和工作流自動化
Avallon用智能工作流將複雜理賠操作自動化,降成本提效率
SideConvo是一款AI插件,可自動與網站訪客交流,驅動轉化。
anthropic
$108
輸入tokens/百萬
$540
輸出tokens/百萬
200k
上下文長度
mistral
$0.72
$2.16
256k
-
kyr0
這是一個專為蘋果硅芯片設備優化的自動語音識別模型,通過轉換為MLX框架並量化為FP8格式,實現在蘋果設備上的快速端上語音轉錄。該模型針對逐字精度進行微調,特別適用於需要高精度轉錄的場景。
microsoft
Fara-7B是微軟研究院開發的專為計算機使用場景設計的小型語言模型,僅有70億參數,在同規模模型中實現卓越性能,能夠執行網頁自動化、多模態理解等計算機交互任務。
almanach
Gaperon-Young-1125-1B 是一個擁有15億參數的雙語(法語-英語)語言模型,由法國國家信息與自動化研究所(Inria Paris)的ALMAnaCH團隊開發。該模型在約3萬億個高質量令牌上訓練,特別注重語言質量和通用文本生成能力,而非基準測試優化。
mlfoundations-cua-dev
OLGA是基於Qwen3-VL-30B-A3B-Instruct構建的在線強化學習定位代理,採用33億激活參數的專家混合模型。通過結合現有數據集、新數據收集、自動過濾和在線強化學習的新數據配方進行訓練,在開源模型中實現了先進的定位性能。
teckedd
本模型是基於OpenAI Whisper-small在Common Voice 17.0數據集上微調的自動語音識別模型,專門針對Twi語言進行優化,能夠實現語音內容的準確識別。
Salesforce
GTA1是基於GRPO強化學習訓練的GUI接地模型,專門用於圖形用戶界面自動化操作。相較於依賴冗長思維鏈推理的方法,GRPO直接激勵可操作和有根據的響應,在多個基準測試中表現出卓越的接地性能。
GTA1是基於強化學習(GRPO)訓練的最先進GUI接地模型,專門用於圖形用戶界面自動化任務。與依賴冗長思維鏈推理的方法不同,GRPO直接激勵可操作和有根據的響應,在多個挑戰性數據集上展示了卓越的接地性能和代理性能。
Deeps03
基於Qwen/Qwen2-1.5B微調的日誌分類模型,專門用於對系統或應用程序日誌條目進行分類,支持正常、可疑、惡意、信息性和錯誤五類標籤識別,助力自動化日誌監控和安全分析。
Menlo
Lucy是一款基於17億參數Qwen3-1.7B構建的輕量級自主網絡搜索模型,針對移動設備優化,可在CPU上高效運行。
Lucy是一款專注於自主網絡搜索和輕量級瀏覽的17億參數模型,優化後可在移動設備上高效運行。
Goedel-LM
哥德爾證明器V2是一個開源語言模型系列,在自動形式證明生成方面樹立了新的標杆。它基於專家迭代和強化學習構建,融入了三項關鍵創新,在多個基準測試中表現卓越,為定理證明領域帶來了新的突破。
哥德爾證明器V2是一個開源語言模型系列,在自動形式證明生成方面樹立了新的標杆。它基於專家迭代和強化學習流程構建,融入了腳手架數據合成、驗證器引導的自我修正和模型平均三項關鍵創新,顯著提升了證明定理的能力和效率。
ai9stars
AutoTriton是一個擁有80億參數的Triton編程模型,基於Seed-Coder-8B-Reasoning模型,通過有監督微調和強化學習訓練得到。它是首個由強化學習驅動、專門用於Triton編程的模型,能夠自動優化計算單元、內存管理和並行性等複雜內核開發任務。
MediaTek-Research
Breeze ASR 25 是一款基於 Whisper-large-v2 微調的先進自動語音識別模型,特別優化了臺灣普通話和普通話-英語代碼切換場景的識別能力。
zhuyaoyu
CodeV-R1-Qwen-7B是基於CodeV-R1框架,在Qwen/Qwen2.5-Coder-7B-Instruct基礎上通過強化學習微調得到的模型,專注於Verilog相關任務,能有效解決電子設計自動化中自動生成硬件描述語言的難題。
Flurin17
針對瑞士德語自動語音識別優化的Whisper模型,可將瑞士德語語音轉錄為標準德語文本
unsloth
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標記數據上訓練,具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
IbrahimAmin
這是一個基於wav2vec2-large-xlsr-53架構微調的自動語音識別模型,專門針對埃及阿拉伯語、現代標準阿拉伯語和海灣/黎凡特阿拉伯語進行優化。模型在多種阿拉伯語語音數據集上訓練,在通用語音17.0阿拉伯語測試集上達到27.20%的詞錯誤率,優於多個同類模型。
mlx-community
Parakeet CTC 0.6B是一個基於FastConformer架構的自動語音識別模型,專門為MLX框架優化轉換而來。該模型支持英語語音識別任務,具有高效的推理性能和良好的識別準確率。
Scrapling是一個自適應網頁抓取庫,能自動學習網站變化並重新定位元素,支持多種抓取方式和AI集成,提供高性能解析和開發者友好體驗。
XcodeBuild MCP是一個為AI助手和MCP客戶端提供Xcode相關工具集成的服務器,支持Xcode項目管理、模擬器控制和應用工具等功能,實現自動化開發流程。
Deebo是一個AI調試助手,能夠加速代碼錯誤的解決過程,通過自動化調查和多線程工作流提升開發效率。
一個基於Playwright的MCP服務器,為LLM提供瀏覽器自動化能力
Changesets是一個自動化工具,用於幫助管理多包或單包代碼庫的版本控制和發佈流程。
Browser MCP是一個MCP服務器+Chrome擴展,通過AI應用(如VS Code、Claude等)實現瀏覽器自動化操作,具有快速、隱私保護、保持登錄狀態和規避檢測等特點。
Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具,通過自然語言描述幫助開發者快速創建現代化UI組件,支持多種IDE集成。
Playwright MCP是一個基於Playwright的瀏覽器自動化服務器,通過結構化數據而非像素輸入實現LLM與網頁的交互。
OpenDia是一款開源瀏覽器擴展工具,允許AI模型直接控制用戶瀏覽器,利用現有登錄狀態、書籤等數據進行自動化操作,支持多種瀏覽器和AI模型,注重隱私保護。
基於MCP協議的AI驅動瀏覽器自動化服務器,支持自然語言控制網頁操作和深度網絡研究。
一個基於browser-use的MCP服務器,使AI代理能夠控制網頁瀏覽器進行自動化操作。
Notte是一個開源的全棧網絡AI代理框架,提供瀏覽器會話、自動化LLM驅動的代理、網頁觀察與操作、憑證管理等功能,旨在將互聯網轉化為代理友好的環境,並通過自然語言描述網站結構,降低LLM的認知負擔。
302AI BrowserUse MCP Server是一個基於AI的瀏覽器自動化服務器,通過Model Context Protocol (MCP)實現自然語言控制瀏覽器和網絡研究。
MCP Link是一個自動化工具,能夠將任何OpenAPI V3規範的API轉換為MCP服務器,使現有RESTful API能夠無縫接入AI驅動的應用生態系統。
Mobile Next - MCP服務器是一個用於移動自動化的平臺無關接口,支持iOS和Android設備的自動化操作,無需特定平臺知識。
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
napi 是一個由 NanoAPI 開發的工具,旨在自動分析軟件架構複雜性,支持從代碼庫中提取功能模塊,提供 CLI 和 UI 兩種操作方式,併兼容主流 CI/CD 平臺,幫助開發者優化架構設計。
Awesome MCP Servers 是一個全面的Model Context Protocol (MCP)服務器集合,涵蓋了7158個MCP服務器,分為33個類別,包括AI集成、藝術媒體、瀏覽器自動化、雲服務、數據庫、開發者工具、文件系統、金融、遊戲、硬件、醫療、基礎設施、知識管理、位置地圖、市場營銷、監控、多媒體處理、操作系統、項目管理、科學研究、安全、社交媒體、旅行交通、實用工具和版本控制等。
這是一個Google日曆的MCP服務器項目,提供與Google Calendar的集成功能,允許通過標準化接口讀取、創建、更新和搜索日曆事件。支持從圖片添加事件、日曆分析、出席情況檢查、自動協調事件等功能。
Apify MCP服務器是一個實現Model Context Protocol(MCP)的服務,允許AI助手通過SSE或Stdio與Apify平臺上的各種Actor交互,執行數據抓取、網頁搜索等任務。