小紅書新規要求AI生成內容必須強制標識,否則將限流。平臺將自動識別並標註相關內容,旨在打擊仿冒公衆人物、製造虛假視頻等亂象,維護網絡空間清朗。
自動駕駛汽車依賴路標識別,但加州大學研究揭示其致命弱點:攻擊者通過打印特定文本的標識,就能利用視覺語言模型漏洞,誘導車輛做出危險決策,甚至駛向行人。這種“CHAI”攻擊暴露了AI系統對視覺指令的過度依賴風險。
字節跳動AI助手“豆包”與上海浦東美術館合作,成爲兩大國際展覽的官方AI講解員,首次實現AI產品正式介入美術館導覽。通過視頻通話功能,豆包能識別展品並提供講解,解決了觀衆“臉盲”難題,標誌着“AI+藝術”體驗的深度落地。
蘋果最新發布的多模態AI模型“Manzano”,成功將視覺識別與文本生成圖像功能結合,實現“雙修”能力。該模型不僅能精準理解圖像內容,還能根據文本生成高質量圖片,標誌着AI技術的重要突破,有望滿足行業對多功能模型的需求。
AI旅行伴侶,將照片變導遊,識別地標、提供音頻導覽和本地推薦。
一款高質量的英語自動語音識別模型,支持標點符號和時間戳預測。
圖像識別、標註和關鍵詞生成工具
智能語音識別為照片添加標題
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Alibaba
$1
$10
256
$8
$240
52
$15.8
$12.7
64
Bytedance
-
$0.8
$2
128
Baidu
32
Openai
$1.75
$14
400
Huawei
Tencent
24
Iflytek
8
$0.5
$0.3
ai-sage
GigaAM-v3是基於Conformer架構的俄語自動語音識別基礎模型,擁有2.2-2.4億參數。它是GigaAM系列的第三代模型,在70萬小時俄語語音數據上使用HuBERT-CTC目標進行預訓練,在廣泛的俄語ASR領域提供最先進的性能。
DevQuasar
本項目是基於MiniMaxAI/MiniMax-M2模型的量化版本,致力於讓知識為大眾所用。提供了多個不同量化級別的模型版本,並展示了各版本的困惑度性能指標。
FlameF0X
i3-80M是一種創新的混合架構語言模型,結合了卷積/循環層與全注意力層的優勢。該模型採用RWKV風格的時間混合與Mamba狀態空間動態,在早期層實現高效序列處理,在深層使用標準多頭注意力機制進行復雜模式識別。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款強大的圖像到markdown的OCR模型,能夠將文檔轉換為結構化的markdown格式,並進行智能內容識別和語義標記,支持多語言文檔處理。
impresso-project
Impresso NER模型是一個專門用於歷史文檔處理的多語言命名實體識別模型。基於堆疊式Transformer架構,能夠識別數字化歷史文本中的細粒度和粗粒度實體類型,包括人名、頭銜、地點等。該模型針對歷史文檔中的OCR噪聲、拼寫變化和非標準語言用法進行了優化。
sahirp
該模型是基於 Facebook 的 DETR-ResNet-50-DC5 目標檢測模型在時尚數據集上進行微調的版本,專門用於時尚物品檢測和分類。模型在 Fashionpedia 數據集上進行了優化,能夠識別服裝、配飾等時尚物品。
Vikhrmodels
Borealis 是首款面向俄語的自動語音識別(ASR)音頻大語言模型,經過約7000小時俄語音頻數據訓練。該模型支持識別音頻中的標點符號,架構受Voxtral啟發但有所改進,在多個俄語ASR基準測試中表現優異。
Deeps03
基於Qwen/Qwen2-1.5B微調的日誌分類模型,專門用於對系統或應用程序日誌條目進行分類,支持正常、可疑、惡意、信息性和錯誤五類標籤識別,助力自動化日誌監控和安全分析。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT聯合JHU CLSP/HLTCOE和CMU LTI開發的目標說話人多說話人自動語音識別模型。該模型基於Whisper large-v3-turbo,通過自注冊機制和改進的數據增強技術,在高度重疊的多說話人場景下顯著提升了識別準確率。
AnasAlokla
這是一個強大的多語言、多標籤情感分類模型,能夠分析文本並識別27種不同的情感以及中性類別,支持同時檢測多種情感,有效理解來自不同語言來源的細微文本表達。
NexaAI
Parakeet TDT 0.6B v2 MLX是一款高效的自動語音識別模型,支持標點、大小寫和精確時間戳預測,能夠轉錄長達24分鐘的音頻片段,適用於商業和非商業用途。
phronetic-ai
Owlet Safety 1是基於Qwen2.5-VL-3B-Instruct微調的多標籤安全事件檢測模型,專門用於視頻監控中的安全活動識別,能夠同時檢測多種安全相關事件如火災、煙霧、摔倒、襲擊等。
unsloth
Nanonets-OCR-s是一款先進的圖像轉Markdown光學字符識別(OCR)模型,能夠將文檔轉換為結構化的Markdown格式,具備智能內容識別和語義標記功能。
Nanonets-OCR-s是一款強大的圖像轉Markdown的OCR模型,能夠將文檔轉換為結構化的Markdown並進行智能內容識別和語義標記。
PaddlePaddle
RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型,專為表格識別任務設計,能夠準確定位和標記表格圖像中的每個單元格區域。
RT-DETR-L_wired_table_cell_det 是表格識別任務中的關鍵模塊,主要負責定位和標記表格圖像中的每個單元格區域。
PP-FormulaNet_plus-L 是 PaddleOCR 團隊開發的增強版公式識別模型,支持中文公式識別,最大標記數提升至2560,適用於複雜公式場景。
Flurin17
針對瑞士德語自動語音識別優化的Whisper模型,可將瑞士德語語音轉錄為標準德語文本
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標記數據上訓練,具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
這是一個持續更新的MCP服務器精選列表,涵蓋了瀏覽器控制、藝術與文化、雲平臺、命令行、通信、客戶數據平臺、數據庫、開發者工具、數據科學工具、文件系統、金融與金融科技、遊戲、知識與記憶、位置服務、營銷、監控、搜索和實用工具等多個類別。每個項目都附帶了GitHub鏈接和星標數量,方便用戶快速瞭解和使用。
基於ddddocr的CAPTCHA識別MCP服務器,提供文本OCR、目標檢測和滑塊匹配功能
一個提供計算機控制功能的MCP服務器,包括鼠標鍵盤控制、屏幕截圖、OCR文字識別等,支持跨平臺運行,無需外部依賴。
Web應用滲透測試MCP是一個專注於業務邏輯安全漏洞分析的全面工具,通過系統化爬取和分析,識別標準掃描器無法檢測的安全問題。
Omen是一款AI代碼分析CLI工具,通過複雜度分析、技術債務檢測、依賴圖、熱點分析等多項指標,為AI助手提供代碼庫上下文,幫助預測缺陷和識別風險。
CryptoAnalysisMCP是一個基於Swift構建的加密貨幣技術分析工具,提供即時價格數據、技術指標、圖表模式識別和交易信號。最新版本v1.1通過DexPaprika集成支持超過700萬種代幣,無需API密鑰即可獲取基礎價格數據。
一個提供計算機控制功能的MCP服務器,包括鼠標鍵盤控制、OCR識別、窗口管理等,基於PyAutoGUI和RapidOCR實現,無外部依賴。
MCP Servers Hub是一個收集和排名Model Context Protocol (MCP) 服務器的中心化平臺,按照GitHub星標數排序,涵蓋數據庫、網絡、知識系統、媒體處理等多種服務類別,旨在為AI模型提供標準化的外部資源訪問接口。
數據對比工具,用於識別兩組數據是否來自同一主體,支持文本標準化、值比較和語義分析。