智譜開源專業OCR模型GLM-OCR,僅0.9B參數實現跨級性能突破。在OmniDocBench V1.5榜單中以94.6分奪冠,逼近通用大模型Gemini-3-Pro,有效解決複雜文檔解析痛點。
清華大學等機構推出UltraEval-Audio音頻模型測評框架,爲音頻大模型評測提供系統化基礎與一站式解決方案。最新v1.1.0版本在一鍵測評功能基礎上進一步優化,助力研究者高效評估音頻模型性能。
清華大學NLP實驗室等機構聯合開源了音頻模型測評框架UltraEval-Audio,爲音頻大模型提供完整的評測方法。該框架最新版本v1.1.0在原有“一鍵測評”基礎上,新增了熱門音頻模型的一鍵復現功能,進一步完善了音頻評測體系。
快手KAT-Coder-Pro V1模型在Artificial Analysis評測中表現突出,以64分超越Claude4.5Sonnet,躋身總榜前十。在Non-Reasoning Model榜單中更以顯著優勢奪冠。該模型不僅性能卓越,且輸出Token消耗量遠低於同類模型,展現出高效能優勢。
SkyReels V1 是一個開源的人類中心視頻基礎模型,專注於高質量影視級視頻生成。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
gia-uh
塞西莉亞FT MS v1是基於塞西莉亞2B v0.1微調的古巴語言模型,專門針對古巴西班牙語進行優化,捕捉古巴語言、文化和社會的細微差別。該模型支持西班牙語和英語,主要用於文本生成任務。
Mungert
MiroThinker v1.0是一個開源研究智能體,通過模型級別的交互式擴展提升工具增強推理和信息搜索能力。該模型在多個基準測試中表現出色,支持長上下文和深度多步分析。
nvidia
NVIDIA Nemotron Parse v1.1 TC 是一款先進的文檔語義理解模型,能夠從圖像中提取具有空間定位的文本和表格元素,生成結構化註釋,包括格式化文本、邊界框和語義類別。相比前一版本,速度提升20%,並保留無序元素的頁面順序。
NVIDIA Nemotron Parse v1.1 是一款先進的文檔解析模型,專門用於理解文檔語義並提取具有空間定位的文本和表格元素。它能夠將非結構化文檔轉換為機器可讀的結構化表示,克服了傳統OCR在處理複雜文檔佈局時的侷限性。
AhmedZaky1
DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型,基於Qwen2.5-VL-7B-Instruct微調開發,在變音符密集文本處理方面相比v1版本有顯著改進
MadhavRupala
Stable Diffusion v1-5是基於潛在擴散技術的文本到圖像生成模型,能夠根據文本描述生成逼真的圖像。該模型在LAION-2B數據集上訓練,支持英語文本輸入,生成512x512分辨率的圖像。
John6666
Illustrious XL v1.0是基於OnomaAIResearch/Illustrious-xl-early-release-v0訓練的文生圖模型,專門用於生成多種藝術風格的動漫女性圖像,在圖像生成領域具有應用價值
cpatonn
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct衍生的大語言模型,是v1版本的顯著升級版。該模型在推理、人類對話偏好和代理任務(如RAG和工具調用)方面表現出色,支持128K令牌的上下文長度,在準確性和效率間實現了良好平衡。
Flexan
Blake-XTM Arc 3B (V1) 是一個3B參數的指令大語言模型,基於microsoft/phi-2微調,支持文本生成、推理和工具調用。
redis
基於Redis Langcache Embed v1微調的句子轉換器模型,用於生成768維句子嵌入向量
lmstudio-community
AM Thinking v1是由A-M團隊開發的基於Qwen 2.5-32B-Base的大語言模型,增強推理能力,支持132k tokens的上下文長度。
DavidAU
基於暗黑幼苗V1 7B模型進行全面重新融合與重製的32k上下文大語言模型,在量化級別優化和性能表現上有顯著提升
dallinmackay
基於Stable Diffusion v1.5微調的圖像生成模型,專門用於生成詹姆斯·韋伯太空望遠鏡風格的深空圖像。
async0x42
Cogito v1 預覽版是基於Qwen2.5-32B的指令調優生成式模型,支持30多種語言,上下文長度達128k,針對編程、STEM、指令遵循和通用幫助性進行了優化。
Shakker-Labs
卓越羽筆工坊-V15是一款風格多樣化的文本生成圖像模型,特別擅長卡通和動漫風格,同時支持多種藝術表現手法。
notbadai
Notbad v1.0 Mistral 24B 是一款專注於數學和Python編程推理的模型,基於Mistral-Small-24B-Instruct-2501並通過強化學習進一步訓練。
基於Illustrious XL v1.1的動漫風格文本到圖像生成模型,擅長生成高質量動漫女孩圖像
hon9kon9ize
Cantonese LLM Chat v1.0是hon9kon9ize團隊開發的第一代粵語大語言模型,在香港相關專業知識和粵語對話方面表現卓越。
Illustrious XL v1.0 是一個基於穩定擴散XL的文本生成圖像模型,專注於生成高質量的動漫風格圖像,特別是女孩角色。
Illustrious XL v1.0 是一個基於穩定擴散XL的文本生成圖像模型,專注於生成高質量的動漫風格圖像。
一個用於與Glide API交互的模型上下文協議服務器,支持v1和v2版本,提供安全、類型化的數據操作。