InternLM團隊發佈開源輕量級多模態推理模型Intern-S1-mini。該模型僅8B參數,融合Qwen3-8B語言模型與0.3B視覺編碼器InternViT,具備強大處理能力。經過超5萬億token數據預訓練,其中2.5萬億來自化學、物理等科學領域,使其在科學任務中表現優異。
基於InternViT-300M-448px的增強版本,提升視覺特徵提取能力。
基於InternViT-6B-448px-V1-5的增強版視覺模型
Baidu
-
輸入tokens/百萬
輸出tokens/百萬
32
上下文長度
gwkrsrch2
這是一個發佈在Hugging Face模型中心的Transformer模型,模型卡片為自動生成。由於缺乏具體信息,無法提供詳細的模型介紹。
FriendliAI
InternVL3-1B是InternVL3系列中的1B參數規模多模態大語言模型,整合了InternViT視覺編碼器和Qwen2.5語言模型,具備卓越的多模態感知和推理能力。
OpenGVLab
InternViT-6B-448px-V2_5是基於InternViT-6B-448px-V1-5的重大升級版本,通過ViT增量學習與NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
InternViT-300M-448px-V2_5是基於InternViT-300M-448px的重大升級版本,通過ViT增量學習和NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
timm
InternViT-300M是一個由OpenGVLab團隊開發的視覺Transformer模型,通過從InternViT-6B蒸餾預訓練而來,支持多種視覺任務。
InternViT-300M-448px是一個高效的視覺基礎模型,通過從InternViT-6B-448px-V1-5蒸餾知識開發而來,具備448×448的動態輸入分辨率,支持1至40個圖塊處理。
InternViT-6B-448px-V1-5是基於InternViT-6B-448px-V1-2微調的視覺基礎模型,具備強大的魯棒性、OCR能力及高分辨率處理能力。
InternViT-6B-448px-V1-2是一個視覺基礎模型,特徵骨幹,具有5540萬參數,支持448x448像素的圖像處理。
InternViT-6B-448px-V1-0是一個視覺基礎模型,專注於圖像特徵提取,支持448x448分辨率,增強了OCR能力和中文對話支持。
InternViT-6B-224px 是一個視覺基礎模型,專注於圖像特徵提取,具有5903百萬參數,支持224x224像素的圖像輸入。