InternLM团队发布开源轻量级多模态推理模型Intern-S1-mini。该模型仅8B参数,融合Qwen3-8B语言模型与0.3B视觉编码器InternViT,具备强大处理能力。经过超5万亿token数据预训练,其中2.5万亿来自化学、物理等科学领域,使其在科学任务中表现优异。
基于InternViT-300M-448px的增强版本,提升视觉特征提取能力。
基于InternViT-6B-448px-V1-5的增强版视觉模型
Baidu
-
输入tokens/百万
输出tokens/百万
32
上下文长度
gwkrsrch2
这是一个发布在Hugging Face模型中心的Transformer模型,模型卡片为自动生成。由于缺乏具体信息,无法提供详细的模型介绍。
FriendliAI
InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型,整合了InternViT视觉编码器和Qwen2.5语言模型,具备卓越的多模态感知和推理能力。
OpenGVLab
InternViT-6B-448px-V2_5是基于InternViT-6B-448px-V1-5的重大升级版本,通过ViT增量学习与NTP损失提升了视觉特征提取能力,特别擅长处理多语言OCR数据和数学图表等复杂场景。
InternViT-300M-448px-V2_5是基于InternViT-300M-448px的重大升级版本,通过ViT增量学习和NTP损失提升了视觉特征提取能力,特别擅长处理多语言OCR数据和数学图表等复杂场景。
timm
InternViT-300M是一个由OpenGVLab团队开发的视觉Transformer模型,通过从InternViT-6B蒸馏预训练而来,支持多种视觉任务。
InternViT-300M-448px是一个高效的视觉基础模型,通过从InternViT-6B-448px-V1-5蒸馏知识开发而来,具备448×448的动态输入分辨率,支持1至40个图块处理。
InternViT-6B-448px-V1-5是基于InternViT-6B-448px-V1-2微调的视觉基础模型,具备强大的鲁棒性、OCR能力及高分辨率处理能力。
InternViT-6B-448px-V1-2是一个视觉基础模型,特征骨干,具有5540万参数,支持448x448像素的图像处理。
InternViT-6B-448px-V1-0是一个视觉基础模型,专注于图像特征提取,支持448x448分辨率,增强了OCR能力和中文对话支持。
InternViT-6B-224px 是一个视觉基础模型,专注于图像特征提取,具有5903百万参数,支持224x224像素的图像输入。