AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

MiniGemini

支持同时理解和生成图像的多模态大型语言模型

普通产品编程多模态视觉语言模型

打开网站

Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务。支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。

打开网站

MiniGemini 最新流量情况

月总访问量

815

跳出率

52.84%

平均页面访问数

1.0

平均访问时长

00:00:00

MiniGemini 访问量趋势

MiniGemini 访问地理位置分布

MiniGemini 流量来源

MiniGemini 替代品

MiniGemini — 支持同时理解和生成图像的多模态大型语言模型

编程

•多模态•视觉语言模型

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

MiniGemini

MiniGemini 最新流量情况

MiniGemini 访问量趋势

MiniGemini 访问地理位置分布

MiniGemini 流量来源

MiniGemini 替代品

MiniGemini — 支持同时理解和生成图像的多模态大型语言模型

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

InternVL2_5-2B-MPO — 先进的多模态大型语言模型

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

POINTS-Qwen-2-5-7B-Chat — 视觉语言模型的最新进展

InternVL 2.5 — 开源多模态大型语言模型系列

InternVL2_5-4B — 多模态大型语言模型，融合视觉与语言理解。

InternVL2_5-2B — 多模态大型语言模型，支持图像与文本的深度交互

InternVL2_5-1B — 多模态大型语言模型，支持图像和文本理解

InternVL2_5-8B — 多模态大型语言模型，支持图像与文本的交互理解。

InternVL2_5-26B — 多模态大型语言模型，融合视觉与语言理解。

InternVL2_5-38B — 先进的多模态大型语言模型系列

InternVL2_5-78B — 先进多模态大型语言模型系列

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

Pixtral-Large-Instruct-2411 — 124B参数的多模态大型语言模型

ultravox-v0_4_1-llama-3_1-70b — 多模态语音大型语言模型

Aquila-VL-2B-llava-qwen — 视觉语言模型，结合图像和文本信息进行智能处理。

Ferret-UI-Llama8b — 基于Llama-3-8B的多模态大型语言模型，专注于UI任务。