声智科技推出全球首款多模态AI时尚耳机,融合视觉与声学交互,突破传统耳机局限。该产品定位为“随身感知工具”,通过声视融合技术实现“看得见、听得清、回得准”,即将在Kickstarter全球首发。
Jan团队推出30B参数多模态模型Jan-v2-VL-Max,专注解决AI在复杂自动化任务中易中断的痛点。该模型基于Qwen3-VL-30B-A3B-Thinking,引入LoRA-based RLVR技术,旨在提升多步操作的稳定性,实现更可靠的长周期任务执行。
优必选旗下优奇与火山引擎合作,整合机器人本体与云端AI技术,加速大模型在工业物流领域的应用。双方将围绕多模态大模型、VLA模型、世界模型及豆包生态展开合作,推动技术规模化落地。
诺亦腾机器人完成Pre-A+轮融资,由启明创投领投,多家机构参投及追加,实现超额认购。公司累计融资已达数亿元,资金将用于具身智能多模态数据的采集、处理与交互技术研发。
使用Wan 2.6 AI将文本和图像转化为专业15秒视频,适配多平台。
MiniMax Agent是一款智能AI伴侣,利用先进的多模态技术提供支持。
基于孪生多模态扩散变换器的创意布局到图像生成技术
一个集成了Gemini多模态直播和WebRTC技术的单文件应用
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
AbstractPhil
MM-VAE Lyra是一个专门用于文本嵌入转换的多模态变分自编码器,采用几何融合技术。它结合了CLIP-L和T5-base模型,能够有效处理文本嵌入的编码和解码任务,为多模态数据处理提供创新解决方案。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
bartowski
这是Qwen3-VL-30B-A3B-Instruct模型的LlamaCPP量化版本,通过先进的量化技术优化模型性能,使其在不同硬件环境下更高效运行。支持多模态视觉语言理解任务。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
davidrd123
基于Qwen-Image模型通过LoRA技术微调的多模态生成模型,支持文本到图像和图像到图像的转换,能够生成多种风格的创意图像
OpenGVLab
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-4B是开源多模态模型系列的中等规模版本,包含4.7亿参数,采用先进的级联强化学习框架和视觉分辨率路由器技术,显著提升了多模态推理能力和效率。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
unsloth
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。该270M版本是经过指令调优的模型,采用量化感知训练(QAT),能够在显著降低内存需求的同时保持与bfloat16相近的质量。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建。270M版本是其中最小规模模型,支持文本和图像输入,具备128K上下文窗口,适用于资源受限环境部署。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,基于与Gemini相同的研究技术构建。270M版本是其中最小的指令微调模型,支持140多种语言,具有32K上下文长度,适用于资源受限环境下的文本生成任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。270M版本是其中最小的模型,能够处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
google
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
Koitenshin
这是一个基于Huihui-InternVL3-2B-abliterated模型转换的GGUF格式量化版本,支持多模态图像文本处理,采用Q8_0量化技术优化推理性能。