Liquid AI推出新一代小型基础模型LFM2.5,专为边缘设备和本地部署设计。该系列包括基础版和指令版,并扩展了日语、视觉语言及音频语言变种。模型基于LFM2混合架构,针对CPU和NPU优化,实现快速高效推理。开源权重已发布在Hugging Face平台。
2026年初,美国初创公司Pickle推出首款智能眼镜Pickle1,融合AR显示与高级AI,定位为“灵魂电脑”。它能持续捕捉用户视觉与音频信息,实现无限记忆、情感理解和主动交互,旨在成为用户的“第二大脑”。其核心是独特的Pickle OS系统,引发全球科技界关注。
火山引擎发布豆包语音识别模型2.0,显著提升推理能力,支持多语言和视觉信息识别。模型基于20亿参数音频编码器,优化复杂场景,提升专有名词、人名、地名及多音字的识别准确性。
英伟达发布OmniVinci全模态理解模型,在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token,数据效率达竞争对手六倍,旨在实现视觉、音频和文本的统一理解,推动机器多模态认知能力发展。
免费AI工具,无需注册,可将PDF快速转为含音频、动画和视觉效果的MP4视频
使用Meta AI进行音频分离,可通过文本、视觉或时间提示编辑音频。
Grok Imagine v0.9可快速生成图像和视频,有稳定运动、清晰视觉和音频同步。
学习野外音频视觉数据的机器人操控
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$15.8
$12.7
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
RedHatAI
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
TencentARC
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
google
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。支持文本、音频和视觉输入,适用于多种任务。
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建,支持文本、音频和视觉输入。
Gemma 3n是谷歌推出的轻量级多模态模型,基于Transformer架构,支持文本、音频和视觉(图像和视频)输入,适用于低资源设备。
nguyenvulebinh
AV-HuBERT是一种视听语音识别模型,基于MuAViC多语言视听语料库训练,结合音频和视觉模态实现鲁棒性能。
基于MuAViC数据集训练的视听语音识别模型,结合音频和视觉模态提升嘈杂环境下的识别性能
Robeeeeeeeeeee
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
microsoft
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
PKU-Alignment
AnyRewardModel 是一个全模态生成奖励模型,用于评估多模态生成任务中模型遵循指令的能力,自动选择合适的模态,并在不同模态(文本、视觉、音频)间创建协同输出,同时避免冗余。
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
spow12
基于distil-whisper/distil-large-v2微调的日语语音识别模型,专为日语音频转写设计,特别针对视觉小说场景优化
Simon-Kotchou
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
gaunernst
基于视觉变换器(ViT)的音频处理模型,通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调
Salesforce
Transformers库提供了数千种预训练模型,用于自然语言处理(NLP)、计算机视觉(CV)、音频和语音处理等多模态任务。
一个完整的Groq MCP服务器项目,作为智能桥梁连接应用与Groq API,支持多种AI模型(文本、音频、视觉、批处理),具备智能路由、速率限制、缓存优化等高级功能。