蚂蚁数科在港金融科技节推出多语种多模态大模型训练框架,突破多语言应用瓶颈。该技术针对埃及阿拉伯语等小语种,通过语言感知优化框架,实现“以目标语言思考”机制,提升资源稀缺语言的训练效果。
蚂蚁数科在香港金融科技节推出“多语种多模态大模型训练框架”,旨在解决大模型在多语言环境的应用瓶颈。传统英文大模型在小语种中易出现语言错乱和推理混乱,限制全球化发展。该框架通过优化多语种处理能力,提升模型在多样化语言环境下的表现,推动AI技术更广泛高效地服务于全球各行业。
巨量引擎推出自研AI广告治理大模型,通过"全链路治理"框架和"以AI治AI"策略应对AI生成内容引发的虚假宣传等风险。该多模态模型显著提升审核效率,90%广告素材可在10分钟内完成智能审核,大幅超越人工处理速度。
开源社区推出LLaVA-OneVision-1.5多模态模型,实现技术突破。该模型历经两年发展,从基础图文对齐升级为能处理图像、视频的综合框架,核心提供开放高效的可复现训练架构,支持用户便捷构建高质量视觉语言模型,训练过程分三个阶段推进。
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
一个用于智能设备等的多模态原生代理框架。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
这是Qwen3-VL-4B-Instruct模型的4位量化版本,专门针对Apple Silicon芯片优化,使用MLX框架转换。该模型是一个视觉语言模型,支持图像理解和多模态对话任务。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
这是一个基于Huihui-GLM-4.5V-abliterated模型转换而来的视觉语言模型,采用MXFP4量化格式,专门针对Apple MLX框架优化,支持图像理解和多模态对话任务。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
MiniCPM4.1-8B-8bit是基于MiniCPM4.1-8B模型转换的8位量化版本,专为MLX框架优化,提供高效的多模态语言处理能力
OpenGVLab
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-4B是开源多模态模型系列的中等规模版本,包含4.7亿参数,采用先进的级联强化学习框架和视觉分辨率路由器技术,显著提升了多模态推理能力和效率。
这是一个基于GLM-4.5V模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个视觉语言模型,支持图像理解和多模态对话任务。
这是一个基于MLX框架转换的视觉语言模型,由huihui-ai/Huihui-GLM-4.5V-abliterated转换而来,支持图像理解和多模态对话任务。
DeepGlint-AI
UniME是一个基于多模态大模型的通用嵌入学习框架,通过文本判别知识蒸馏和硬负样本增强的指令调优策略,显著提升了多模态嵌入能力。
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
nonwhy
PURE是首个采用多模态大型语言模型(MLLM)作为主干网络来解决低级视觉任务的框架。
wusize
Harmon是一种创新的统一多模态理解与生成框架,通过共享的MAR编码器协调理解与生成的视觉表征,在文本生成图像和多模态理解任务中表现优异。
MLAdaptiveIntelligence
LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架,基于Qwen2语言模型架构,支持第一人称视角视频理解。
yeliudev
VideoMind是一个多模态智能体框架,通过模拟类人的认知过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
基于MCP框架的多模态助手客户端,提供Python代码执行、实时天气查询等功能,包含Streamlit交互界面和SSE服务工具。