腾讯开源项目PhotoMaker V2发布,全面升级AI个性化图像定制能力。该版本通过突破性的ID嵌入堆叠技术,实现从用户提供的照片中快速、高效地生成高质量个性化图像,省去了不少繁琐的训练过程。核心技术在于独特的ID嵌入方法,通过提取和创建统一ID表示来同时保持人物特征一致性与多样性变化,可以在文字描述或参考图像的指导下生成各种场景、状态和风格的个性化照片。 主要功能亮点包括: - 逼真照片生成:提供从描述到高度个性化、逼真的快速生成功能。 - 多样风格化:对于照片进行广泛的艺术风格处理,增强创意表达。 - 身份变换与混合:灵活调整和组合人物特征,生成新的独特个人形象。 PhotoMaker V2通过与多种工具集成,增强了用户创造个性化内容的控制,大幅提升了生成效率,使单张图像生成时间缩短了近4倍,提高了整体性能。此工具的应用领域广泛,是个人用户与专业创作者制作、设计虚拟人物、广告与电影特效的理想解决方案。 此突破有望推动AI在创意产业中的应用,可能引领新的艺术表达形式与商业模式,促进内容创作方式的改革。观览体验与应用地址如下:https://huggingface.co/spaces/TencentARC/PhotoMaker-V2
["腾讯会议发布腾讯会议 AI 小助手,接入腾讯混元大模型,通过语音指令完成多种任务。","发布国内首个裸眼 3D 视频会议功能,提供沉浸式 3D 视觉体验。","推出腾讯统一身份 Tencent OneID,作为企业身份管理产品。","与超过 300 家生态伙伴合作,开放 300 个 API 接口,提供个性化解决方案。","腾讯会议宣布一系列新功能和产品,助力会议体验和企业身份管理。"]
业界领先的开源大型混合专家模型
多模态文本到图像生成模型
bojo9
franc3sca是一个基于tencent/SRPO基础模型的低噪声LoRA模型,专门用于文本到图像的生成任务。该模型通过特定的触发词'franc3sca'来有效触发图像生成,具有噪声较低的特点。
julien8082
这是一个基于文本生成图像的项目,使用了LoRA和Diffusers技术,基于tencent/SRPO模型,可通过特定触发词'hannah'生成相关图像。
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。
tencent
SRPO是一种针对扩散模型的人类偏好对齐方法,通过Direct-Align技术和语义相对偏好优化,显著提升了FLUX.1-dev模型的真实感和美学质量,解决了多步去噪计算成本高和依赖离线奖励微调的问题。
DevQuasar
这是腾讯混元-MT-奇美拉-7B模型的量化版本,致力于让知识为每个人所用,通过量化技术降低模型部署和运行的门槛。
本项目提供腾讯混元-MT-7B大语言模型的量化版本,通过模型压缩技术降低计算和存储需求,致力于让知识为每个人所用,使高性能AI模型更加普及和易用。
bartowski
基于llama.cpp对腾讯混元4B指令模型进行量化的版本,通过量化技术使模型在资源受限环境中更高效运行,同时保持一定的性能和质量。提供多种量化类型选择,支持在线重打包优化。
腾讯混元1.8B指令模型的量化版本,使用llama.cpp进行imatrix量化处理,提供多种量化级别选择,有效提升模型在不同硬件上的运行效率,支持在LM Studio或基于llama.cpp的项目中运行。
这是腾讯混元0.5B指令微调模型的GGUF量化版本,使用llama.cpp的imatrix技术进行量化处理,提供从BF16到极低比特率的多种量化选项,适用于资源受限环境下的中文对话任务。
混元是腾讯开源的高效大语言模型系列,专为在各种计算环境中进行多用途部署而设计。从边缘设备到高并发生产系统,这些模型借助先进的量化支持和超长上下文能力,都能实现最佳性能。
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
腾讯混元A13B指令模型的量化版本,通过技术手段在保证性能的同时提升运行效率。
混元3D-2是一款支持图像到3D、文本到3D转换的工具,为3D内容生成提供了强大的解决方案。
TencentBAC
由腾讯PCG基础算法中心微调的多模态语言模型,基于Qwen2.5-VL-3B-Instruct优化,在同规模模型中实现多项多模态推理基准的最先进性能
AnimeGamer是专为无限动漫人生模拟设计的开创性模型,利用多模态大语言模型生成动态动画镜头,打造沉浸式游戏体验。
混元3D-2多视图版是基于混元3D-2微调的版本,支持多视角控制形状生成的高分辨率纹理3D资产生成模型。
腾讯混元3D 2mini是一个轻量高效的图像转3D模型,参数规模为6亿,支持中英文输入。
混元视频-I2V是一个全新的图像转视频生成框架,基于腾讯混元视频模型扩展,支持从静态图像生成高质量视频内容。
混元-7B-Instruct是腾讯发布的中英文双语大语言模型,具备强大的文本生成和理解能力,是目前最强的中文7B Dense模型之一。
混元-7B是腾讯发布的开源大语言模型,具有256K长文本处理能力和分组查询注意力机制(GQA),在中文7B稠密模型中表现优异。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。