騰訊開源項目PhotoMaker V2發佈,全面升級AI個性化圖像定製能力。該版本通過突破性的ID嵌入堆疊技術,實現從用戶提供的照片中快速、高效地生成高質量個性化圖像,省去了不少繁瑣的訓練過程。核心技術在於獨特的ID嵌入方法,通過提取和創建統一ID表示來同時保持人物特徵一致性與多樣性變化,可以在文字描述或參考圖像的指導下生成各種場景、狀態和風格的個性化照片。 主要功能亮點包括: - 逼真照片生成:提供從描述到高度個性化、逼真的快速生成功能。 - 多樣風格化:對於照片進行廣泛的藝術風格處理,增強創意表達。 - 身份變換與混合:靈活調整和組合人物特徵,生成新的獨特個人形象。 PhotoMaker V2通過與多種工具集成,增強了用戶創造個性化內容的控制,大幅提升了生成效率,使單張圖像生成時間縮短了近4倍,提高了整體性能。此工具的應用領域廣泛,是個人用戶與專業創作者製作、設計虛擬人物、廣告與電影特效的理想解決方案。 此突破有望推動AI在創意產業中的應用,可能引領新的藝術表達形式與商業模式,促進內容創作方式的改革。觀覽體驗與應用地址如下:https://huggingface.co/spaces/TencentARC/PhotoMaker-V2
["騰訊會議發佈騰訊會議 AI 小助手,接入騰訊混元大模型,通過語音指令完成多種任務。","發佈國內首個裸眼 3D 視頻會議功能,提供沉浸式 3D 視覺體驗。","推出騰訊統一身份 Tencent OneID,作爲企業身份管理產品。","與超過 300 家生態夥伴合作,開放 300 個 API 接口,提供個性化解決方案。","騰訊會議宣佈一系列新功能和產品,助力會議體驗和企業身份管理。"]
業界領先的開源大型混合專家模型
多模態文本到圖像生成模型
bojo9
franc3sca是一個基於tencent/SRPO基礎模型的低噪聲LoRA模型,專門用於文本到圖像的生成任務。該模型通過特定的觸發詞'franc3sca'來有效觸發圖像生成,具有噪聲較低的特點。
julien8082
這是一個基於文本生成圖像的項目,使用了LoRA和Diffusers技術,基於tencent/SRPO模型,可通過特定觸發詞'hannah'生成相關圖像。
TencentARC
ARC-Qwen-Video-7B是騰訊ARC實驗室開發的用於理解現實世界短視頻的多模態模型,基於Qwen2.5-VL-7B-Instruct構建,支持音視頻同步分析和理解。
tencent
SRPO是一種針對擴散模型的人類偏好對齊方法,通過Direct-Align技術和語義相對偏好優化,顯著提升了FLUX.1-dev模型的真實感和美學質量,解決了多步去噪計算成本高和依賴離線獎勵微調的問題。
DevQuasar
這是騰訊混元-MT-奇美拉-7B模型的量化版本,致力於讓知識為每個人所用,通過量化技術降低模型部署和運行的門檻。
本項目提供騰訊混元-MT-7B大語言模型的量化版本,通過模型壓縮技術降低計算和存儲需求,致力於讓知識為每個人所用,使高性能AI模型更加普及和易用。
bartowski
基於llama.cpp對騰訊混元4B指令模型進行量化的版本,通過量化技術使模型在資源受限環境中更高效運行,同時保持一定的性能和質量。提供多種量化類型選擇,支持在線重打包優化。
騰訊混元1.8B指令模型的量化版本,使用llama.cpp進行imatrix量化處理,提供多種量化級別選擇,有效提升模型在不同硬件上的運行效率,支持在LM Studio或基於llama.cpp的項目中運行。
這是騰訊混元0.5B指令微調模型的GGUF量化版本,使用llama.cpp的imatrix技術進行量化處理,提供從BF16到極低比特率的多種量化選項,適用於資源受限環境下的中文對話任務。
混元是騰訊開源的高效大語言模型系列,專為在各種計算環境中進行多用途部署而設計。從邊緣設備到高併發生產系統,這些模型藉助先進的量化支持和超長上下文能力,都能實現最佳性能。
ARC-Hunyuan-Video-7B 是騰訊ARC實驗室開發的多模態模型,專門用於理解現實世界中的短視頻內容。它能夠端到端處理視覺、音頻和文本信號,通過整合多模態線索實現對視頻的深度結構化理解。
騰訊混元A13B指令模型的量化版本,通過技術手段在保證性能的同時提升運行效率。
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
TencentBAC
由騰訊PCG基礎算法中心微調的多模態語言模型,基於Qwen2.5-VL-3B-Instruct優化,在同規模模型中實現多項多模態推理基準的最先進性能
AnimeGamer是專為無限動漫人生模擬設計的開創性模型,利用多模態大語言模型生成動態動畫鏡頭,打造沉浸式遊戲體驗。
混元3D-2多視圖版是基於混元3D-2微調的版本,支持多視角控制形狀生成的高分辨率紋理3D資產生成模型。
騰訊混元3D 2mini是一個輕量高效的圖像轉3D模型,參數規模為6億,支持中英文輸入。
混元視頻-I2V是一個全新的圖像轉視頻生成框架,基於騰訊混元視頻模型擴展,支持從靜態圖像生成高質量視頻內容。
混元-7B是騰訊發佈的開源大語言模型,具有256K長文本處理能力和分組查詢注意力機制(GQA),在中文7B稠密模型中表現優異。
混元-7B-Instruct是騰訊發佈的中英文雙語大語言模型,具備強大的文本生成和理解能力,是目前最強的中文7B Dense模型之一。
騰訊雲COS MCP Server是一個基於MCP協議的服務,無需編碼即可讓大模型快速接入騰訊雲存儲(COS)和數據萬象(CI)能力,提供文件上傳下載、圖片處理、視頻截幀等雲端存儲與處理功能。
騰訊雲COS MCP Server是一個無需編碼即可讓大模型快速接入騰訊雲存儲(COS)和數據萬象(CI)能力的服務,提供文件上傳下載、圖片處理、視頻處理等雲端存儲與處理功能。