新開源 AI 系統 OmniGen 2:像GPT-4o 一樣融合了圖像和文本生成
近日,北京人工智能研究院推出了全新的開源系統 ——OmniGen2。這一系統專注於文本到圖像的生成、圖像編輯和上下文圖像創作。與2024年發佈的第一代 OmniGen 相比,OmniGen2採用了兩條獨立的解碼路徑:一條用於文本生成,另一條用於圖像生成,且各自擁有獨立的參數和解耦的圖像標記器。這種設計讓模型在保持文本生成能力的同時,有效地提升了多模態語言模型的表現。OmniGen2的核心是一個基於 Qwen2.5-VL-3B 變換器的大型多模態語言模型(MLLM)。在圖像生成方面,該系統使用了一種自定義的擴