Information

Latest AI News

Explore AI Frontiers, Master Industry Trends

AI Daily Brief

Your Daily AI Brief - Never Miss What's Next

Information

AI Product Finder

Smart Product Discovery - Comprehensive Market Intelligence

AI Product Rankings

AI Product Power Rankings - Performance, Buzz & Trends

AI Product Submit

Submit Your AI Product - Amplify Reach & Drive Growth

Tools

AI Tools Directory

Discover The Best AI Websites & Tools

Tools

GEO Brand Visibility

All-in-One GEO Brand Insights Platform

AI Visibility Audit

Quickly check how your brand is perceived and presented in AI-powered search results.

AI Search Visibility Checker

Detect brand's visibility on AI platforms

AI Conversation Insight

Discover trending questions users ask AI to guide content strategy

GEO Promotion Link Detection

Quickly evaluate the citation of promotion articles on AI platforms

Service

GEO Ranking Optimization System

Own your own GEO system and become a professional GEO optimization service provider.

GEO Ranking Optimization

Achieve Dominant Visibility in AI Search for Your Business or Brand with GEO Services

Information

MCP Servers

Discover Popular AI-MCP Services - Find Your Perfect Match Instantly

MCP Client

Easy MCP Client Integration - Access Powerful AI Capabilities

MCP Case Tutorials

Master MCP Usage - From Beginner to Expert

MCP Ranking

Top MCP Service Performance Rankings - Find Your Best Choice

MCP Service Submission

Publish & Promote Your MCP Services

Tools

MCP Playground

Test MCP Services Freely - Quick Online Experience

MCP Inspector

Quick MCP Service Testing - Fast Deployment

Information

LLM API Hub

One-stop integration for all major LLM APIs.

AI Models Finder

Comprehensive AI Models Collection for All Your Development & Research Needs

Model Providers

Discover Trusted AI Model Partners - Guaranteed Reliable Support

LLM Leaderboard

AI LLM Power Rankings - Performance, Buzz & Trends

Tools

Compare LLMs

Multi-Dimensional Large Model Comparison - Find Your Perfect Match

LLM Cost Calculator

Calculate AI Model Costs Accurately - Optimize Your Budget

LLM Arena

Multi-Model Real-Time Evaluation & Quick Output Comparison

AI Model Compatibility Checker

Free PC Hardware Test for DeepSeek & Llama

AI Deployment Calculator

Enter Your Large Model Computing Requirements for Instant GPU, Memory & Server Configuration Recommendations

AI Marketplace

Neu veröffentlichtes KI-System OmniGen 2: Es verbindet Bild- und Textgenerierung wie GPT-4o

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Jun 30, 2025

Kürzlich hat das Beijing Institute of Artificial Intelligence ein neues Open-Source-System namens OmniGen2 vorgestellt. Dieses System konzentriert sich auf die Generierung von Bildern aus Text, die Bearbeitung von Bildern und die kreative Erstellung von Kontextbildern.

Im Vergleich zur ersten Generation OmniGen, die 2024 veröffentlicht wurde, verwendet OmniGen2 zwei unabhängige Dekodierungswege: einen für die Textgenerierung und einen für die Bildgenerierung, wobei jeder eigene Parameter und eine entkoppelte Bildmarkierung besitzt. Diese Architektur ermöglicht es dem Modell, seine Fähigkeiten bei der Textgenerierung zu bewahren und gleichzeitig die Leistung von Multimodal-Modellen effektiv zu verbessern.

Das Kernstück von OmniGen2 ist ein großes Multimodal-Modell (MLLM), basierend auf dem Qwen2.5-VL-3B-Transformer. Bei der Bildgenerierung verwendet dieses System einen benutzerdefinierten Diffusions-Transformer mit etwa 4 Milliarden Parametern. Das Modell wechselt automatisch in den Bildgenerierungsmodus, wenn es auf das spezielle Markierung „<|img|>“ trifft. Es ist erwähnenswert, dass OmniGen2 verschiedene Tipps und Kunststile verarbeiten kann, aber die fotografisch realistischen Bilder haben noch Raum zur Verbesserung in Bezug auf die Schärfe.

Um OmniGen2 zu trainieren, verwendete das Forschungsteam etwa 140 Millionen Bilder aus öffentlichen Datensätzen und proprietären Sammlungen. Darüber hinaus entwickelten sie neue Technologien, um ähnliche Frames aus Videos (z. B. Gesichter mit einem Lächeln und ohne Lächeln) zu extrahieren und entsprechende Bearbeitungsanweisungen mit Hilfe eines Sprachmodells zu generieren.

Eine weitere Stärke von OmniGen2 ist seine Reflexionsmechanik, die es dem Modell ermöglicht, die generierten Bilder selbst zu bewerten und in mehreren Durchläufen zu verbessern. Das System kann Defizite in den generierten Bildern erkennen und konkrete Vorschläge für Korrekturen machen.

Um die Leistung des Systems zu bewerten, führte das Forschungsteam den OmniContext-Benchmark ein, der aus drei Kategorien besteht: Charaktere, Objekte und Szenen. Jede Kategorie enthält acht Unteraufgaben und jeweils 50 Beispiele. Die Bewertung erfolgte durch GPT-4.1, wobei die Hauptbewertungskriterien die Genauigkeit der Anweisungen und die Konsistenz des Themas waren. OmniGen2 erreichte insgesamt 7,18 Punkte und übertraf damit alle anderen Open-Source-Modelle, während GPT-4o 8,8 Punkte erzielte.

Obwohl OmniGen2 in verschiedenen Benchmarks gute Ergebnisse erzielte, gibt es dennoch einige Schwächen: Die Effekte von englischen Anweisungen sind besser als die von chinesischen. Die Veränderung der Körperhaltung ist komplexer, und die Ausgabeverarbeitung wird auch von den Eingangsbildern beeinflusst. Für mehrdeutige Mehrbild-Anweisungen benötigt das System klare Anweisungen für die Platzierung von Objekten.

Das Forschungsteam plant, das Modell, die Trainingsdaten und den Entwicklungsprozess auf der Plattform Hugging Face zu veröffentlichen.

Wichtige Punkte:
🌟 OmniGen2 ist ein Open-Source-System zur Generierung von Text und Bildern, das unabhängige Text- und Bilddekodierungswege verwendet.
🎨 Es kann die Generierung von Bildern in verschiedenen Kunststilen verarbeiten und verfügt über Funktionen zur Selbstreflexion und Verbesserung.
📈 OmniGen2 zeigte in mehreren Benchmarks gute Leistungen, insbesondere brach es bei der Bildbearbeitung einen neuen Rekord für offene Quellcode-Modelle.

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe