ByteDance's Jimeng AI (即梦AI) hat offiziell die Übersee-Version von Jimeng 3.0 veröffentlicht, was die weitere Expansion seiner Text-zu-Bild- und Video-Generierungstechnologie auf den globalen Markt markiert. Laut AIbase zeichnet sich die neue Version durch filmreife Bildqualität, 2K-Auflösung, extrem realistische Materialien und präzises englisches Layout aus. Besonders hervorzuheben ist die überragende Leistung bei der englischen Textgenerierung und der Schriftartensteuerung, die die Ergebnisse der vorherigen chinesischen Version übertrifft. Die Ankündigung hat in den sozialen Medien bereits für lebhafte Diskussionen gesorgt. Die Funktionen sind über die Jimeng-Website und die mobile App verfügbar.
Kernfunktionen: Filmreife Optik und präzise Textgenerierung
Jimeng 3.0 Overseas bietet durch technische Verbesserungen ein bisher unerreichtes visuelles Kreativerlebnis. AIbase hat die Hauptfunktionen zusammengefasst:
Filmreife Bildqualität: Generierte Bilder und Videos verfügen über einen hohen Dynamikbereich (HDR) und feine Licht- und Schatteneffekte, die dem Niveau professioneller Filmproduktionen entsprechen und sich für hochwertige Werbung und die Vorschau von Filmen eignen.
2K-Auflösung: Unterstützt Bilder und Videos mit einer Auflösung von 2048 x 2048 Pixeln. Die Details sind gestochen scharf und erfüllen die Anforderungen von sozialen Medien, digitaler Kunst und kommerziellen Präsentationen.
Extrem realistische Materialien und Texturen: Durch verbesserte Diffusionsmodelle werden realistische Materialien wie Haut, Metall und Stoffe erzeugt. Die Texturen der Objekte sind deutlich geschichtet, wie z. B. die Glasreflexionen in einer „Cyberpunk-Stadtlandschaft bei Nacht“.
Präzises englisches Layout: Optimierte Schriftauswahl, Abstand und Ausrichtung. Der generierte englische Text (z. B. Postertitel, Produktlabels) ist sauber und professionell und die Genauigkeit ist deutlich höher als bei der chinesischen Version.
Unterstützung für die Erstellung von multimodalen Inhalten: Unterstützt Text-zu-Bild (T2I), Bild-zu-Bild (I2I) und Text-zu-Video (T2V). Benutzer können mit englischen Eingabeaufforderungen komplexe Szenen generieren, z. B. „eine Straße in London im Steampunk-Stil“.
AIbase hat festgestellt, dass Benutzer im Community-Test mit der Eingabeaufforderung „A futuristic billboard with bold English text ‘Welcome to 2050’“ ein visuell beeindruckendes Poster generiert haben, bei dem das englische Layout klar und stilistisch einheitlich ist und mit professioneller Designsoftware mithalten kann.
Video vom offiziellen Anbieter
Technische Architektur: Multimodales Modell und OCR-Optimierung
Jimeng 3.0 Overseas basiert auf dem VeOmni-Framework von ByteDance und dem verbesserten Goku-AI-Modell und kombiniert multimodale Generierung und Textrendering-Technologie. AIbase analysiert, dass die Kerntechnologien Folgendes umfassen:
Verbesserter Diffusions-Transformator: Verwendet einen Gleichrichter-Fluss-Transformator (Rectified Flow Transformer), um die Hochleistungsgenerierung zu optimieren. Die Generierung von 2K-Bildern dauert durchschnittlich 5-7 Sekunden, die Videogenerierung unterstützt 5 Sekunden/129 Frames.
OCR- und Layoutmodul: Vorab trainierte OCR-Datensätze und Logik für das Schriftbildlayout verbessern das semantische Verständnis und die visuelle Darstellung englischen Texts deutlich und reduzieren Rechtschreibfehler und Layout-Unregelmäßigkeiten.
Optimierung mehrsprachiger Eingabeaufforderungen: Durch ein mehrsprachiges CLIP-Modell (Referenz: CLIP-ViT-L-336px) wird die semantische Analyse englischer Eingabeaufforderungen verbessert, um sicherzustellen, dass die generierten Inhalte mit den Absichten des Benutzers übereinstimmen.
Effizientes Inferencing: Durch ByteScale-verteilte Berechnungen und FP8-Quantisierungstechnologie wird der GPU-Speicherbedarf reduziert. Empfohlene Hardware ist NVIDIA A100 (40 GB) oder RTX 4090 (24 GB).
AIbase ist der Ansicht, dass der Durchbruch von Jimeng 3.0 im englischen Layout auf der speziellen Optimierung für den westlichen Markt beruht und die Erfahrung von ByteDance im Bereich des visuellen Designs im TikTok-Inhaltsökosystem einbezieht.
Anwendungsbereiche: Von digitaler Kunst bis hin zum kommerziellen Marketing
Die filmreife Optik und die präzise Layout-Funktion von Jimeng 3.0 Overseas eröffnen vielfältige Anwendungsmöglichkeiten. AIbase fasst die wichtigsten Anwendungsbereiche zusammen:
Digitale Kunst und NFTs: Künstler können hochauflösende Illustrationen oder dynamische Videos erstellen, z. B. „Cyberpunk-Stil NFT-Avatare“, die direkt auf Plattformen wie OpenSea verwendet werden können.
Film und Werbung: Unterstützt die schnelle Generierung von Filmplakaten, Werbefilmen und Produktpräsentationsvideos, z. B. „Science-Fiction-Filmtrailer 2025“ oder „Luxusuhrenwerbung“.
Inhalte für soziale Medien: Generiert auffällige visuelle Inhalte für Plattformen wie TikTok und Instagram. Das englische Layout sorgt für eine internationale Markenkonsistenz.
Markendesign: Unternehmen können Verpackungsdesigns oder Werbematerialien mit präzisem englischen Text erstellen, z. B. „Etiketten für Bio-Honiggläser“ oder „Logo für ein Technologieunternehmen“.
Bildung und Kulturvermittlung: Generiert visuelle Lehrmaterialien oder kulturelle Werbematerialien mit englischem Text, z. B. „Illustrationen historischer Sehenswürdigkeiten Londons“.
Community-Beispiele zeigen, dass Benutzer mit Jimeng 3.0 ein „surrealistisches Poster der Skyline von New York“ mit dem englischen Titel „New York 2050“ erstellt haben, das ein flüssiges Layout und eine visuelle Wirkung aufweist, die mit Adobe Photoshop vergleichbar ist. AIbase beobachtet, dass die potenzielle Integration mit CapCut den Workflow der Videopostproduktion weiter vereinfachen wird.
Anleitung: Schnelle Nutzung für globale Benutzer
AIbase hat erfahren, dass Jimeng 3.0 Overseas jetzt über die Jimeng-Website (jimeng.jianying.com) und die iOS/Android-App verfügbar ist. Einige Funktionen erfordern ein Abonnement (ab ca. 69 Yuan/Monat). Benutzer können die App wie folgt schnell nutzen:
Laden Sie die Jimeng AI-App (App Store/Google Play) herunter oder besuchen Sie jimeng.jianying.com;
Wählen Sie das Modell „Image 3.0“ oder „Video 3.0“ und geben Sie eine englische Eingabeaufforderung ein (z. B. „A cinematic poster for a sci-fi movie, with bold English title ‘Galaxy Quest’“);
Passen Sie die Auflösung (Standard 2K) und die Stilparameter an, führen Sie die Generierung aus (ca. 5-10 Sekunden);
Exportieren Sie das Bild (PNG/JPEG) oder Video (MP4) und teilen Sie es direkt auf TikTok oder speichern Sie es auf Ihrem Gerät.
Die Community empfiehlt die Verwendung spezifischer Eingabeaufforderungen und die Angabe des Schriftstils (z. B. „futuristische serifenlose Schrift“) zur Optimierung des englischen Layouts. AIbase weist darauf hin, dass kostenlose Benutzer nur eine begrenzte Anzahl an Punkten pro Tag haben (ca. 100 Punkte). Es wird empfohlen, ein Abonnement abzuschließen, um alle Funktionen freizuschalten.
Community-Feedback und Verbesserungsrichtungen
Nach der Veröffentlichung von Jimeng 3.0 Overseas wurde die filmreife Optik und die englische Layout-Funktion von der Community hoch gelobt. Die Entwickler bezeichnen es als „die AI-Bildgenerierung in den Bereich des professionellen Designs gebracht zu haben“, insbesondere bei der Erstellung internationaler Marketinginhalte. Einige Benutzer wiesen jedoch darauf hin, dass das chinesische Layout noch verbessert werden muss und die Generierung von hochauflösenden Bildern hohe Anforderungen an die Hardware stellt. Die Community wünscht sich außerdem die Unterstützung von 4K-Ausgabe und längerer Videogenerierung (z. B. 10 Sekunden). ByteDance antwortete, dass die nächste Version die Konsistenz des mehrsprachigen Layouts verbessern und die Leistung von Low-End-Geräten optimieren wird. AIbase prognostiziert, dass Jimeng 3.0 möglicherweise weiter in das Doubao-Ökosystem integriert wird und einen „AI-Content-Markt“ für globale Kreative einführt.
Zugangsadresse: https://dreamina.capcut.com/