Großweltmodell: KI-generierte Videos und Bilder, 1 Million Daten auf einmal interpretiert

AIGC开放社区

Veröffentlicht amKI-Nachrichten und -Informationen · 1 Minuten Lesezeit · Feb 27, 2024

Forscher der University of California, Berkeley, haben kürzlich das Large World Model (LWM) als Open-Source-Projekt veröffentlicht. Dieses Modell ist in der Lage, gleichzeitig eine Million Datenpunkte zu verarbeiten und kann Videos und Bilder aus Text generieren. Durch die Ring Attention-Technik wird das Problem der Berechnung der Aufmerksamkeit bei langen Sequenzen gelöst, was eine effiziente Verarbeitung multimodaler Informationen ermöglicht. Nach einem zweistufigen Trainingsprozess, bestehend aus der Vorabtrainierung eines Sprachmodells und der anschließenden multimodalen Vorabtrainierung, wurden bemerkenswerte Ergebnisse erzielt.

Multimodale Generierung Großweltmodell Ring Attention

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Adobe veröffentlicht das professionelle KI-Bildgenerationsmodell Firefly Image5 und erreicht durch eine Qualitätsschwelle von 'ausreichend' bis 'professionell'. Neue Funktionen umfassen native Ausgabe von 4 Millionen Pixeln, hierarchische Prompt-Editierung, benutzerdefinierte Kunststilmodelle und KI-generierte Audiospuren. Damit wird der KI-Workflow für Bilder, Videos und Audios abgeschlossen und der kreative Arbeitsablauf neu definiert.

Oct 29, 2025

150

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA veröffentlicht das multimodale Verständnismodell OmniVinci, das in verschiedenen Benchmarks um 19,05 Punkte besser abschneidet als führende Modelle. Das Modell verwendet nur 0,2 Billionen Trainings-Token und erreicht eine sechsmal höhere Daten-effizienz als Konkurrenten. Es soll die einheitliche Wahrnehmung von Bildern, Audio und Text ermöglichen und die multimedialen Fähigkeiten von Maschinen voranbringen.

Oct 28, 2025

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Das Ant-Group-Team hat das Bailin-Modell Ring-flash-linear-2.0-128K open-source veröffentlicht, das sich auf Programmierung mit extrem langen Texten spezialisiert. Es verwendet eine gemischte lineare Aufmerksamkeits- und seltene MoE-Architektur, wodurch nur 6,1 Milliarden Parameter aktiviert werden können, um 40 Milliarden dichte Modelle zu übertreffen. In den Bereichen Code-Generierung und intelligente Agenten zeigt es optimale Leistung und löst effizient die Probleme bei der Bearbeitung langer Kontexte.

Oct 28, 2025

Das Team Ant-Bailing veröffentlicht das neue effiziente Inferenzmodell Ring-mini-sparse-2.0-exp

Ant-Bailing's Ring-mini-sparse-2.0-exp optimiert Langsequenzdecodierung durch MoE-Architektur mit hoher Sparsity und sparsamer Aufmerksamkeit. Steigert Leistung bei komplexen Langsequenzen durch abgestimmte Architektur- und Inferenzoptimierung.....

Oct 27, 2025

Ant Group veröffentlicht die multimodale Anwendung Lingguang mit integrierter AGI-Kamera, die bereits in der internen Testphase ist

Die von Alipay entwickelte Anwendung "Lingguang" startete die interne Testphase und unterstützt die Anmeldung mit einer Handynummer oder Alipay. Die zentrale Funktion der AGI-Kamera kann in Echtzeit die Inhalt des realen Szenarios über die Kamera erkennen und ermöglicht das Schießen mit Fragen und intelligente Interaktion, wodurch das Potenzial multipler AI-Anwendungen gezeigt wird.

Oct 24, 2025

140

Tencent präsentiert Sa2VA: Multimodale intelligente Segmentierung durch die Kombination von LLaVA und SAM-2

ByteDance und Universitäten stellen Sa2VA vor, das LLaVA für visuelle Sprachverarbeitung und SAM-2 für Objektsegmentierung kombiniert, um präzise Videoanalyse und Objektverfolgung zu ermöglichen.....

Oct 21, 2025

Sport-Unternehmen Reebok tritt in die Gesundheitstechnologie ein: Erster intelligenter Ring vorgestellt, Preis 249 US-Dollar, Schwerpunkt auf Druck- und Körpertemperaturmessung

Reebok stellt seinen ersten intelligenten Ring vor, der mit einem Preis von 249 US-Dollar auf den Markt kommt und in das Bereich der Gesundheitstechnologie eintritt. Das Produkt kann Aktivitäten, Herzfrequenz, Schlaf usw. überwachen und eine Gesamtbewertung erstellen, um Gesundheitsfeedback zu liefern.

Oct 20, 2025

Erstes standardisiertes Large-Language-Modell im Bereich der Normung wird vorgestellt: Lösung für Herausforderungen bei der Suche und Anwendung von Normen

Chinas erster standardisierter KI-Modell 'Tongdao' ist online, um Fachleuten bei der effizienten Standardsuche und Dokumentenerstellung zu helfen.....

Oct 16, 2025

Die 1 Billion Parameter umfassende Denkmodell-Testversion Ring-1 wird veröffentlicht und ist Open Source, was zahlreiche SOTA-Rekorde der Open-Source-Modelle bricht

Am 14. Oktober gab die Ant Group das Open-Source-Modell Ring-1T mit einer Milliarde Parameter bekannt, einschließlich der Gewichte und Trainingsmethoden. Das Modell basiert auf einer Vorschauversion und wurde durch Verstärkungslernen optimiert, um seine Deduktionsfähigkeit zu verbessern und die allgemeine Leistung zu vervollständigen. Es zeigte ein ausgewogenes Ergebnis in mehreren Aufgaben. Das Team versucht, noch höhere Schwierigkeiten zu meistern, um die Fähigkeit zur mathematischen und anderen komplexen Deduktion zu verbessern.

Oct 14, 2025

130

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

Kuaishou öffnete das 72-Billionen-Parameter-Code-Modell KAT-Dev-72B-Exp und erreichte eine Genauigkeit von 74,6 % bei der SWE-Bench-Benchmark-Tests, was es an die Spitze der Open-Source-Code-Modell-Rangliste brachte. Dies markiert einen Meilenstein im Bereich der chinesischen KI in der Bereich der Programmierassistenten.

Oct 11, 2025

180

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Großweltmodell: KI-generierte Videos und Bilder, 1 Million Daten auf einmal interpretiert

AIGC开放社区

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Das Team Ant-Bailing veröffentlicht das neue effiziente Inferenzmodell Ring-mini-sparse-2.0-exp

Ant Group veröffentlicht die multimodale Anwendung Lingguang mit integrierter AGI-Kamera, die bereits in der internen Testphase ist

Tencent präsentiert Sa2VA: Multimodale intelligente Segmentierung durch die Kombination von LLaVA und SAM-2

Sport-Unternehmen Reebok tritt in die Gesundheitstechnologie ein: Erster intelligenter Ring vorgestellt, Preis 249 US-Dollar, Schwerpunkt auf Druck- und Körpertemperaturmessung

Erstes standardisiertes Large-Language-Modell im Bereich der Normung wird vorgestellt: Lösung für Herausforderungen bei der Suche und Anwendung von Normen

Die 1 Billion Parameter umfassende Denkmodell-Testversion Ring-1 wird veröffentlicht und ist Open Source, was zahlreiche SOTA-Rekorde der Open-Source-Modelle bricht

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

Empfohlene verwandte KI-Nachrichten

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Das Team Ant-Bailing veröffentlicht das neue effiziente Inferenzmodell Ring-mini-sparse-2.0-exp

Ant Group veröffentlicht die multimodale Anwendung Lingguang mit integrierter AGI-Kamera, die bereits in der internen Testphase ist

Tencent präsentiert Sa2VA: Multimodale intelligente Segmentierung durch die Kombination von LLaVA und SAM-2

Sport-Unternehmen Reebok tritt in die Gesundheitstechnologie ein: Erster intelligenter Ring vorgestellt, Preis 249 US-Dollar, Schwerpunkt auf Druck- und Körpertemperaturmessung

Erstes standardisiertes Large-Language-Modell im Bereich der Normung wird vorgestellt: Lösung für Herausforderungen bei der Suche und Anwendung von Normen

Die 1 Billion Parameter umfassende Denkmodell-Testversion Ring-1 wird veröffentlicht und ist Open Source, was zahlreiche SOTA-Rekorde der Open-Source-Modelle bricht

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

GEO Services

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6