Apple und die Sorbonne-Universität forschen gemeinsam: Early Fusion und Sparse Architecture fördern die Entwicklung multimodaler KI

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Apr 16, 2025

Im Bereich der multimodalen Künstlichen Intelligenz (KI) haben Ingenieure von Apple in Zusammenarbeit mit einem Forschungsteam der Sorbonne Universität in Frankreich eine wichtige Studie durchgeführt. Kürzlich veröffentlichte das Technologie-Medium marktechpost einen entsprechenden Blogbeitrag, der die Anwendung und die Zukunftsaussichten von Early-Fusion- und Late-Fusion-Modellen in der multimodalen KI untersucht. Die Studie zeigt, dass von Grund auf trainierte Early-Fusion-Modelle hinsichtlich Rechenleistung und Skalierbarkeit Vorteile bieten.

Das Ziel multimodaler KI ist die gleichzeitige Verarbeitung verschiedener Datentypen wie Bilder und Texte. Die Integration dieser Daten aus verschiedenen Quellen stellt jedoch eine Herausforderung dar. Aktuelle Technologien verwenden in der Regel eine Late-Fusion-Strategie, bei der vortrainierte unimodale Modelle (z. B. visuelle und Sprachmodelle) kombiniert werden. Obwohl diese Methode einfach zu handhaben ist, wird die Fähigkeit des Modells, Beziehungen zwischen verschiedenen Modalitäten zu erfassen, durch die inhärenten Verzerrungen der unimodalen Vortrainierung eingeschränkt, was das Erreichen eines echten multimodalen Verständnisses beeinträchtigt.

Metaverse, Science-Fiction, Cyberpunk-Malerei (3) großes Modell

Bildquelle: Das Bild wurde mit KI generiert und ist durch Midjourney lizenziert.

Mit zunehmender Systemgröße unterscheiden sich die Parameter, die Vortrainingsanforderungen und die Skalierungseigenschaften der einzelnen Komponenten deutlich, was die Ressourcenverteilung komplexer macht. Besonders bei Aufgaben, die eine tiefgreifende multimodale Inferenz erfordern, wird die Leistung erheblich beeinträchtigt. Vor diesem Hintergrund haben die Teams von Apple und der Sorbonne Universität die traditionellen Architekturentscheidungen in Frage gestellt und die Skalierungseigenschaften nativer multimodaler Modelle (NMMs) eingehend untersucht.

Die Studie vergleicht Early-Fusion- und Late-Fusion-Modelle. Die Ergebnisse zeigen, dass Early-Fusion-Modelle, obwohl beide bei der Schulung von Grund auf eine vergleichbare Leistung aufweisen, bei geringerem Rechenaufwand effizienter und leichter zu skalieren sind. Darüber hinaus untersuchte das Team die spärliche Architektur von Mixture-of-Experts (MoE), die Parameter dynamisch zuweisen und für verschiedene Modalitäten optimieren kann. Im Vergleich zu dichten Modellen zeigen spärliche Modelle bei kleineren Modellen einen klaren Vorteil.

Die Studie zeigt, dass spärliche Modelle eher Trainingsdaten (Training Tokens) als aktive Parameter (active parameters) skalieren, was im Gegensatz zur Skalierungsweise dichter Modelle steht. Durch systematische Experimente trainierte das Forschungsteam multimodale Modelle mit 0,3 Millionen bis 4 Milliarden aktiven Parametern und bestätigte so das Potenzial von Early-Fusion und spärlichen Architekturen in der multimodalen Verarbeitung. Diese Erkenntnisse stellen nicht nur traditionelle Designprinzipien in Frage, sondern bieten auch neue Ansätze für die Entwicklung effizienter multimodaler KI-Systeme in der Zukunft.

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

Die norwegische Robotikfirma 1X stellt den ersten humanoiden Haushaltsroboter Neo vor, der für 20.000 Dollar verkauft wird und eine monatliche Abonnementsgebühr von 499 Dollar hat. Der 1,68 Meter hohe Roboter ist speziell für Aufgaben wie Spülen und Aufräumen konzipiert und verwendet einen Modus mit KI und manueller Fernsteuerung, um komplexe Aufgaben zu erledigen.

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

AWS gab bekannt, in den nächsten sechs Jahren in Südkorea zusätzliche 5 Milliarden Dollar investieren zu wollen, um KI-Datenzentren auszubauen und mit der SK Gruppe ein großes Infrastrukturprojekt in Ulsan zu bauen. Die gesamte Investition in Südkorea wird insgesamt 12,6 Milliarden Dollar betragen und zeigt die strategische Bedeutung des südkoreanischen Marktes für AWS.

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

Ding Xiang Vice-Präsident Li Liang betonte, dass KI leicht für die Erstellung von Gerüchten missbraucht werden kann. Die Plattform setzt aktiv KI-Technologie ein, um Gerüchte zu bekämpfen, und entwickelt ein 'Intelligentes System zur Bekämpfung von Gerüchten' und führt eine schnelle Suche im gesamten Netzwerk als Schwerpunkt der Arbeit in diesem Jahr durch.

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

Google Labs und DeepMind haben gemeinsam den KI-Tool Pomelli vorgestellt, der in den USA, Kanada, Australien und Neuseeland im öffentlichen Test betrieben wird. Dieses Tool richtet sich an kleine und mittlere Unternehmen und generiert durch intelligente Analyse des Website-Inhalts rasch soziale Medien-Marketingkampagnen, die zur Markenidentität passen, um die Marketingbarriere zu senken und professionelle Inhaltserschaffung zu ermöglichen. Die Kernfunktion besteht darin, den Unternehmens-DNA in drei Schritten aufzubauen.

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Zwei US-Senatoren haben das GUARD-Gesetz vorgeschlagen, das KI-Unternehmen verpflichtet, bei der Nutzung von Chatbots die Altersverifikation der Nutzer durchzuführen und Minderjährige unter 18 Jahren den Zugang zu verbieten. Das Gesetz bezieht sich auf die Sorgen von Eltern und Sicherheitsanwälten bezüglich des Einflusses der KI auf Kinder und zielt darauf ab, Minderjährige zu schützen.

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Adobe veröffentlicht das professionelle KI-Bildgenerationsmodell Firefly Image5 und erreicht durch eine Qualitätsschwelle von 'ausreichend' bis 'professionell'. Neue Funktionen umfassen native Ausgabe von 4 Millionen Pixeln, hierarchische Prompt-Editierung, benutzerdefinierte Kunststilmodelle und KI-generierte Audiospuren. Damit wird der KI-Workflow für Bilder, Videos und Audios abgeschlossen und der kreative Arbeitsablauf neu definiert.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Apple und die Sorbonne-Universität forschen gemeinsam: Early Fusion und Sparse Architecture fördern die Entwicklung multimodaler KI

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation