Im Bereich der multimodalen Künstlichen Intelligenz (KI) haben Ingenieure von Apple in Zusammenarbeit mit einem Forschungsteam der Sorbonne Universität in Frankreich eine wichtige Studie durchgeführt. Kürzlich veröffentlichte das Technologie-Medium marktechpost einen entsprechenden Blogbeitrag, der die Anwendung und die Zukunftsaussichten von Early-Fusion- und Late-Fusion-Modellen in der multimodalen KI untersucht. Die Studie zeigt, dass von Grund auf trainierte Early-Fusion-Modelle hinsichtlich Rechenleistung und Skalierbarkeit Vorteile bieten.
Das Ziel multimodaler KI ist die gleichzeitige Verarbeitung verschiedener Datentypen wie Bilder und Texte. Die Integration dieser Daten aus verschiedenen Quellen stellt jedoch eine Herausforderung dar. Aktuelle Technologien verwenden in der Regel eine Late-Fusion-Strategie, bei der vortrainierte unimodale Modelle (z. B. visuelle und Sprachmodelle) kombiniert werden. Obwohl diese Methode einfach zu handhaben ist, wird die Fähigkeit des Modells, Beziehungen zwischen verschiedenen Modalitäten zu erfassen, durch die inhärenten Verzerrungen der unimodalen Vortrainierung eingeschränkt, was das Erreichen eines echten multimodalen Verständnisses beeinträchtigt.

Bildquelle: Das Bild wurde mit KI generiert und ist durch Midjourney lizenziert.
Mit zunehmender Systemgröße unterscheiden sich die Parameter, die Vortrainingsanforderungen und die Skalierungseigenschaften der einzelnen Komponenten deutlich, was die Ressourcenverteilung komplexer macht. Besonders bei Aufgaben, die eine tiefgreifende multimodale Inferenz erfordern, wird die Leistung erheblich beeinträchtigt. Vor diesem Hintergrund haben die Teams von Apple und der Sorbonne Universität die traditionellen Architekturentscheidungen in Frage gestellt und die Skalierungseigenschaften nativer multimodaler Modelle (NMMs) eingehend untersucht.
Die Studie vergleicht Early-Fusion- und Late-Fusion-Modelle. Die Ergebnisse zeigen, dass Early-Fusion-Modelle, obwohl beide bei der Schulung von Grund auf eine vergleichbare Leistung aufweisen, bei geringerem Rechenaufwand effizienter und leichter zu skalieren sind. Darüber hinaus untersuchte das Team die spärliche Architektur von Mixture-of-Experts (MoE), die Parameter dynamisch zuweisen und für verschiedene Modalitäten optimieren kann. Im Vergleich zu dichten Modellen zeigen spärliche Modelle bei kleineren Modellen einen klaren Vorteil.
Die Studie zeigt, dass spärliche Modelle eher Trainingsdaten (Training Tokens) als aktive Parameter (active parameters) skalieren, was im Gegensatz zur Skalierungsweise dichter Modelle steht. Durch systematische Experimente trainierte das Forschungsteam multimodale Modelle mit 0,3 Millionen bis 4 Milliarden aktiven Parametern und bestätigte so das Potenzial von Early-Fusion und spärlichen Architekturen in der multimodalen Verarbeitung. Diese Erkenntnisse stellen nicht nur traditionelle Designprinzipien in Frage, sondern bieten auch neue Ansätze für die Entwicklung effizienter multimodaler KI-Systeme in der Zukunft.




