Bei der kürzlich abgeschlossenen International Conference on Machine Learning (ICML) haben Kuaishou und die Shanghai Jiao Tong University ein beeindruckendes multimodales Generations- und Verständnismodell namens Orthus vorgestellt. Dieses Modell basiert auf einer selbstregressiven Transformer-Architektur und kann zwischen Text und Bild fließend wechseln, wodurch es eine bislang unerreichte Generationsfähigkeit zeigt. Das Modell ist nun offiziell open source.

Der größte Vorteil von Orthus liegt in seiner hervorragenden Rechenleistung und ihrer starken Lernfähigkeit. Studien zeigen, dass Orthus bei nur geringem Rechenaufwand in mehreren Bildverstehensmetriken über bestehende hybride Generations- und Verstehensmodelle wie Chameleon und Show-o hinausgeht. Bei der GenEval-Metriken für Text-zu-Bild-Generierung schneidet Orthus sogar besser ab als speziell dafür entwickelte Diffusionsmodelle wie SDXL.

Kuaishou

Dieses Modell kann nicht nur die Interaktion zwischen Text und Bild verarbeiten, sondern zeigt auch großes Potenzial in Anwendungen wie Bildbearbeitung und Webseitengenerierung. Die Architektur von Orthus ist äußerst geschickt gestaltet, sie verwendet einen selbstregressiven Transformer als Hauptnetzwerk und verfügt über spezifische Generationsköpfe für verschiedene Modi, um Text und Bild zu generieren. Diese Gestaltung ermöglicht eine effektive Entkoppelung der Modellierung von Bilddetails und der Darstellung von Textmerkmalen, sodass Orthus sich auf die Modellierung der komplexen Beziehungen zwischen Text und Bild konzentrieren kann.

Im Detail besteht Orthus aus mehreren Kernkomponenten, darunter einem Text-Tokenizer, einem visuellen Autoencoder und zwei modus-spezifischen Einbettungsmodulen. Es fusioniert Text- und Bildmerkmale in einen einheitlichen Darstellungsraum, wodurch das Hauptnetzwerk bei der Verarbeitung von Modus-Abhängigkeiten effizienter arbeiten kann. Während der Inferenzphase generiert das Modell basierend auf bestimmten Markierungen selbstregressiv den nächsten Text-Token oder Bildmerkmale und zeigt so eine sehr hohe Flexibilität.

Durch diese innovativen Designs vermeidet Orthus nicht nur die Diskrepanz zwischen End-to-End-Diffusionsmodellierung und selbstregressiver Mechanik, sondern reduziert auch die Informationsverluste durch Bilddiskretisierung. Dieses Modell kann als ein erfolgreicher Ausbau der MAR-Arbeit von He Kai Ming im Bereich Bildgenerierung in den multimodalen Bereich betrachtet werden.

Die Zusammenarbeit zwischen Kuaishou und der Shanghai Jiao Tong University bringt zweifellos neue Möglichkeiten für die Entwicklung multim großer Generationsmodelle mit sich und verdient Aufmerksamkeit und Erwartungen aus der Industrie und der Wissenschaft.