Mit dem Fortschritt in der künstlichen Intelligenz wird die Anwendung von großen Sprachmodellen (LSM) immer weiter verbreitet. Aktuell gibt es jedoch noch viele Einschränkungen bei der deduktiven Methode. Der traditionelle sequenzielle Generierungsansatz erzeugt Tokens nacheinander, was ineffizient ist und die parallele Rechenleistung moderner Hardware nicht optimal ausnutzt. Um dieses Problem zu lösen, hat eine Forschungsgruppe von Carnegie Mellon University (CMU) und NVIDIA einen neuen generativen Modelltyp namens Multiverse vorgestellt, der ursprünglich parallel generieren soll und so unsere Vorstellung von der Deduktion mit LSM grundlegend verändert.

QQ20250618-091616.jpg

Multiverse geht nicht nur davon aus, die Geschwindigkeit der Generierung zu beschleunigen, sondern auch das Architekturdenken neu zu gestalten. Die Forscher entdeckten eine implizite Parallelität im Prozess der aktuellen Mainstream-Langtextmodelle. Basierend auf dieser Entdeckung hat das Multiverse-Framework eine MapReduce-artige Struktur übernommen, die den Generierungsprozess in drei Phasen unterteilt: adaptive Zerlegung der Aufgabe, parallele Durchführung der Teilvorgänge und fehlerfreie Kombination der Ergebnisse. Diese Konstruktion nutzt die Potenz der Rechenressourcen optimal und erreicht eine effizientere Deduktionsmethode.

image.png

Nach den Versuchsdaten zeigt Multiverse-32B unter gleichen Kontextlängen eine Performance um fast 2 % höher als sequentielle Modelle. Das deutet darauf hin, dass Multiverse nicht nur in Geschwindigkeit signifikant steigt, sondern auch hervorragende Erweiterbarkeit bietet und bei unterschiedlichen Batching-Größen bis zu doppelt so schnell arbeiten kann. Um diese Errungenschaft noch weiter anzuwenden, hat die Forschungsgruppe das gesamte Multiverse-Ökosystem, einschließlich der Daten, Modellgewichte und Trainingsdetails, offengelegt, damit andere Forscher weiter daran forschen können.

In der praktischen Anwendung kann Multiverse je nach Generierungsbedarf flexibel angepasst werden und durch einen spezialisierten Steuertag die dynamische Umstellung zwischen sequentieller und paralleler Generierung realisieren, wodurch die Kohärenz und Logik der generierten Inhalte sichergestellt werden. Mit dieser Technologie wird dem Bereich der Natürlichen Sprachverarbeitung neues Leben eingehaucht, und wir freuen uns darauf, ihre Praxisleistung zu erleben.