Forscher der UCLA und anderer Institutionen haben kürzlich MultiPLY vorgestellt, ein großes Sprachmodell mit verkörperter Intelligenz. Dieses Modell verfügt über multimodale Wahrnehmungsfähigkeiten, einschließlich Berührung, Sehen und Hören, wodurch die KI umfassender mit 3D-Umgebungen interagieren kann.
Durch die Interaktion des Agenten mit der 3D-Umgebung zeigt MultiPLY hervorragende Leistungen in Experimenten zu Objektabruf, Werkzeuggebrauch, multisensorischer Annotation und Aufgabenzerlegung. Zusätzlich haben die Forscher einen umfangreichen multisensorischen Datensatz namens Multisensory-Universe mit 500.000 Datensätzen erstellt.
Diese Forschung liefert neue Ansätze für den Aufbau großer Modelle mit multisensorischen Fähigkeiten und eröffnet neue Wege zur Erreichung von AGI (Artificial General Intelligence).