Tarsier ist eine Reihe von groß angelegten Video-Sprachmodellen, die vom ByteDance-Forschungsteam entwickelt wurden. Sie sind darauf ausgelegt, hochwertige Videobeschreibungen zu generieren und verfügen über ein starkes Videoverständnis. Durch eine zweistufige Trainingsstrategie (Multi-Task-Pre-Training und granulare Anweisungsfeinabstimmung) werden die Genauigkeit und Detailgenauigkeit der Videobeschreibungen deutlich verbessert. Zu den Hauptvorteilen gehören die hochpräzise Videobeschreibungsfähigkeit, das Verständnis komplexer Videoinhalte und die erzielten SOTA-Ergebnisse (State-of-the-Art) in mehreren Video-Benchmark-Tests. Tarsier baut auf der Verbesserung bestehender Video-Sprachmodelle in Bezug auf Detailgenauigkeit und Richtigkeit auf und erreicht durch das Training mit großen Mengen hochwertiger Daten und innovativen Trainingsmethoden neue Höhen im Bereich der Videobeschreibung. Das Modell ist derzeit nicht eindeutig preislich festgelegt und richtet sich hauptsächlich an akademische Forschung und kommerzielle Anwendungen. Es eignet sich für Szenarien, die ein hochwertiges Verständnis und die Generierung von Videoinhalten erfordern.