L'équipe Google AI a lancé ScreenAI, un modèle de langage visuel conçu pour comprendre en profondeur les interfaces utilisateur (UI) et les infographies. Ce modèle excelle dans plusieurs tâches, notamment la question-réponse graphique, l'annotation d'éléments et la génération de résumés.
Grâce à la publication d'un nouveau jeu de données, l'équipe fournit davantage de ressources pour les recherches futures, stimulant ainsi le progrès dans ce domaine. ScreenAI offre une approche globale pour comprendre le contenu numérique et présente un large éventail d'applications potentielles.