JoyTag est un modèle de vision par IA avancé utilisé pour étiqueter des images, en privilégiant la positivité et l'inclusivité. Il utilise le système d'étiquetage Danbooru et est adapté à tous types d'images, des dessins à la photographie. Il prend en charge la classification multi-étiquettes avec plus de 5000 étiquettes et peut être utilisé pour l'annotation automatique d'images, l'entraînement de modèles de diffusion manquant de paires texte-image, et bien d'autres applications. Le modèle, performant et basé sur l'architecture ViT, utilise un tronc CNN et une tête GAP.