ImageInWords (IIW) est un cadre d'annotation itérative avec participation humaine, conçu pour élaborer des descriptions d'images extrêmement détaillées et générer un nouveau jeu de données. Ce jeu de données atteint des résultats de pointe en évaluant des indicateurs d'automatisation et de parallélisme humain (SxS). Le jeu de données IIW présente une amélioration significative par rapport aux jeux de données existants et aux sorties de GPT-4V sur plusieurs dimensions lors de la génération de descriptions, notamment en termes de lisibilité, d'exhaustivité, de spécificité, d'hallucinations et de similarité humaine. De plus, les modèles affinés à l'aide des données IIW affichent d'excellentes performances dans la génération d'images à partir de texte et le raisonnement visuel linguistique, capables de produire des descriptions plus fidèles à l'image originale.