Florence-2-large-ft é um modelo básico de visão avançado desenvolvido pela Microsoft, que utiliza um método baseado em prompts para lidar com uma ampla gama de tarefas de visão e visão-linguagem. O modelo consegue executar tarefas como descrição de imagens, detecção e segmentação de objetos por meio de prompts de texto simples. Ele utiliza o conjunto de dados FLD-5B, contendo 5,4 bilhões de anotações cobrindo 126 milhões de imagens, para aprendizagem multitarefa. Sua arquitetura sequencial permite excelente desempenho em cenários de zero-shot e fine-tuning, demonstrando ser um modelo básico de visão competitivo.