O Benchmark Turtle é um novo benchmark imparcial, baseado no jogo 'Turtle Soup', focado em avaliar a capacidade de raciocínio lógico e compreensão de contexto de grandes modelos de linguagem (LLMs). Ao eliminar a necessidade de conhecimento de fundo, ele fornece resultados objetivos e imparciais, com resultados quantificáveis e, através do uso de perguntas geradas por usuários reais, impede que os modelos sejam 'manipulados'.