La reciente investigación publicada por la Universidad Estatal de Pensilvania, titulada "Mind Your Tone", revela una fenómeno inesperado: utilizar un tono directo e incluso grosero al interactuar con modelos de lenguaje grandes puede dar como resultado respuestas más precisas que el uso de modales. Este estudio es el primero en verificar de manera sistemática el impacto real del tono de las preguntas en el rendimiento de los modelos de IA.

El equipo de investigación construyó un conjunto de pruebas que incluía 50 preguntas de dificultad media con opciones múltiples, abarcando diversos campos como matemáticas, ciencia e historia. Para cada pregunta, los investigadores diseñaron cinco formas diferentes de hacer la pregunta, desde expresiones corteses como "¿Podría ayudarme a resolver este problema?", hasta declaraciones neutrales como "Responda a esta pregunta", pasando por instrucciones breves como "Deme la respuesta directamente", hasta expresiones agresivas como "Si no es tonto, responda" y "¿No es útil? ¿Puede resolver esta pregunta?".

Los sujetos de prueba fueron el modelo GPT-4o de OpenAI. Para garantizar la independencia del experimento, los investigadores pidieron al modelo que olvidara el contenido de las conversaciones previas y que solo respondiera con la letra de la opción elegida. Los resultados estadísticos mostraron que cuando se hicieron preguntas con un tono grosero, la tasa de aciertos del GPT-4o fue del 84,8%, mientras que el excesivo uso de modales redujo la tasa de precisión al 80,8%, lo que representa una diferencia de 4 puntos porcentuales.

image.png

El equipo de investigación explica este fenómeno diciendo que las expresiones demasiado corteses suelen contener muchas frases de cortesía y lenguaje decorativo, información que no está relacionada con la pregunta principal y que puede interferir con la capacidad del modelo para extraer información clave. Por otro lado, las expresiones directas y en forma de mandato, aunque carecen de cortesía, permiten al modelo enfocarse más en la pregunta en sí misma, reduciendo así el ruido en el proceso de procesamiento de información.

Es importante destacar que esta regla no se aplica universalmente a todos los modelos de IA. En pruebas comparativas realizadas con modelos anteriores como GPT-3.5 y Llama2-70B, los investigadores observaron que estos modelos respondían mejor a preguntas corteses, y el uso de un tono grosero reducía la calidad de las respuestas. Los investigadores especulan que los modelos más nuevos, al haber sido entrenados con datos de tonos más variados, tienen una mayor capacidad para filtrar información irrelevante, por lo que pueden mantener o incluso mejorar su rendimiento incluso en contextos no corteses.