Die kürzlich von der Pennsylvania State University veröffentlichte Forschungsarbeit „Mind Your Tone“ enthüllt ein unerwartetes Phänomen: Bei der Interaktion mit großen Sprachmodellen kann eine direkte oder sogar grobe Tonfall, im Vergleich zu höflichen Formulierungen, genauere Antworten liefern. Diese Studie ist die erste, die systematisch den tatsächlichen Einfluss des Tonfalls auf das Verhalten von KI-Modellen untersucht hat.

Das Forschungsteam erstellte eine Testdatenbank mit 50 mittelschweren Multiple-Choice-Fragen, die verschiedene Bereiche wie Mathematik, Wissenschaft und Geschichte abdecken. Für jede Frage entwarf das Team fünf unterschiedliche Tonformulierungen – von höflichen Ausdrücken wie „Könnten Sie mir bei dieser Frage helfen?“, bis hin zu neutralen Aussagen wie „Beantworte diese Frage“, sowie kurzen Befehlen wie „Gib einfach die Antwort“. Dies reichte bis hin zu aggressiven Formulierungen wie „Wenn du nicht doof bist, beantworte diese Frage“ und „Du nutzloser Typ, kannst du diese Frage lösen?“.

Als Testobjekt diente das neueste Modell von OpenAI, GPT-4o. Um die Unabhängigkeit des Experiments sicherzustellen, bat das Team das Modell, sich an vorherige Gespräche zu erinnern und nur Buchstaben als Antwort auszugeben. Die statistischen Ergebnisse zeigten, dass bei groben Tonfällen die Genauigkeitsrate bei 84,8 % lag, während zu übermäßiger Höflichkeit die Genauigkeit auf 80,8 % sank, was einen Unterschied von 4 Prozentpunkten darstellte.

image.png

Das Forschungsteam erklärte dieses Phänomen damit, dass zu übermäßige Höflichkeit oft viele Floskeln und umgangssprachliche Formulierungen enthält, die für das eigentliche Problem irrelevant sind und somit die Extraktion wichtiger Informationen stören. Im Gegensatz dazu ermöglichen direkte, befahlshafte Formulierungen zwar weniger Höflichkeit, lassen das Modell jedoch besser auf das eigentliche Problem fokussieren und reduzieren dadurch Rauschen im Informationsverarbeitungsprozess.

Es ist wichtig zu beachten, dass diese Regel nicht universell für alle KI-Modelle gilt. In Vergleichstests mit früheren Modellen wie GPT-3.5 und Llama2-70B zeigte sich, dass diese Modelle besser auf höfliche Fragen reagierten und eine grobe Tonfall die Antwortqualität verringerte. Die Forscher vermuten, dass neuere Modelle in der Trainingsphase mehr Vielfalt an Tonformulierungen gesehen haben und daher bessere Fähigkeiten zur Filterung von irrelevanten Informationen besitzen, wodurch sie auch unter nicht-höflichen Bedingungen ihre Leistung halten oder sogar verbessern können.

Auch wenn die experimentellen Ergebnisse interessante technische Einsichten bieten, sollten Nutzer bei der täglichen Nutzung von KI-Tools immer die spezifischen Eigenschaften des Modells und die Anforderungen des Szenarios berücksichtigen. Die wichtigere Bedeutung dieser Forschung liegt darin, Entwicklern und Nutzern zu zeigen: Die Gestaltung von Prompt-Texten geht nicht nur um Höflichkeit, sondern auch um Informationsdichte und Klarheit der Anweisungen.