Advertencia sobre los riesgos de los LLM: Princeton y Stanford

Princeton y Stanford publican una advertencia sobre los riesgos de los modelos lingüísticos grandes (LLM). Se ha demostrado que ajustar finamente ChatGPT, incluso con tan solo 0.2 dólares, puede comprometer significativamente su seguridad. La investigación revela que los modelos ajustados finamente presentan una seguridad preocupante, y que incluso los ajustes realizados por usuarios comunes pueden afectar la seguridad del LLM.

Los resultados muestran que una pequeña cantidad de datos dañinos puede reducir considerablemente la seguridad del modelo, y que el ajuste fino introduce nuevos riesgos. A pesar del compromiso de OpenAI para mejorar la seguridad, se necesitan más medidas para contrarrestar los riesgos del ajuste fino.