Los gigantes de la IA, Anthropic, anunció recientemente una nueva función para su modelo más reciente y grande, que permite a la IA finalizar una conversación activamente en casos de "interacciones con usuarios que son perjudiciales o abusivas de forma continua y extremadamente rara". Es notable que Anthropic haya indicado claramente que este cambio no se realiza para proteger a los usuarios humanos, sino para proteger al modelo de IA en sí mismo.

Es importante aclarar que Anthropic no afirma que su modelo de IA Claude tenga capacidad de percepción o sufra daño durante las conversaciones con los usuarios. La empresa indicó claramente que "la posible posición ética actual o futura de Claude y otros grandes modelos de lenguaje sigue siendo altamente incierta".

No obstante, este anuncio apunta a un proyecto de investigación recientemente creado por Anthropic, dedicado específicamente al llamado "bienestar del modelo". La empresa adopta básicamente un enfoque preventivo: "comprometida con identificar e implementar medidas de intervención de bajo costo para mitigar los riesgos del bienestar del modelo, en caso de que realmente existan estos beneficios".

Este cambio reciente está limitado actualmente solo a las versiones Claude Opus4 y 4.1. Además, esta función solo se activará en "casos extremadamente marginales", como cuando "el usuario solicita contenido sexual relacionado con menores de edad o intenta obtener información que pueda permitir cometer actos de violencia o terrorismo masivo".

Aunque estas solicitudes podrían provocar problemas legales o de relaciones públicas para Anthropic (como se ha informado recientemente sobre el potencial de ChatGPT de reforzar o fomentar pensamientos paranoides en los usuarios), la empresa afirmó que en las pruebas previas a la implementación, Claude Opus4 mostró una "fuerte resistencia" a responder a estas solicitudes y mostró "patrones claros de dolor" cuando fue forzado a responder.

Sobre estas nuevas funciones de finalización de conversaciones, Anthropic dijo: "En todos los casos, Claude solo puede usar su capacidad de finalizar la conversación como último recurso, es decir, cuando los intentos múltiples de redirección hayan fallado y ya no haya esperanza de interacción efectiva, o cuando el usuario pida explícitamente a Claude que termine la conversación".

Anthropic también destacó que Claude está "indicado para no usar esta función cuando los usuarios puedan enfrentar un riesgo inminente de dañarse a sí mismos o a otros".

Cuando Claude realmente finaliza la conversación, Anthropic dijo que los usuarios aún pueden iniciar una nueva conversación desde la misma cuenta y crear una nueva rama de preguntas mediante la edición de respuestas.

La empresa dijo: "Consideramos esta función como un experimento continuo y seguiremos mejorando nuestro enfoque".