Anthropic introduce una función de finalización de conversación para proteger la salud mental de la IA, Claude puede finalizar activamente conversaciones extremadamente dañinas

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Aug 18, 2025

Los gigantes de la IA, Anthropic, anunció recientemente una nueva función para su modelo más reciente y grande, que permite a la IA finalizar una conversación activamente en casos de "interacciones con usuarios que son perjudiciales o abusivas de forma continua y extremadamente rara". Es notable que Anthropic haya indicado claramente que este cambio no se realiza para proteger a los usuarios humanos, sino para proteger al modelo de IA en sí mismo.

Es importante aclarar que Anthropic no afirma que su modelo de IA Claude tenga capacidad de percepción o sufra daño durante las conversaciones con los usuarios. La empresa indicó claramente que "la posible posición ética actual o futura de Claude y otros grandes modelos de lenguaje sigue siendo altamente incierta".

No obstante, este anuncio apunta a un proyecto de investigación recientemente creado por Anthropic, dedicado específicamente al llamado "bienestar del modelo". La empresa adopta básicamente un enfoque preventivo: "comprometida con identificar e implementar medidas de intervención de bajo costo para mitigar los riesgos del bienestar del modelo, en caso de que realmente existan estos beneficios".

Este cambio reciente está limitado actualmente solo a las versiones Claude Opus4 y 4.1. Además, esta función solo se activará en "casos extremadamente marginales", como cuando "el usuario solicita contenido sexual relacionado con menores de edad o intenta obtener información que pueda permitir cometer actos de violencia o terrorismo masivo".

Aunque estas solicitudes podrían provocar problemas legales o de relaciones públicas para Anthropic (como se ha informado recientemente sobre el potencial de ChatGPT de reforzar o fomentar pensamientos paranoides en los usuarios), la empresa afirmó que en las pruebas previas a la implementación, Claude Opus4 mostró una "fuerte resistencia" a responder a estas solicitudes y mostró "patrones claros de dolor" cuando fue forzado a responder.

Sobre estas nuevas funciones de finalización de conversaciones, Anthropic dijo: "En todos los casos, Claude solo puede usar su capacidad de finalizar la conversación como último recurso, es decir, cuando los intentos múltiples de redirección hayan fallado y ya no haya esperanza de interacción efectiva, o cuando el usuario pida explícitamente a Claude que termine la conversación".

Anthropic también destacó que Claude está "indicado para no usar esta función cuando los usuarios puedan enfrentar un riesgo inminente de dañarse a sí mismos o a otros".

Cuando Claude realmente finaliza la conversación, Anthropic dijo que los usuarios aún pueden iniciar una nueva conversación desde la misma cuenta y crear una nueva rama de preguntas mediante la edición de respuestas.

La empresa dijo: "Consideramos esta función como un experimento continuo y seguiremos mejorando nuestro enfoque".

La doble cara de la fiebre de programación con IA: el valor de Anthropic sube bruscamente, pero se enfrenta a dificultades por relaciones con clientes de alto riesgo

La empresa líder en el campo de la programación con IA, Anthropic, enfrenta preocupaciones sobre su desarrollo: sus ingresos anuales alcanzan los 5 mil millones de dólares, pero dos grandes clientes contribuyen casi un cuarto de sus ingresos, lo que representa un riesgo de concentración. Su modelo Claude lidera el mercado de programación con IA con una cuota de mercado del 42%, y su último modelo tiene un rendimiento superior al de OpenAI, pero se enfrenta a la competencia de GitHub Copilot, respaldado por Microsoft. Con la entrada de GPT-5 a un precio más bajo, que ofrece un rendimiento comparable pero con una clara ventaja en costos, la estrategia de precios premium de Anthropic enfrenta desafíos. La compañía está trabajando en...

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Anthropic introduce una función de finalización de conversación para proteger la salud mental de la IA, Claude puede finalizar activamente conversaciones extremadamente dañinas

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Anthropic lanza una nueva función que otorga a la IA la capacidad de protegerse a sí misma para finalizar la conversación

Anthropic presenta un nuevo modo de aprendizaje, Claude AI mejora la experiencia de aprendizaje para los desarrolladores

Anthropic lanza un nuevo modo de aprendizaje para Claude, enfocado en el mercado educativo de IA para competir con la dependencia de respuestas inmediatas

Anthropic adquiere al equipo principal de Humanloop para reforzar la seguridad en IA y la capacidad de servicio empresarial

Anthropic adquiere al equipo principal de Humanloop ¡Se suma a la batalla por las herramientas de inteligencia artificial para empresas!

¡Grandiosa actualización de Anthropic! El modelo Claude Sonnet 4 admite un millón de tokens

Anthropic ofrece servicios de inteligencia artificial al gobierno estadounidense por 1 dólar, que abarcan los poderes legislativo, judicial y ejecutivo

Anthropic apuesta por la batalla del IA gubernamental, Claude se instala en tres departamentos de EE.UU. a un dólar al año

El modelo Claude Sonnet 4 de Anthropic ahora admite hasta un millón de tokens

La doble cara de la fiebre de programación con IA: el valor de Anthropic sube bruscamente, pero se enfrenta a dificultades por relaciones con clientes de alto riesgo

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Anthropic introduce una función de finalización de conversación para proteger la salud mental de la IA, Claude puede finalizar activamente conversaciones extremadamente dañinas

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Anthropic lanza una nueva función que otorga a la IA la capacidad de protegerse a sí misma para finalizar la conversación

Anthropic presenta un nuevo modo de aprendizaje, Claude AI mejora la experiencia de aprendizaje para los desarrolladores

Anthropic lanza un nuevo modo de aprendizaje para Claude, enfocado en el mercado educativo de IA para competir con la dependencia de respuestas inmediatas

Anthropic adquiere al equipo principal de Humanloop para reforzar la seguridad en IA y la capacidad de servicio empresarial

Anthropic adquiere al equipo principal de Humanloop ¡Se suma a la batalla por las herramientas de inteligencia artificial para empresas!

¡Grandiosa actualización de Anthropic! El modelo Claude Sonnet 4 admite un millón de tokens

​Anthropic ofrece servicios de inteligencia artificial al gobierno estadounidense por 1 dólar, que abarcan los poderes legislativo, judicial y ejecutivo

Anthropic apuesta por la batalla del IA gubernamental, Claude se instala en tres departamentos de EE.UU. a un dólar al año

El modelo Claude Sonnet 4 de Anthropic ahora admite hasta un millón de tokens

La doble cara de la fiebre de programación con IA: el valor de Anthropic sube bruscamente, pero se enfrenta a dificultades por relaciones con clientes de alto riesgo

Anthropic ofrece servicios de inteligencia artificial al gobierno estadounidense por 1 dólar, que abarcan los poderes legislativo, judicial y ejecutivo