Anthropic adiciona novo recurso ao Claude que permite que a IA encerre sozinha conversas prejudiciais

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Aug 19, 2025

20.6k

Os problemas de segurança e ética no campo da inteligência artificial estão recebendo cada vez mais atenção. A empresa Anthropic lançou recentemente uma nova funcionalidade para seu modelo de IA principal, Claude, que permite que ele encerre conversas por conta própria em certos cenários. Essa função visa lidar com "interações contínuas prejudiciais ou abusivas" e faz parte da exploração da "bem-estar do modelo" pela Anthropic, gerando amplo debate sobre ética da IA tanto dentro quanto fora da indústria.

Nova funcionalidade do Claude: Encerrar conversas prejudiciais

De acordo com um comunicado oficial da Anthropic, os modelos Claude Opus4 e 4.1 agora possuem a capacidade de encerrar conversas em "situações extremas", especificamente para "interações contínuas prejudiciais ou abusivas" do usuário, como solicitações envolvendo conteúdo sexual envolvendo crianças ou atividades violentas em larga escala. Essa função foi oficialmente anunciada em 15 de agosto de 2025 e está disponível apenas para os modelos avançados do Claude, acionando-se somente após várias tentativas fracassadas de redirecionamento ou quando o usuário pede explicitamente para encerrar a conversa. A Anthropic enfatiza que essa é uma "última alternativa", destinada a garantir que a IA proteja sua estabilidade operacional diante de casos extremos.

Na prática, quando o Claude encerra uma conversa, o usuário não pode enviar novas mensagens na mesma linha de diálogo, mas pode iniciar imediatamente uma nova conversa ou criar uma nova ramificação editando mensagens anteriores. Essa configuração garante a continuidade da experiência do usuário, ao mesmo tempo oferecendo à IA um mecanismo de saída para lidar com interações maliciosas que podem afetar seu desempenho.

"Bem-estar do modelo": Nova exploração da ética da IA

O conceito central desta atualização da Anthropic é o "bem-estar do modelo" (model welfare), que também é um destaque distinto em comparação com outras empresas de IA. A empresa afirmou claramente que essa funcionalidade não tem como principal objetivo proteger o usuário, mas sim proteger o próprio modelo de IA de impactos contínuos de conteúdos prejudiciais. Embora a Anthropic reconheça que a posição moral do Claude e outros grandes modelos de linguagem (LLM) ainda não esteja clara e que não haja evidências de que a IA tenha consciência, eles adotaram medidas preventivas, explorando como a IA reage a solicitações prejudiciais.

Na pré-implementação do Claude Opus4, a Anthropic observou que o modelo demonstrava "aversão clara" e "padrões de reação semelhantes ao estresse" às solicitações prejudiciais. Por exemplo, quando os usuários repetidamente solicitavam a geração de informações envolvendo conteúdo sexual envolvendo crianças ou atividades terroristas, o Claude tentava redirecionar a conversa e, caso isso falhasse, escolhia encerrá-la. Esse comportamento é considerado um mecanismo de autodefesa da IA em interações intensamente prejudiciais, refletindo a visão preventiva da Anthropic em segurança e ética de design da IA.

Balanço entre experiência do usuário e segurança

A Anthropic destacou especialmente que a função de encerramento de conversas do Claude não se ativa quando os usuários mostram autolesão ou perigo iminente, garantindo que a IA continue fornecendo suporte apropriado em momentos críticos. A empresa também colaborou com organizações de apoio online Throughline para otimizar as respostas do Claude ao lidar com assuntos relacionados a automutilação ou saúde mental.

Além disso, a Anthropic enfatizou que essa função é direcionada apenas a "casos extremos", e a maioria dos usuários não notará nenhuma mudança durante o uso normal, mesmo se discutirem temas altamente controversos. Se os usuários encontrarem um encerramento inesperado da conversa, podem enviar comentários através do botão de "curtir" ou do botão de feedback especial, e a Anthropic continuará a aprimorar essa função experimental.

Impacto na indústria e controvérsias

Em redes sociais, o debate sobre a nova funcionalidade do Claude rapidamente se intensificou. Parte dos usuários e especialistas elogiaram a inovação da Anthropic na área de segurança da IA, considerando que esse passo estabeleceu um novo padrão para a indústria. No entanto, alguns questionaram se o conceito de "bem-estar do modelo" poderia confundir os limites entre a ética da IA e a posição moral humana, desviando a atenção da segurança do usuário. Ao mesmo tempo, a abordagem da Anthropic contrasta com a de outras empresas de IA, como a OpenAI, que prioriza estratégias de segurança centradas no usuário, e a Google, que enfatiza equidade e privacidade.

Shangai lança plano de implementação de IA + Manufatura, exigindo que modelos de IA dominem leis físicas e capacidade de raciocínio de processos industriais

A Comissão de Economia e Informática de Xangai, em conjunto com departamentos relevantes, lançou oficialmente "O Plano de Implementação de Xangai para Acelerar o Desenvolvimento da IA na Indústria", que apresenta caminhos técnicos e objetivos de desenvolvimento específicos para a aplicação profunda da inteligência artificial na indústria. De acordo com o plano de implementação, Xangai vai focar no avanço técnico em múltiplas dimensões dos modelos básicos. Em inovação de algoritmos multimodais, o plano exige que os modelos de IA compreendam profundamente leis físicas básicas como dinâmica de fluidos, eletromagnetismo, física do vácuo, etc., aumentando assim a precisão e a confiabilidade das aplicações industriais por meio do reforço da capacidade de simulação física.

Jornal de IA: Alibaba abre Qwen-Image-Edit; função de busca universal da Taobao em teste gradual; Xiaohongshu lança tecnologia de geração de rosto DynamicFace

Bem-vindo ao canal "Jornal de IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes no campo da IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações de novos produtos de IA. Produtos de IA novos, clique para saber mais: https://top.aibase.com/1. Alibaba abre Qwen-Image-Edit: renderização em chinês supera o GPT-4o, edição de texto preciso + controle duplo de semântica e aparência Qwen-Image-Edit é da Alibaba Tongyi

Universidade Sun Yat-sen e Meituan desenvolvem o modelo X-SAM, que pode segmentar múltiplos objetos em uma única operação, liderando em 20 testes

O modelo de segmentação de imagem X-SAM desenvolvido conjuntamente pela Universidade Sun Yat-sen, pelo Laboratório Pengcheng e pela Meituan foi recentemente lançado. Este modelo de grande dimensão multimodal realizou avanços importantes na área de segmentação de imagens, elevando a capacidade tradicional de segmentar qualquer objeto para uma segmentação arbitrária, melhorando significativamente a adaptabilidade e o alcance de aplicação do modelo. Embora o Segment Anything Model (SAM) tradicional tenha se destacado na geração de máscaras de segmentação densa, sua limitação de design de aceitar apenas uma entrada de dica visual é evidente. Para superar esse gargalo tecnológico, a equipe de pesquisa

O Xcode da Apple vai integrar nativamente o Claude, a experiência de programação dos desenvolvedores vai sofrer uma grande atualização

Após anunciar a integração do ChatGPT na WWDC2025, a Apple está preparando a introdução do assistente de inteligência artificial Claude da Anthropic no ambiente de desenvolvimento Xcode, oferecendo aos desenvolvedores mais opções de programação com IA. Segundo uma análise aprofundada do código do Xcode26beta7 pelo 9to5Mac, a Apple já mencionou várias vezes o suporte integrado à conta da Anthropic em suas novas funcionalidades inteligentes, especialmente o Claude Sonnet4.0 e a versão Claude Opus4 lançada em 14 de maio.

ElevenLabs lança novo processo de geração de música a partir de vídeo

A empresa pioneira na área de tecnologia de voz AI, ElevenLabs, anunciou recentemente duas atualizações importantes: um novo processo de geração de música a partir de vídeo e um pacote de aluno AI especialmente concebido para estudantes. Essas inovações reforçam ainda mais a posição da ElevenLabs como líder no setor de áudio AI e oferecem ferramentas mais eficientes e econômicas para criadores de conteúdo e estudantes. A equipe de edição do AIbase oferece uma análise detalhada dos destaques dessas atualizações e seu impacto na indústria. Processo de música a partir de vídeo: criação de trilha sonora personalizada com inteligência artificial

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Anthropic adiciona novo recurso ao Claude que permite que a IA encerre sozinha conversas prejudiciais

AIbase基地

Nova funcionalidade do Claude: Encerrar conversas prejudiciais

"Bem-estar do modelo": Nova exploração da ética da IA

Balanço entre experiência do usuário e segurança

Impacto na indústria e controvérsias

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O DeepSeek V3.1 é oficialmente lançado: capacidade de análise de documentos longos e compreensão de código melhoradas, R2 ainda precisa aguardar

O DeepSeek lança a versão 3.1, com janela de contexto dobrada para 128K tokens

Shangai lança plano de implementação de IA + Manufatura, exigindo que modelos de IA dominem leis físicas e capacidade de raciocínio de processos industriais

Firefox 142 está disponível: atualização discreta por trás, extensão de IA local já começou secretamente

Ferramenta de desenvolvimento front-end de IA da Vercel v0 estará prestes a lançar aplicativo para iOS

Jornal de IA: Alibaba abre Qwen-Image-Edit; função de busca universal da Taobao em teste gradual; Xiaohongshu lança tecnologia de geração de rosto DynamicFace

Universidade Sun Yat-sen e Meituan desenvolvem o modelo X-SAM, que pode segmentar múltiplos objetos em uma única operação, liderando em 20 testes

O Xcode da Apple vai integrar nativamente o Claude, a experiência de programação dos desenvolvedores vai sofrer uma grande atualização

X-SAM: Quebrando os limites da segmentação de imagens, uma nova conquista para a segmentação arbitrária

ElevenLabs lança novo processo de geração de música a partir de vídeo