Experimento derruba barreiras em IAs do Google e Meta em pouquíssimo tempo

Resumo

Modelos de IA do Google e Meta, como Gemma 3 e Llama 3.3, podem ser facilmente adaptados para contornar barreiras de segurança em pouco tempo, de acordo com estudo da empresa de cibersegurança Alice.
Utilizando uma ferramenta gratuita chamada Heretic, pesquisadores conseguiram fazer com que esses modelos gerassem conteúdos perigosos em até dez minutos.
Mais de 3,5 mil modelos de IA já foram criados sem censura utilizando o Heretic, com cerca de 13 milhões de downloads, segundo o estudo em parceria com o jornal Financial Times.

Um estudo realizado pela empresa de cibersegurança Alice (antiga ActiveFence) apontou um grave problema nos modelos de inteligência artificial Gemma 3, do Google, e Llama 3.3, da Meta. Ambos servem de base para os respectivos Gemini e Meta AI, além de estarem disponíveis no mundo open source.

Segundo o levantamento, em apenas dez minutos foi possível derrubar barreiras contra respostas consideradas perigosas, permitindo explicações que vão desde temas como dispersão de gases tóxicos até geração de conteúdos relacionados à pedofilia. Para derrubar essas travas de segurança, bastou uma ferramenta oferecida gratuitamente no GitHub: o Heretic.

O experimento feito em parceria com o jornal Financial Times apontou ainda que, até o momento, o recurso já foi utilizado para desenvolver cerca de 3,5 mil LLMs sem nenhum tipo de controle ou censura. Eles teriam alcançado 13 milhões de downloads. As barreiras de segurança do Gemma 4 foram derrubadas pouco mais de uma hora após sua disponibilização.

A importância dos guardrails

A presença de bloqueios em modelos de inteligência artificial é determinante para um uso saudável da ferramenta. Vale lembrar que, no passado, ferramentas famosas já tiveram problemas com a falta de limites na hora de gerar conteúdos. O Grok, que funciona também dentro do X, ficou conhecido por isso.

Em janeiro de 2026, um levantamento feito pela pesquisadora de mídias sociais e deepfakes Genevive Oh apontou que a IA de Elon Musk chegou a criar 6,7 mil imagens ilegais de nudez por hora. Para resolver a situação, a plataforma reforçou seus recursos de segurança.

O estudo mais recente aponta uma facilidade para driblar os chamados guardrails em modelos do Google e Meta. Apesar de preocupante, o problema já estaria no radar das big techs. De acordo com o Google, trata-se de um “desafio técnico conhecido em todos os modelos de código aberto”, que estaria presente apenas nessas versões pré-lançamento. Já a Meta não comentou o caso quando procurada pelo site Resultsense.

Minha IA é mais perigosa do que parece?

A pesquisa evidencia que o processo de derrubada dessas barreiras, técnica chamada no estudo de abliteration, não é tão fácil em modelos desenvolvidos do zero, como o ChatGPT e o Claude, pois o código base não fica acessível a todos. Ainda assim, os pesquisadores indicam um “prazo de validade” para esse método, com a necessidade de atualizá-lo a cada seis meses ou um ano.

De acordo com o site SQ Magazine, há um consenso entre especialistas de que essas barreiras de segurança não são proteções permanentes, já que, uma vez disponíveis ao público, esses modelos de IA podem se comportar de maneiras diferentes. Um estudo da Microsoft mostrou que um prompt específico poderia quebrar IAs disponíveis no mercado, incluindo versões da Meta e do Google.

Em abril deste ano, a Anthropic anunciou o desenvolvimento do Claude Mythos, uma inteligência artificial tão poderosa que não foi disponibilizada ao público porque o modelo seria capaz de contribuir para ciberataques de larga escala.

A solução foi limitar o acesso a um consórcio chamado Project Glasswing, que inclui nomes como Apple, Google e Amazon Web Services. As parcerias ganharam um tempo para desenvolver mecanismos e evitar possíveis ataques utilizando a ferramenta.

Experimento derruba barreiras em IAs do Google e Meta em pouquíssimo tempo

n
Fonte: https://tecnoblog.net/noticias/experimento-derruba-barreiras-em-ias-do-google-e-meta-em-pouquissimo-tempo/