Ilustração de um robô lendo um livro.

De acordo com um estudo recente , os pesquisadores duvidam que algum dia seja possível detectar com segurança textos gerados por IA. Junto com quatro estudantes de doutorado em ciência da computação, o estudo do professor Soheil Feizi pergunta: “O texto gerado por IA pode ser detectado de forma confiável?” A resposta deles, infelizmente, é não.

Dado que grandes modelos de linguagem (LLMs) podem ser usados para plagiar, conduzir ataques convincentes de engenharia social e espalhar desinformação em grande escala, este estudo é definitivamente um motivo de preocupação.

As atuais ferramentas de detecção de texto geradas por IA deixam muito a desejar

O detector de texto gerado por IA da OpenAI é terrivelmente impreciso. Na verdade, a OpenAI admite que não é confiável, pois a ferramenta identifica corretamente apenas 26% do texto escrito por IA (verdadeiros positivos). Além disso, 9% das vezes, ele rotula erroneamente o texto escrito por humanos como sendo escrito por IA (falsos positivos).

Outra ferramenta popular no mercado, o GPTZero, mede essencialmente a aleatoriedade de um determinado trecho de texto. De acordo com a página de perguntas frequentes do GPTZero, essa ferramenta é capaz de identificar texto criado por humanos 99% das vezes e texto gerado por IA 85% das vezes, embora alguns possam ficar ofendidos com esta afirmação.

O texto gerado por IA pode ser detectado de forma confiável?

Através de análises empíricas, os estudiosos da Universidade de Maryland analisaram vários modelos populares de detecção de texto por IA no mercado e descobriram que não eram confiáveis.

Examinando esquemas de marcas d’água, classificadores zero-shot e detectores baseados em redes neurais, eles descobriram que um ataque de paráfrase pode ajudar os adversários a escapar da detecção de IA. Eles escrevem: “Mostramos que um ataque de paráfrase, onde um paráfrase leve baseado em rede neural é aplicado ao texto de saída do modelo gerador de IA, pode escapar de vários tipos de detectores”.

Além disso, eles afirmam que os detectores baseados em marcas d’água podem ser facilmente falsificados, fazendo parecer que o texto feito pelo homem tenha uma. Esses ataques adversários de falsificação podem arruinar a credibilidade das marcas d’água das empresas de desenvolvimento de LLM. Feizi acredita que a verificação de contas nas redes sociais pode ser uma boa forma de combater a propagação da desinformação. Em um e-mail para The Register , Feizi explica,

“Acho que precisamos aprender a conviver com o fato de que talvez nunca seremos capazes de dizer com segurança se um texto foi escrito por um ser humano ou por uma IA. Em vez disso, podemos potencialmente verificar a “fonte” do texto através de outras informações. Por exemplo, muitas plataformas sociais estão começando a verificar contas amplamente. Isto pode dificultar a propagação da desinformação gerada pela IA.”

É quase óbvio demais para apontar, mas contar com plataformas de mídia social – Meta, Twitter e outras – para lidar com a verificação de contas de uma forma que controle a desinformação e beneficie a sociedade é uma tarefa difícil. Como um exemplo rápido, resta saber se uma marca de seleção azul ao lado de um identificador do Twitter indica uma conta confiável.

Os detectores GPT são tendenciosos contra escritores ingleses não nativos

Quando se trata de detectar conteúdo gerado por IA, ainda é cedo; no entanto, outro estudo recente sugere que essas ferramentas de detecção de texto são tendenciosas contra falantes não nativos de inglês. Um estudo de Stanford descobriu que essas ferramentas geralmente classificavam erroneamente a escrita de falantes não nativos de inglês como sendo gerada por IA.

Os pesquisadores de Stanford analisaram sete detectores GPT amplamente utilizados: Originality.ai ; Quil.org ; Muda ; OpenAI (GPT-2); Crossplag ; GPTZero e ZeroGPT. Ao comparar o desempenho das ferramentas de detecção com a escrita de falantes nativos de inglês e a escrita de falantes não nativos, os estudiosos descobriram que os detectores GPT penalizam injustamente os falantes não nativos. Encontrando um preconceito real contra escritores ingleses não-nativos, os estudiosos de Stanford alertam contra a dependência de tais ferramentas de detecção em ambientes acadêmicos.

À medida que LLMs como o ChatGPT melhoram, provavelmente se tornará cada vez mais difícil diferenciar entre conteúdo escrito por humanos e texto gerado por IA. No entanto, é importante observar que avanços foram feitos na frente de detecção de imagem e vídeo gerada por IA.

É mais fácil colocar marca d’água em imagens e vídeos

Ao contrário do texto gerado por IA, que os estudiosos de Maryland afirmam ser quase impossível de autenticar, as imagens e vídeos sintéticos são mais fáceis de identificar. Ao colocar marca d’água em uma imagem ou vídeo desde o início, é possível estabelecer a proveniência do conteúdo da mídia. O autor do vídeo ou imagem, bem como a localização e os metadados, podem ser assinados criptograficamente, com carimbo de data e hora e armazenados em um blockchain. No início deste mês, a startup Truepic, com sede em San Diego, colaborou com Revel.ai e Nina Schick para criar o que eles chamam de “o primeiro vídeo deepfake digitalmente transparente do mundo”.

Intitulado “ Mirror of Reflection ”, este deepfake é sensacionalista, mas eficaz. Schick pergunta retoricamente: “E se a nossa realidade estiver mudando? E se não pudermos mais confiar em nossos sentidos para determinar a autenticidade do que vemos e ouvimos?”

Se acreditarmos nos estudiosos da Universidade de Maryland, esse dia não está muito longe.

Artigo original: University of Maryland study finds it’s impossible to reliably detect AI-generated text