A tecnologia por trás do ChatGPT não é nova. Já existe desde que os engenheiros do Google criaram o modelo transformador de aprendizado profundo em 2017, então qual é o problema?
A comoção – e consternação – em torno do ChatGPT se deve, em parte, à sua acessibilidade. Qualquer pessoa com um navegador da Web pode acessá-lo e, com mais de um milhão de usuários ativos, o ChatGPT tornou-se recentemente o aplicativo de consumo de crescimento mais rápido de todos os tempos.
O GPT-3 foi treinado em 175 bilhões de parâmetros, e o GPT-4 multimodal (data de lançamento em 16 de março) supostamente pode processar informações em texto, imagens, áudio e vídeo – em vários idiomas.
Além de sua acessibilidade, o ChatGPT está fazendo sucesso com sua impressionante compreensão de linguagem natural. De alto nível, há dois subtópicos dentro do processamento de linguagem natural: geração de linguagem natural (NLG) e compreensão de linguagem natural (NLU). NLG descreve a capacidade de um computador para escrever e NLU descreve as habilidades de compreensão de leitura de um computador.
“Muitas pessoas estão falando sobre a parte NLG”, diz Ramprakash Ramamoorthy, diretor de IA e aprendizado de máquina do Zoho Labs, “mas a parte de compreensão da linguagem natural tem sido perfeita e fenomenal”.
Apesar da impressão da iteração mais recente do ChatGPT, muitas pessoas estão ansiosas. Essa ansiedade é justificada, mas não apenas por causa do deslocamento de empregos, vieses algorítmicos, ataques de segurança cibernética com IA e a propensão à desinformação se espalharem em escala, de forma rápida e convincente.
Essas preocupações são válidas; no entanto, a IA generativa é problemática do ponto de vista da privacidade.
Antes de termos um ataque de pânico coletivo, é importante observar que estamos em território familiar. Quase todas as novas tecnologias desde a história registrada – incluindo livros, eletricidade, rádio, televisão, videogames, smartphones e mídias sociais – instilaram pânico em grande parte da população.
Adotando uma perspectiva tecnológica, é fácil ver como as tecnologias emergentes estão rapidamente ligadas a problemas sociais. Às vezes, é necessário invocar esforços regulatórios e legislativos para controlar uma tecnologia emergente; infelizmente, é um desses momentos.
Como as leis podem ajudar a controlar a IA generativa
A futura Lei de IA da União Europeia criou uma nova categoria para contabilizar sistemas de IA generativos. O corpo legislativo da União Europeia espera aprovar sua Lei de IA até o final de 2023. Além disso, estamos vendo muitas ações judiciais de privacidade intelectual sendo movidas contra modelos de IA de geração de imagem, geração de código e geração de texto.
Proprietários de direitos autorais vs. Microsoft, GitHub da Microsoft, OpenAI (Doe v. GitHub): em novembro de 2022, dois autores anônimos processaram a Microsoft por usar código-fonte aberto com licenças restritivas para treinar sua ferramenta de geração de código, Copilot. Uma adaptação do ChatGPT-3, o Copilot do Github é treinado em bilhões de linhas de código público; os autores anônimos argumentam que isso viola a lei de direitos autorais. Eles estão pedindo US$ 9 bilhões em danos.
Artistas visuais v. Stability AI: em janeiro de 2023, três artistas visuais entraram com uma ação coletiva contra os modelos de geração de imagem da DeviantArt, Midjourney e Stability AI. Os artistas argumentam que os sistemas generativos de IA dessas empresas estão envolvidos em violação de direitos autorais, pois as empresas estão usando o trabalho desses artistas para treinar os modelos de IA – tudo sem consentimento ou compensação para os artistas. Nos EUA, os advogados dos réus provavelmente argumentarão que o uso da arte protegida por direitos autorais é permitido pelo uso justo.
Getty Images v. Stability AI: no mês passado, a Getty Images processou a Stability AI, acusando a empresa de violar direitos autorais ao usar milhões de recursos da Getty Images para treinar o modelo de geração de imagem Stability Diffusion.
Esses processos de direitos autorais são a ponta do iceberg – espere até que os processos de privacidade de dados comecem a chover. Falando ao Computer Weekly, Robert Bateman, escritor de proteção de dados baseado em Brighton, Reino Unido, diz:
“Os dados publicamente disponíveis ainda são dados pessoais sob o GDPR e outras leis de privacidade e proteção de dados, então você ainda precisa de uma base legal para processá-los. O problema é que não sei o quanto essas empresas pensaram sobre isso… Acho que é uma espécie de bomba-relógio legal.”
De acordo com o GDPR, é necessária uma base legal legítima para processar informações pessoais, mesmo que essas informações estejam disponíveis publicamente.
A necessidade de regulamentação de IA generativa
Se nos preocupamos minimamente com a privacidade, vamos precisar de regulamentação generativa de IA. Muito provavelmente, os EUA ficarão para trás da União Europeia nesta frente, assim como vimos com privacidade de dados e GDPR.
As preocupações com a privacidade são inúmeras. Para começar, o ChatGPT extrai milhões de páginas da web para seus dados de treinamento. Entre essas páginas estão centenas de bilhões de palavras, muitas das quais são protegidas por direitos autorais, proprietárias e compostas por dados pessoais. Mesmo que esses dados pessoais estejam disponíveis publicamente (por exemplo, um número de telefone em um currículo digital), ainda há a questão da integridade contextual – uma referência de privacidade cada vez mais importante que diz que os dados pessoais de um indivíduo não devem ser revelados fora do contexto inicial foi dado.
Além disso, até duas semanas atrás, o OpenAI incorporava automaticamente todos os dados de seus prompts de usuário ao corpus de dados de treinamento do ChatGPT. Ao interagir com o ChatGPT-3 em meados de fevereiro, a professora de Direito da Duke Nita Farahany recebeu a seguinte mensagem:
“As informações fornecidas a mim durante uma interação devem ser consideradas públicas, não privadas, pois não sou uma plataforma segura para transmissão de informações confidenciais ou pessoais. Não sou capaz de garantir a segurança ou confidencialidade de qualquer informação trocada durante essas interações, e as conversas podem ser armazenadas e usadas para fins de pesquisa e treinamento.”
Devido à reação que se seguiu, a partir de 1º de março, a OpenAI não usa mais os dados enviados por meio de sua API para treinamento de modelos, embora os usuários ainda possam optar por fornecer seus dados à OpenAI.
Certo, ótimo. Mas o que impediria um usuário de aceitar e, em seguida, carregar as informações pessoais de alguém nos prompts? Podemos pedir à OpenAI para remover nossas informações pessoais? Podemos pedir à OpenAI para corrigir as informações pessoais imprecisas coletadas? A menos que moremos na Califórnia ou na Europa, a resposta provavelmente é “não”. E mesmo que moremos na Califórnia ou na Europa, a resposta ainda pode ser “não”.
Falando com Jennifer King, pesquisadora de privacidade e política de dados do Instituto de Stanford para Inteligência Artificial Centrada no Homem, explica:
“Certamente, eles estão rastreando muitos dados e, quando falo com nossos cientistas da computação que trabalham com aprendizado de máquina (machine learning), ouço [é] uma espécie de faroeste. Há muitos dados sendo rastreados e não há necessariamente práticas, políticas, procedimentos, documentação para saber de onde as coisas estão vindo.”
A OpenAI parece estar inventando as coisas à medida que avançam. Embora a política de privacidade da OpenAI esteja mudando, é importante lembrar que esta é uma entidade com fins lucrativos. OpenAI – como Meta, Google e outros na corrida armamentista de IA generativa – eventualmente precisará ganhar dinheiro de alguma forma, e isso pode muito bem vir da venda de dados do usuário a terceiros.
Até a CTO da OpenAI, Mira Murati, acha que a tecnologia precisa ser regulamentada. Quando perguntada se ela acreditava que a intervenção do governo era apropriada, Murati disse: “Somos um pequeno grupo de pessoas e precisamos de muito mais informações neste sistema, e muito mais informações que vão além das tecnologias – definitivamente reguladores e governos e todos outro.”
Mas não vamos apenas escolher o OpenAI. A maioria, se não todas, as empresas que competem para ser as primeiras a entrar no mercado na corrida de IA generativa historicamente não se preocupam muito com a privacidade dos dados do usuário. Somente no espaço de geração de texto, há Google (Bard), Meta (LlAma), Baidu (Ernie); DeepMind (Sparrow) e OpenAI (ChatGPT). Faça desse elenco de personagens o que você quiser.
Uma advertência rápida
A IA generativa – seja na forma de um chatbot alimentado por IA, um vídeo sintético ou um arquivo de áudio deepfake – não é inerentemente ruim. Existem muitos casos de uso positivos para essas tecnologias; como um exemplo rápido, os pesquisadores estão explorando o uso de redes neurais e áudio sintético para ajudar na fala de pacientes com Esclerose Lateral Amiotrófica.
Chave para viagem
A corrida armamentista generativa da IA está prestes a invadir nossa privacidade. Para ter certeza, a IA generativa apresenta outras ameaças sobre as quais falaremos no futuro, incluindo deslocamento de empregos, ataques cibernéticos alimentados por IA e a proliferação de desinformação convincente; no entanto, por enquanto, espero que reguladores, legisladores e trabalhadores de tecnologia estejam cientes dos perigos à privacidade que a IA generativa representa.
Traduzido: Lucas Pacheco
Artigo original: The security impact of IoT on business transformation