OpenAI, Google y Meta están violando la privacidad de los usuarios y los derechos de autor para entrenar a sus IA

¿La privacidad de los usuarios y los derechos de autor son el precio a pagar para que OpenAI, Google y Meta perfeccionen sus respectivas IA?

Con el auge de la IA en 2023, Google y Meta han intentado no quedarse atrás en la carrera tecnológica. Sin embargo, no han sido los únicos. La propia OpenAI ha estado intentando permanecer en la delantera. Como dice The New York Times, la carrera para liderar la revolución de la IA se ha convertido en una búsqueda desesperada de datos digitales para alimentar a sus respectivos modelos de lenguaje extenso (LLM).

Antes de 2020, la internet era vista como un pozo ilimitado de datos digitales con los cuales se podía entrenar dicha tecnología. Tal no es el caso. Repositorios públicos, tales como Wikipedia y Reddit, ya no bastan para alimentar los complejos algoritmos que potencian la inteligencia artificial. Sin datos nuevos, la IA no puede avanzar.

Desafortunadamente, todas las compañías mencionadas han decidido adoptar un enfoque maquiavélico al respecto. Por supuesto, esto supone un precedente peligroso.

Cómo OpenAI está violando la privacidad de los usuarios y los derechos de autor para entrenar a su IA

Fue a finales de 2021 que OpenAI evidenció la insuficiencia de datos públicamente disponibles para entrenar a su LLM. Necesitaba una nueva fuente de información. Con el fin de recolectar más datos digitales, los investigadores de la empresa crearon Whisper. Esta herramienta podía transcribir el audio de videos de YouTube.

Según The New York Times, algunos empleados de OpenAI señalaron que lo anterior va en contra de las leyes de protección de derechos de autor. También se opone a los términos de YouTube, que prohíben descargar videos para aplicaciones independientes. Aun así, la compañía transcribió más de 1 millón de horas de videos. Esta información fue empleada para entrenar a GPT-4, la base de la última versión de ChatGPT.

Sin embargo, esa no fue la última infracción cometida por OpenAI. El 29 de enero de 2024, la Autoridad de Protección de Datos Personales de Italia (GPDP) amonestó a la empresa informándole que ChatGPT rompe leyes de protección de datos. Aunque hay pocos detalles sobre el incumplimiento, medios como BBC y TechCrunch señalan que podría estar relacionado con la recolección de datos sensibles y protección de edades.

Por ahora no hay información puntual sobre la infracción. Aun así, esta acusación es resultado de una investigación que el organismo ha estado llevando a cabo desde el año pasado. Cabe recordar que ChatGPT fue temporalmente prohibido en Italia a principios de 2023 después de que se descubriera que rompía los artículos 5, 6, 8, 13 y 25 del Reglamento General de Protección de Datos (GDPR) de la Unión Europea.

Cómo modelos de IAMeta está violando la privacidad de los usuarios y los derechos de autor para entrenar a su IA

Meta, compañía propietaria de Facebook e Instagram, ha estado múltiples veces en el ojo del huracán por la forma en que procesan los datos de sus usuarios.

Recientemente, el Comité Europeo de Protección de Datos (EDPB), la Comisión Europea y legisladores criticaron la intención de la empresa de imponer a sus usuarios europeos una decisión: consentir a sus políticas de manejo de datos o pagar para mantener la privacidad de sus datos. ¿Qué es otro escándalo más para el gigante tecnológico?

Durante el año pasado, múltiples empleados en Meta estuvieron discutiendo adquirir la editorial Simon & Schuster para poder utilizar las obras de sus autores. Por supuesto, esto no es ilegal. Más preocupantes son los reportes de The New York Times que revelan que Meta consideró recolectar datos protegidos por derechos de autor. Al parecer, lidiar con demandas es preferible que negociar licencias con los autores.

Cómo Google está violando la privacidad de los usuarios y los derechos de autor para entrenar a su IA

¿Recuerdan lo de OpenAI transcribiendo videos de YouTube para alimentar a su LLM? Según The New York Times, Google estaba haciendo lo mismo. Como se mencionó, esto supone una violación de las leyes de protección de derechos de autor. Aun así, este asunto resulta un poco más complicado. El lenguaje que Google emplea sobre lo que puede hacer con los transcripciones de videos de YouTube es vago adrede.

Lo anterior es probablemente la razón por la que Google no tomó acciones legales.

Eso no es todo. En 2023, Google modificó sus términos y condiciones. Según fuentes de The New York Times, el objetivo de este cambio era permitir que Google pudiera intervenir documentos públicos en Google Docs, reseñas de restaurantes en Google Maps y demás información en las aplicaciones gratuitas de Google. El objetivo era entrenar a sus productos potenciados por IA, tales como Google Translate y Bard.

No menos importante, el equipo encargado de la actualización había recibido la orden de lanzarla en el fin de semana del 4 de julio. ¿El motivo? Los usuarios estarían más concentrados en las fiestas. La actualización debutó el 1 de julio de 2023.

¿Synthetic Data es la solución? 

Cuando OpenAI reveló GPT-3 en noviembre de 2020, el modelo había sido entrenado con la mayor cantidad de datos hasta la fecha: cerca de 300,000 millones de tokens.

En 2022, DeepMind —un laboratorio de IA de Google— fue más allá. Tras poner a prueba 400 modelos, descubrieron que los modelos con el mejor desempeño fueron aquellos con la mayor cantidad de tokens. Por ejemplo, Chinchilla fue entrenado con 1.4 billones.

Lógicamente, próximos modelos de IA requerirán incluso más tokens. Ante la insuficiencia de los repositorios públicos, OpenAI, Google y Meta alegan que las leyes de protección de derechos de autor son un obstáculo para el desarrollo de la IA.

En medio del debate, Sam Altman —CEO de OpenAI— propuso una solución que no implica ignorar políticas corporativas ni vulnerar la privacidad. Se trata de los datos sintéticos o Synthetic Data. Para saber más sobre este concepto, haga clic aquí.

Desafortunadamente, la idea de construir una IA autosuficiente sigue siendo ciencia ficción. Hoy en día, los modelos de IA que aprenden de sus propios resultados suelen quedar atrapados en bucles que refuerzan sesgos, errores y limitaciones.

¿Esto quiere decir que está justificado violar la privacidad de los usuarios de internet? En lo absoluto. Sin embargo, proponemos un compromiso. Si compañías como OpenAI, Google y Meta están tan desesperadas recolectando datos, ¿por qué no contratan creadores de contenido que constantemente nutran a sus modelos con nueva información? De esa forma, dicho rol puede seguir siendo relevante en la era de la IA.

Es solo es una idea. No puede ser peor que violar los derechos de los usuarios.