Sora: el modelo text-to-video (T2V) de OpenAI es impresionante... y preocupante

Revelado el 15 de febrero de 2024, Sora es el último avance tecnológico de OpenAI en el campo de la IA generativa. Si bien Sora no es el primer modelo text-to-video (T2V) —hace poco, tanto Google como Meta presentaron los suyos—, sin duda ha sido uno de los más convincentes. Basta con ver algunos de los videos generados con simples indicaciones. Quizás haya visto el de una mujer caminando por las calles de Tokio.

Por ahora, Sora no está disponible al público. Solo un puñado de testers han podido probar la nueva herramienta de OpenIA. Aún no tiene fecha de lanzamiento.

Sin embargo, esto es algo bueno. Aunque no es injustificado sorprenderse ante la velocidad con la que la IA generativa continúa avanzando, no se puede olvidar que este refinamiento implica riesgos. Para evitar que Sora sea lo más dañina posible, resulta necesario establecer marcos y concientizar a los usuarios de sus peligros.

¿Cómo funciona Sora, el modelo generativo de video de OpenAI? 

OpenAI describe Sora como un modelo y transformador de difusión que genera videos a partir de indicaciones o prompts. A partir de dicho texto, Sora crea un video que parece ruido estático. A lo largo de varios pasos, lo transforma unificando el ruido. Al dar al modelo la capacidad de prever varios frames en un momento específico, se asegura de que los objetos se mantengan consistentes cuando salen del enfoque.

Entre otras cosas, también es capaz de animar imágenes estáticas. Para saber más sobre el funcionamiento de Sora, OpenAI lo explica en mayor detalle en un blog.

Como señala The Washington Post, OpenAI tiene una alianza con Shutterstock. Esta le permite utilizar videos de dicho repertorio para entrenar a Sora. No obstante, ya que también está siendo entrenado con videos de la web pública, OpenAI podría enfrentarse a demandas por infracción de derechos de autor. Y este no es el único problema legal con el que está lidiando. De hecho, esto podría poner freno a la bonanza de IA en 2024.

Aunque impresionante, Sora no es perfecto 

A pesar de lo impresionantes que pueden lucir los videos generados con Sora, OpenAI ha sido la primera en reconocer que su modelo no es perfecto. Al listar sus debilidades, la compañía dice que “puede tener problemas simulando de forma precisa las físicas de una escena compleja y entendiendo ciertas instancias de causa y efecto”. Si bien esto puede pasar desapercibido a primera vista, basta con observar con más cuidado.

En un video publicado por The Wall Street Journal, Stephen Messer —cofundador de Collective[i]— señala fallas recurrentes en los videos creados por Sora. Estas van desde objetos que aparecen y desaparecen mágicamente hasta movimientos y expresiones que generan la sensación del valle inquietante. Bloomberg reporta errores similares.

Los peligros de Sora, el modelo generativo de video de OpenAI 

The Washington Post y Stephen Messer señalan que Sora será empleada como fuente de desinformación. Incluso si esta tecnología no está del todo refinada, eso no impidió que en 2023 múltiples usuarios usaran modelos de IA —tales como Midjourney— para crear imágenes falsas de Donald Trump siendo arrestado y deepfakes de Joe Biden pidiendo a sus votantes que no voten. El peligro es real porque ha ocurrido antes.

Por esta razón, poder identificar que un video es generado por IA cada vez es más importante. En anticipación a la jornada electoral de Estados Unidos, múltiples firmas tecnológicas —Adobe, Amazon, Google, IBM, Meta, Microsoft, OpenAI y TikTok— han acordado tomar precauciones para prevenir y evitar el posible caos generado por herramientas de IA. Si bien este acuerdo es más que nada simbólico, es un paso hacia la dirección correcta. Por supuesto, cada compañía está tomando sus propias medidas.

En el caso específico de OpenAI, la empresa está desarrollando herramientas que puedan identificar videos hechos con IA y contenido engañoso. Con este fin, está trabajando con red teamers : expertos en áreas como desinformación, discursos de odio y sesgos. Esto también se hace con el fin de que Sora cuente con filtros identifiquen conductas que vayan en contra de las políticas de uso de la IA.

Aun así, dichas medidas no son garantía de que Sora no será abusada. No se puede olvidar que en 2023, poco después de que OpenAI lanzara ChatGPT, múltiples actores de amenazas emplearon la IA generativa para crear malware. ChatGPT no creará código para hacer malware si el usuario lo pide de forma explícita. Sin embargo, no tiene problema en entregar por separado los elementos que lo compondrían.

Por supuesto, esto no es responsabilidad exclusiva de OpenAI. Órganos gubernamentales y empresas privadas deben hacer una retrospectiva de todo lo ocurrido en 2023 para no cometer los mismos errores. La IA es una tecnología que puede emplearse en beneficio de la humanidad, pero solo si se hace con empatía. Aunque disruptiva, eso no justifica que los responsables de desarrollar esta tecnología la implementen sin tener en cuenta cómo afectará a sus usuarios a corto y largo plazo.