¿Qué es synthetic data? ¿Para qué sirve?

Con el auge de la Inteligencia Artificial (IA) y el Machine Learning (ML), muchos se están familiarizando hasta ahora con el concepto de Synthetic Data. Suena como algo del futuro, ¿no es así? Sin embargo, este término fue creado hace casi tres décadas.

Por supuesto, lo más probable es que Donald B. Rubin ni siquiera sospechara que su creación se convertiría en un punto de inflexión en el futuro del desarrollo de la IA.

Antes de hablar de cómo los datos sintéticos han contribuido a esta evolución, debemos explicar qué es synthetic data, cómo se crea y cuáles son sus usos.

¿Qué es synthetic data?

Synthetic data se refiere a cualquier dato que no refleja operaciones reales y es creado por IA para hacer comparaciones, realizar estimaciones o incluso crear simulaciones.

Su existencia obedece a una cuestión de necesidad. A veces, los datos son insuficientes o imbalanceados. Otras veces, no pueden moverse o compartirse. Simular y replicar escenarios para obtener datos específicos puede ser muy complejo.

No menos importante: los datos reales pueden ser muy costosos. Esto aplica tanto al proceso de recopilación como de etiquetado. Este último también consume mucho tiempo y es propenso a sufrir errores, tal como documenta The New York Times.

Ambos procesos son descartados a la hora de crear synthetic data. También evitan que se vulnere la privacidad de los individuos que pueden aparecer en imágenes o videos.

¿Cómo se crea?

Hay varias formas de crear synthetic data. Estas incluyen reglas de negocio, técnicas de simulación, modelos basados en agentes (ABM) y redes generativas adversativas (GAN). Estas últimas son uno de los métodos más populares.

Creado por Ian Goodfellow en 2014, GAN enfrenta a dos modelos neurales. Uno genera copias de datos reales. Sin saber cuál es cuál, el otro compara los originales y sus copias. De esta forma, hay una retroalimentación entre ambos modelos.

Aunque el concepto de synthetic data ha existido desde principios de los noventa, no fue sino hasta mediados de la década de 2010 que encontró adopción comercial. El sector de vehículos autónomos fue el que permitió que esta tecnología creciera.

Con el fin de educar a sus IA, estas compañías crearon motores de simulación para sintetizar toda la información necesaria. Estos “mundos virtuales” permiten crear millones de permutaciones y combinaciones de cualquier escenario de conducción.

Hoy en día, las simulaciones son otro método muy utilizado. Como señala Forrester, los avances en la industria de los videojuegos han permitido que las compañías creen sus propios mundos virtuales hiperrealistas en motores como Unreal Engine y Unity.

Adicionalmente, se pueden combinar datos reales y sintéticos para generar synthetic data. Incluso pueden retirarse y editarse elementos de imágenes y videos. Según NVIDIA, esto es especialmente popular en industrias como finanzas y salud.

Los últimos avances en IA, tales como los campos de resplandor neuronal (NeRF), han mejorado la fidelidad de los datos sintéticos. Estos combinan imágenes 2D para crear escenarios tridimensionales que pueden ser navegados y manipulados.

¿Cuáles son los usos?

Hoy en día, synthetic data tiene varios usos:

Simulaciones e innovación para servicios financieros
Análisis de distracciones e in-cabine automotive para sistemas de conducción automática avanzados (ADAS)
Mejora del ML de la visión artificial para vehículos autónomos
Simulación de tráfico y actividades humanas en ciudades inteligentes
Hand & skeleton tracking y task identification en AR/VR
Análisis de atención y detección de emociones en smart conferencing

¿Los «datos sintéticos» son tan buenos cómo los reales?

Es una pregunta justificada. Al fin y al cabo, los datos sintéticos no serían atractivos si no fueran sustitutos válidos de los reales. Por fortuna, una investigación realizada por MIT, el MIT-IBM Watson AI Lab y la Universidad de Boston ofrece una respuesta.

Las IA entrenadas con synthetic data terminaron siendo más veloces que las educadas con videos reales. Esto se debe a que en los videos generados sintéticamente hay un menor sesgo escena-objetos (scene-object bias). En otras palabras, la IA no puede reconocer la acción mirando el fondo u otros objetos. Debe concentrarse en la acción.

El estudio Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects sugiere que los datos sintéticos son más efectivos a la hora de entrenar IA.

El potencial y los desafíos de synthetic data

La gran ventaja que ofrecen los datos sintéticos es que son potencialmente ilimitados. Hoy en día, los datos hoy en día son la «sangre» de la IA. Aun así, todavía hay muchos retos. Entre estos destaca la falta de educación de los clientes, lo que a su vez dificulta el autoservicio; la escasez de expertos en el campo; y los prolongados ciclos de venta.

Tampoco ha de olvidarse que aún no es muy claro quién es el propietario de los datos sintéticos. Sin embargo, Forbes responde esta incertidumbre con optimismo. Según el medio, los datos sintéticos democratizarán los datos a gran escala. Esto permitirá que compañías de tecnología más pequeñas compitan con figuras ya establecidas.

No quiere decir que las compañías deban implementar synthetic data en su flujo de trabajo para obtener resultados inmediatos. Como muchas soluciones, debe ser reiterativa. Requiere una inversión, tanto económica como de tiempo. Exige experimentación para así descubrir la mejor forma en la que beneficiará a su empresa.