Synthetic data: alcances, tipos y usos

Español | April 28, 2023 | 3 min read

Synthetic data: alcances, tipos y usos

Recientemente hablamos sobre synthetic data. Más allá de definir este concepto, detallamos sus aplicaciones en campos como inteligencia artificial (IA) y machine learning (ML). Sin embargo, no especificamos los diferentes tipos de synthetic data que existen y sus respectivos usos. En este blog, exploraremos los alcances de esta tecnología.

 ¿Qué tipos de synthetic data hay?   

Al igual que los datos reales, synthetic data se divide en dos tipos: structured y unstructured. ¿Pero cómo se diferencian los datos estructurados y no estructurados?

Los primeros son muy específicos y están guardados en un formato predefinido. Generalmente son datos binarios, numéricos y categóricos. Al ser cuantitativos, suelen emplearse en el manejo de bases de datos relacionales en formatos como JSON.

Si bien no son muy flexibles, son fáciles de organizar gracias a modelos y protocolos. A su vez, esto facilita el asegurarlos y evitar que caigan en manos de criminales.

Los últimos son una conglomeración de múltiples formatos en su forma nativa. Corresponden a imágenes, audio, videos, etc. Al ser cualitativos, son más difíciles de administrar. Por ende, deben abordarse a partir de una base de datos NoSQL.

Son más flexibles porque no se rigen por esquemas. Dicha complejidad y dinamismo se prestan para el desarrollo de IA y ML. Igualmente, hace que sean más difíciles de organizar. Este es el principal reto alrededor de la creación y gestión de structured data.

 ¿Qué actividades se benefician de structured y unstructured synthetic data? ¿Qué usos tienen?   

A través de un webinar, Gartner especificó algunas actividades que se benefician de structured y unstructured synthetic data. Cabe señalar que, si bien son diferentes, la forma en que se usan ambos tipos de datos sintéticos no es mutuamente exclusiva.

Estas son las actividades que más se benefician de los datos sintéticos estructurados:

  • Pruebas de sistema

  • Entrenamiento de modelos de ML

  • Protección de privacidad

  • Demostraciones de productos

La consultora de TI recomienda utilizar structured synthetic data para pruebas de software, simulaciones 3D, visión artificial, y plataformas de tecnología y privacidad.

Estas son las actividades que más se benefician de los datos no estructurados:

  • Entrenamiento de modelos de ML

  • Protección de privacidad

Gartner recomienda dar los siguientes usos a structured synthetic data: Geospatial Imagery, vehículos autónomos, Human Understanding, AR/VR y Object Understanding.

Datos sintéticos estructurados , ¿el mal conocido?

A pesar de que el MIT reporta que un 80-90% de los datos de las compañías son no estructurados, estas siguen haciendo seguimiento de información basada en eventos en forma de structured data. Esto se debe a que es más fácil trabajar con esa información. La infraestructura de muchas empresas está construida a partir de los mismos.

En una entrevista con VentureBeat, Ed Anuff —CPO en DataStax— explicó que entregas de paquetes, logística, streaming de videos y otros casos de uso dependen de datos estructurados para funcionar efectivamente. Al fin y al cabo, es lo más productivo.

 Se requiere una limpieza de datos no estructurados

A pesar de que las empresas están más familiarizadas con el uso de datos estructurados, los no estructurados son la base para la evolución de tecnologías como IA y ML. Esto requiere que las compañías clasifiquen debidamente su información.

Según un estudio del proveedor de manejo de datos Komprise, un gran porcentaje de las compañías de TI dio prioridad al uso y la clasificación de unstructured data en 2022. Dado el esperado auge de IA y ML en 2023, se espera que esto siga en aumento.

Independientemente de sus diferencias, los datos estructurados y no estructurados —ya sean reales o sintéticos— son dos caras de la misma moneda. Todavía estamos en una etapa en la que dependemos de structured data debido a la granularidad y facilidad con la que puede gestionarse, además de la complejidad implícita de unstructured data.

Aun así, es evidente que el futuro de la IA y el ML se encuentra en los datos no estructurados. La cuestión yace en hallar una forma de clasificar dicha información y emplearla de forma adecuada. Al fin y al cabo, el auge de synthetic data implica que pronto habrá una afluencia de información estructurada y no estructurada.