Com o auge da Inteligência Artificial (IA) e o Machine Learning, muitos estão começando a se familiarizar com o conceito de Synthetic data, ou em português, dados sintéticos.
Soa como algo futurístico, não é? Todavia, esse termo foi criado há cerca de três décadas atrás. O mais provável é que Donald B. Rubin sequer suspeitava que essa criação se converteria em um ponto de inflexão do futuro e o desenvolvimento de IAs.
Antes de falarmos sobre como os dados sintéticos têm contribuído com essa evolução, precisamos entender o que são dados sintéticos, como criá-los e quais seus usos.
O que são dados sintéticos?
Dados sintéticos se referem a qualquer dado que não reflita em operações reais e é criado por uma IA para fazer comparações, realizar estimações ou criar simulações.
Sua existência obedece uma questão de necessidade. Às vezes, os dados são insuficientes ou não balanceados. Em outros casos, não se pode movê-los ou fazer o compartilhamento deles. Até mesmo simular e replicar cenários para obter dados específicos pode ser muito complexo.
Não menos importante: os dados reais podem ser muito caros. Isso se aplica tanto ao processo de recompilação como o de rotulação. Este último mencionado também consome muito tempo e é propenso a sofrer erros, como já divulgado pelo The New York Times.
Ambos processos são descartados no momento de criação dos dados sintéticos. Também evitam a vulnerabilidade da privacidade dos indivíduos que podem aparecer em imagens ou vídeos.
Como os dados sintéticos são criados?
Existem várias formas de criar dados sintéticos. Incluem regras de negócio, técnicas de simulação, modelos baseados em agentes (ABM) e redes generativas adversas (GAN). Esses são os métodos mais populares.
Criado por Ian Goodfellow em 2014, o GAN coloca dois modelos neurais um contra o outro. Um gera cópias de dados reais. E, sem saber qual é qual, o outro compara os originais e suas cópias. Desta forma, há um feedback entre os dois modelos.
Embora o conceito de dados sintéticos exista desde o início dos anos 90, foi somente em meados dos anos 2010 que ele encontrou adoção comercial. Foi o setor de veículos autônomos que permitiu o crescimento desta tecnologia.
A fim de educar suas IAs, estas empresas criaram motores de simulação para sintetizar toda a informação necessária. Esses mundos virtuais permitem criar milhões de permutações e combinações de qualquer cenário de condução.
Hoje em dia, as simulações são outro método amplamente utilizado. Como a Forrester aponta, os avanços na indústria de videogames permitiram às empresas criar seus próprios mundos virtuais hiper-realistas em motores como o Unreal Engine e o Unity.
Além disso, dados reais e sintéticos podem ser combinados para gerar dados sintéticos. Até mesmo elementos de imagens e vídeos podem ser removidos e editados. De acordo com a NVIDIA, isto é especialmente popular em indústrias tais como finanças e saúde.
Os recentes avanços na IA, como os campos de radiação neural (NeRFs), melhoraram a fidelidade dos dados sintéticos, que combinam imagens 2D para criar cenários tridimensionais que podem ser navegados e manipulados.
Quais são os usos?
Hoje em dia, os dados sintéticos possuem diversos usos:
-
Simulações e inovação para serviços financeiros
-
Análise de distração e de dentro da cabine automotiva para sistemas avançados de direção automatizada (ADAS)
-
Machine Learning melhorado para visão mecânica para veículos autônomos
-
Simulação de tráfego e atividades humanas em cidades inteligentes
-
Hand & skeleton tracking e task identification em AR/VR
- Análise da atenção e detecção de emoções em conferências inteligentes
Os dados sintéticos são tão bons quanto os reais?
É uma pergunta justificada. Afinal, os dados sintéticos não seriam atraentes se não fossem um substituto válido para dados reais. Felizmente, a pesquisa do MIT, do MIT-IBM Watson AI Lab e da Universidade de Boston oferece uma resposta.
As IAs treinadas com dados sintéticos acabaram sendo mais rápidas do que aquelas treinadas com vídeos reais. Isto se deve ao fato de que há menos viés de cenário-objeto nos vídeos gerados sinteticamente. Em outras palavras, a IA não pode reconhecer a ação olhando para o fundo ou outros objetos. Ela deve concentrar-se na ação. O estudo Deep Object Pose Estimation para captura robótica semântica de objetos domésticos sugere que os dados sintéticos são mais efetivos na hora de treinar as IAs.
O potencial e os desafios dos dados sintéticos
A grande vantagem dos dados sintéticos é que eles são potencialmente ilimitados. Hoje, os dados são o “sangue vital” da IA. Mesmo assim, ainda existem muitos desafios. Estes incluem a falta de conhecimento do cliente, o que por sua vez dificulta o auto-serviço; uma falta de especialistas na área; e longos ciclos de vendas.
Também não se deve esquecer que ainda não está claro quem é o proprietário dos dados sintéticos. Entretanto, a Forbes responde a esta incerteza com otimismo. De acordo com a mídia, os dados sintéticos democratizarão os grandes dados. Isto permitirá que empresas de tecnologia menores possam competir com players estabelecidos.
Isto não quer dizer que as empresas devam implementar dados sintéticos em seu fluxo de trabalho para obter resultados imediatos. Como muitas soluções, deve ser iterativo. Requer um investimento, tanto financeiramente quanto em termos de tempo. E exige experimentação para descobrir como ela beneficiará melhor sua empresa.
Traduzido por: Flávia Augusto
Link original: ¿Qué es synthetic data? ¿Para qué sirve? | ManageEngine Blog