“Synthetic data”, ou dados sintéticos, é o nome de um novo processo de análise que está ganhando espaço no mercado de data analytics. Como o próprio termo indica, trata-se do uso de uma pequena amostra de dados reais para produzir uma tonelada de informação fake, composta por padrões demográficos e comportamentais que poderiam muito bem ser de humanos reais. Em crescimento exponencial, essa funcionalidade deve bombar nos próximos anos.
Por “bombar”, queremos dizer que mais de 60% de todos os dados utilizados para treinamento de modelos de inteligência artificial terão esse tipo de insumo em 2024, de acordo com dados do Gartner. Já em 2027, segundo a empresa de IA Cognilytica, os dados sintéticos integrarão uma indústria avaliada em USD 1,15 bilhão.
Falsos, porém verídicos
Para produzir dados artificiais, pesquisadores usam modelos estatísticos, a fim de garantir que as novas infos não sejam um copia e cola da amostra utilizada para treino, e sim uma análise distribuída e diversa dos resultados de base. Um ponto positivo nesse caso está no fato de que, de maneira similar à biologia genética, as informações podem ser moduladas para atender as demandas dos pesquisadores.
Especificamente, é possível criar conteúdo sintético que replique informações de números, vídeos ou imagens, facilitando o seu uso por diferentes estudiosos e temas variados. Empresas de mercados altamente regulados, como saúde, finanças e telecomunicações, estão entre as pioneiras da técnica.
Bom, bonito e privado
Existem três fatores vitais para a expansão de dados sintéticos no mundo.
1- Acaba com o problema de escassez de dados, permitindo a centros acadêmicos e empresas utilizarem amostragens de diferentes grandezas para a realização de pesquisas.
2- No campo financeiro, estimativas apontam que, enquanto uma imagem “real” para pesquisas pode custar até USD 6, um registro gerado artificialmente equivale à bagatela de USD 0,06 (!);
3- Por sua vez no espaço privacidade: ao utilizar dados consistentes, mas não gerados por uma pessoa, elimina-se a chance de que vazamentos de dados comprometam informações pessoais.
Os dois lados dos dados
Mesmo com perspectivas otimistas, profissas da área enfrentam um problema (recorrente, diga-se de passagem): criar sistemas que impeçam a geração de dados com indicativo de racismo, sexismo ou outras formas de preconceito encontradas na sociedade. No entanto, uma vantagem é que, como esses dados não serão de verdade, fazer uma auditoria e analisar os resultados encontrados se torna uma tarefa menos complicada em relação a uma análise de base com informações pessoais.
Ainda assim, esse processo de auditoria é algo em construção, ou seja, existe a possibilidade de as infos de agora carregarem alguma tendência negativa. Até por causa disso, um dos desafios da área está no tratamento desse material, para que ele traga mais alegria do que dores de cabeça.
Em fase de crescimento
Falando de negócios, o mercado de dados sintéticos ainda é pulverizado: enquanto algumas empresas criam de fato as fake infos do bem, outros negócios se especializam em sua gestão; outras firmas, ainda, ficam responsáveis pela categorização de informações, garantindo que os dados cheguem à clientela 100% prontos para uso.
De acordo com um profissional da indústria, entrevistado pelo Tech Brew, tanto o modelo de negócio como toda a cadeia de produção e gestão desse mercado deve levar de três a cinco anos para alcançar a maturidade. Enfim, um bom tempo para a gente se acostumar com a ideia de que os dados podem continuar a ser o “ouro” da tecnologia. Só que, agora, feitos diretamente do hardware.
Fonte: The Brief