15 Outubro 2019
Nos últimos dois anos, em todo o mundo, criamos mais dados do que em toda a história da humanidade. Navegar na Web, uma rede social ou plataforma de streaming, enviar um e-mail, viajar no metrô ou com o GPS, usar o cartão de crédito (e a lista continua): tudo gera dados, em sua maior parte criados por geração espontânea. Segundo um estudo da consultoria Cumulus Media, em apenas um minuto de internet: 3,5 milhões de pessoas pesquisam no Google, 900.000 se conectam ao Facebook - enviam 31,25 milhões de mensagens e veem 2,77 milhões de vídeos -, 452.000 tuitam, 46.200 postam fotos no Instagram, são reproduzidos 4,1 milhões de horas de vídeo no YouTube e 70.000 na Netflix.
Trata-se de um fluxo de informações que - caracterizado por seu volume, velocidade e variedade - causa um fenômeno muito dessa época, o big data: nova ciência dos dados em massa, produtos da interação de dispositivos interconectados eletronicamente. Passamos de medir a capacidade de armazenamento de informações - ou de memórias, para salvá-las - do inicial kilobyte (mil bytes) ao mega (milhão), giga, tera, peta, exa, zetta, yotta e, agora, falamos de hellabytes (número de 27 dígitos). A cada segundo, são criados 1,7 megabytes de novas informações.
Esses dados são provenientes do recente livro Big Data. Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas (Siglo XXI), do economista Walter Sosa Escudero. O professor e econometrista lança luzes a esse respeito, com seu preciso livro: “Esta é uma tecnologia em moda e com ela a reação das pessoas é se remexer. Alguns dizem que não há nada a fazer e, no outro extremo, há aqueles que pensam que irá mudar tudo ... Ao ver essa polarização, escrevi artigos para os meios de comunicação e notei que as pessoas vibravam com isso, então surgiu a ideia de escrevê-lo”.
“A inteligência de dados tem muito de moda, mas também de evolução. Há uma grande parte de verdade em pensar que vem uma mudança de paradigma e coisas que não sabemos. São desafios. Contudo, se as detectamos e assumimos como oportunidade, são uma boa notícia. Meu texto é muito entusiasmado com essa tecnologia, mas ao mesmo tempo cético, e isso o motivou evitar que as pessoas polarizem tudo: a ciência não é polar”, argumenta o autor.
A entrevista é de Gisela Daus, publicada por Clarín/Revista Ñ, 11-10-2019. A tradução é do Cepat.
Que mudança de paradigma do big data você se refere em particular?
O conhecimento e a ciência são uma ótima interação entre descrição, abstração, modelagem e previsão. A pergunta antes do big data era o quanto desse processo permanecia limitado pela falta de informações e lentidão computacional. Diante da questão a respeito da lentidão de alguns processos científicos, a resposta de que é por essa falta de dados e lentidão fica acanhada. Todas as áreas que se baseiam em reconhecer padrões, agrupar e classificar ganharam muito: a política, em agrupar eleitores, avaliar candidatos; o marketing, em descobrir se as pessoas gostam de um produto e de que modo. As disciplinas que estavam enfraquecidas pela falta de informações se beneficiaram como os macrodados. Para aquelas que precisam de informação em relação ao processamento, são uma excelente notícia.
Como esta nova ciência de dados se relaciona com outras disciplinas (matemática, computação, etc.) e em qual panorama?
Sou otimista: pode ser explosivo o coquetel de pessoas que perguntam muito bem, são curiosas, disruptivas e com um grande fluxo de informações e algoritmos. O big data apresenta uma multimetodologia. O vínculo entre duas dessas disciplinas é outro: a “visualização de dados” que possui tanto de computação como de matemática ou de estatística como de design, estética e onde talvez também possa contribuir um fotógrafo ou pintor. É necessário que as disciplinas interajam mais.
Quanto há de realidade a respeito do processamento do grande fluxo de dados? Eles nos espionam?
Sim, espionam-nos o tempo todo! Contudo, isso não é um fenômeno do big data. Aí se misturam mito e realidade. Que sejamos contados e estudados se intensifica por isto, que é tão velho como a fofoca. O Twitter, o Facebook, o Netflix e a Amazon não desejam atentar contra seu próprio negócio: você é um cliente. Gostaria que ninguém tivesse uma postura extrema: não vão arrancar seus órgãos por postar uma foto tomando caipirinha no Brasil, nem são Heidi. Há interesses e pessoas tentando fazer com que você vote em um candidato ou que compre uma coisa em vez de outra, mas no fundo buscam ganhar dinheiro. Cuidam dos negócios e se isso implica cuidar de você, é desse modo, por mais paradoxal que seja.
O que quer dizer quando fala da “convivência positiva entre o big data e a estatística tradicional”?
Muitas pessoas pensam no big data como uma espécie de etapa de superação da ciência tradicional. As fontes de dados eram as pesquisas, os registros burocráticos-administrativos, os experimentos e muitos que fazem uma leitura incorreta param no big, o “grande”. Antes, tínhamos a “velha” data e acreditam que toda essa tecnologia “primitiva” das pesquisas, dos experimentos de laboratório, registros contábeis já era, porque agora existe isso. É uma leitura incorreta porque o big data é uma enxurrada de dados anárquicos, espontâneos e esta geração de dados, com essas características, atua a favor e contra.
A favor, porque é muitíssimo, de forma passiva geramos dados de preferências, gostos, etc. Contra, porque esses dados espontâneos são anárquicos e podem ser enviesados. Não é mais do mesmo. São muitíssimos dados, mas não é que estejamos como antes e com muitos mais dados. Os problemas que a ciência tradicional tinha ainda continuam existindo, mas é uma boa notícia se você é capaz de olhar bem para esses dados. A pior coisa que pode acontecer com você é que digam o que deseja ouvir. As duas as coisas se complementam.
Na prática, como seria o “futuro promissor” que você prevê para o fenômeno big data?
Esse fenômeno traz informações, dados e sua contraface, que são os mecanismos de análise, o machine learning. Operam de forma disruptiva porque são muito interativos, aprendem com seus erros. A ideia de aprendizagem de um algoritmo é uma celebração do desacerto: formas sistemáticas desse equívoco. O big data é uma celebração de duas coisas com as quais, como sociedade, ainda temos um relação rara: o erro não como algo necessariamente ruim, mas compreendido como a possibilidade de melhorar e a incerteza.
A primeira coisa que chama a atenção ao entrar neste universo é a forma grosseira dos erros que são causados para ser corrigidos e a incerteza, que sempre está presente. É uma bela oportunidade para enfrentarmos, como sociedade, a natureza dos erros e também a incerteza: duas coisas que o big data pode estimular com força.
A que se refere com o “desafio da chuva de dados para o sistema educacional”, que “sem grande investimento pode trazer enormes benefícios”?
Um dos desafios é que talvez uma cultura algorítmica nos permita entender melhor como as coisas são e leve a uma melhor explicação. Por outro lado, treinamos pessoas para trabalhos que ainda não sabemos que existem. Se o futuro do trabalho é difuso, convém investir em coisas que saíram pouco da moda ao longo do tempo, como matemática, história, física e química.
O que defendo é que é necessário se refugiar em coisas com menos chance de se extinguir. A ciência dos dados é uma disciplina pária. Ao estar entre todas as outras, parece hermética, não tem portas (os lugares mais interessantes não as têm), embora, sim, janelas, e agora acontece que as pessoas entram pelos interstícios. É uma disciplina poliglota: são faladas muitas línguas, é uma boa notícia, mas primeiro você precisa falar bem uma língua e depois se tornar poliglota, caso contrário, acaba sussurrando em todas as línguas e não se inteira de nada.