17 Janeiro 2011
Para o geneticista Kwiatkowski o esquema indicado pelo epistemólogo já está ultrapassado. A velha guarda teme os processos de investigação que tomam o movimento dos algoritmos. Com o aumento das informações armazenadas pelos computadores as pesquisas se tornam cada vez mais “abertas”, sem parecer terminar. Big Data permite ao estudioso ir sempre mais a fundo e perguntar-se coisas novas.
A reportagem é de Elisabeth Pisani, publicada no jornal italiano La Repubblica, 12-01-2011. A tradução é de Alessandra Gusatto.
Estou participando da conferência Science Online, da qual está completamente ausente o habitual léxico científico que me é familiar, formado de cálculos demonstrativos, de experiências com grupos de controle e placebo, de testes estatisticamente significativos. Ao invés disso, aqui se fala em selecionar e receber dados, em petabyte (unidade de medida de informação ou de quantidade de dados), e de algoritmos. Esta é a linguagem do Big Data, aquele oceano de informações geradas por um telescópio sempre maior, de técnicas de sequenciamento genético cada dia mais econômicas, de um número em constante aumento de usuários do Facebook. Como escreveu Martin Rees, presidente da Royal Society, Big Data nos permitirá ir sempre mais a fundo, de selecionarmos sempre mais dados, de trilharmos caminhos para descobertas e visões até hoje nunca pensadas. Permitirá-nos fazer novas perguntas, que não poderíamos nem formular quando a ciência dependia do trabalho de poucas pessoas, fechadas em um único laboratório, trabalhando em uma pesquisa de âmbito limitado e fechado. Alguns acreditam que Big Data mudará o modo que nos indagamos. Os dias da ciência que conhecíamos, aquela das hipóteses e suposições, já estão contados.
David McCandless – escritor, designer, editor do blog Information is Beautiful - mostra ao publico da conferência um gráfico que evidencia os meses de janeiro a dezembro. O traço dos primeiros meses do ano vai pra cima e para baixo, mas no outono caí a olhos vistos, para depois despontar em um outro forte pico em para baixo bem perto do natal. McCandless desafia o público a adivinhar ao que se refere o gráfico. Vendas de chocolate? De cartões de aniversário? Ele mostra então uma linha informativa no slide: “Períodos de pico máximo no rompimento de relações”. As relações afetivas se desgastam e se rompem por causa do stress atribuído ao fato de passar junto as festas, explica McCandless, e por causa das tensões que nascem do dever estar em família. Os dados que apresenta foram recolhidos analisando dados de mais de 10 mil atualizações casuais no Facebook relativos a “situação complicada” ou “situação rompida”.
Quando, em 2008, a Wired Magazine declarou que a época dos petabyte varreria o método científico, a página dos comentários se preencheu de comentários indignados e esquentados. A questão naquela época ficou latente sob as cinzas. Por que a velha guarda se sente assim amedrontada com a idéia de uma ciência que parta de algoritmos? Os epidemiologistas como eu recolhem informações sobre a ocorrência de epidemias, sobre os comportamentos de risco e sobre o ambiente, e os utilizam para identificar quais sejam as ameaças para a saúde pública. É legítimo preocupar-se com o fato de que os computadores dêem vida a conjuntos transviados e nos levem por um caminho errado. Eu temo, porém, que na verdade o nosso verdadeiro medo seja que o Google acabe fazendo o nosso trabalho melhor do que nós.
Mas antes de chamar as carpideiras para que venham chorar sobre a ciência baseada em hipóteses, podemos dar uma olhada mais de perto e tentar conhece-la melhor. A primeira vista, a história da busca quantitativa (e o enorme corpus da pesquisa qualitativa) indica que muitas das grandes descobertas tiveram origem insólita. Conversei com Simon Schaffer, professor de história da ciência em Cambridge, que intuiu a minha angústia existencial e me disse: “As tuas perguntas trazem certa nostalgia diante do ideal experimental, aquele pelo qual grupinhos muito restritos de homens muito brilhantes elaboram previsões muito iluminadas. Já que leram Karl Popper, mandam homens mais jovens e mais pobres que eles sair por aí recolhendo dados, com a finalidade de tentar provar e desmentir as suas próprias suposições. O que nunca acontece”.
Não posso obviamente confessar que Conhecimento objetivo, do ponto de vista evolucionista de Karl Popper – o filósofo austro-britânico da ciência – goze de um lugar de destaque no meu criado mudo. Mesmo que eu tenha feito bastante esforço para tentar entender por que motivo o seu modelo de Ideia-Experimento-Análise-Contestação/Confirmação-Nova Ideia tenha se tornado uma referência imprescindível da pesquisa científica.
“Se uma afirmação é científica deve ser verificável. Esta é a síntese das teses normativas de Karl Popper e é muito convincente, embora negligencie completamente a descrição do que na verdade fizeram personalidades como Darwin, Pasteur, Newton ou Boyle. Eles se empenharam e pararam para fazer pessoalmente, sujando as mãos e fazendo avaliações diretas” disse Schaffer. Dominic Kwiatkowski, geneticista professor em Oxford e estudioso da correlação entre os genes e as doenças, concorda que o modelo Popper não espelha a realidade: “ Uma hipótese não nasce das metódicas análises de um individuo enterrado em uma poltrona de couro com um copo de whisky. Surge de dados existentes”. Portanto aquela que numa fase experimental inicial possa parecer uma informação livre de hipótese, pode tornar-se para uma outra experiência mais restrita algo formulável em uma hipótese. Resumindo, as galinhas e os ovos.
“Os cientistas ficam muito embaraçados se tem que admitir que frequentemente não tem certeza sobre as informações e as vezes descobrem algo por puro acaso”, diz Chris Hilton, chefe arquivista da Wellcome Library, especializada na história da ciência. No campo das ciências biomédicas, nas quais nos ajoelhamos ao altar das experimentações casuais em grupo de controle, a supremacia das hipóteses está escrita diretamente nos nossos códigos comportamentais. É proibido não as fazer. “Mas sem hipóteses não quer dizer sem rigor: quer dizer somente que não se deve começar a tirar as próprias conclusões ainda antes de começar”, diz Kwiatkowski.
Por outro lado, Big Data não pode por em risco a ciência baseada em hipóteses se esta nunca existiu de verdade. Porque então fechar os punhos e se preocupar com a corredeira de informações? Bem, ao que parece, fechar os punhos é um hábito muito antigo. A ciência sempre esteve em evolução e, portanto, cada cientista se vê cavalgando sobre a onda de informações a custo dos outros, e de lá mantém um olho no tsunami que logo o levará e se pergunta se ele vai levar o mundo embora. A sua primeira reação é de ridicularizar a nova e imensa onda de informação, taxando-a de caótica, incontrolável, algo que é impossível contextualizar e que, portanto, consideramos logo ser intrinsecamente anticientifica.
A época do petabyte obrigou os financiadores a reverem as suas modalidades de investimento na ciência. “Big Data não é nada novo. Mas este renovado interesse poderia nos ajudar a reorganizar a imagem daquilo que fazem os cientistas”, diz Schaffer. O Welcome Trust, uma das maiores associações humanitárias do mundo que financia a pesquisa no setor sanitário recentemente publicou um novo modelo de financiamento, que não obriga aquele que recebe-lo a planejar um estudo em cima de uma hipótese específica. A pesquisa especulativa acabou de dar um prêmio Nobel para a física a dois cientistas da Universidade de Manchester, que usaram um pouco de fita adesiva para extrair uma camada do supercondutor grafeno do grafite que é encontrado nos lápis. Isso, por sua vez, levou Martin Reed, presidente da Royal Society, cujo mandato de cinco anos termina em dezembro, a pressionar para obter outros financiamentos para projetos “abertos” de pesquisa.
Uma grande vantagem da pesquisa com Big Data é que os algoritmos, os cálculos, seleções e fusões de dados podem ser efetuados normalmente a baixo custo. Uma das coisas úteis que aqueles que buscam dados podem encontrar são hipóteses que outros verificarão de maneira mais indutiva. Isso não poderá deixar de ter implicações precisas aos fins das modalidades com as quais reconhecemos ou premiamos a atividade dos cientistas. Roni Zeiger do Google afirma: “Se através de uma análise de dados inéditos qualquer um concebe uma centena de hipóteses, e dez destas se mostram na seqüência confirmadas pelo trabalho dos cientistas, obviamente devem ser reconhecidas e premiadas. Acredito que deva haver uma evolução na modalidade de premiação em função do impacto que os indivíduos têm”.
Precisamos de novas modalidades para separar o trigo do joio, e premiar a ciência especulativa e colaborativa. Até que as coisas não se estabilizem, veremos muito, mas muito joio. “É totalmente lógico que existam descobertas a serem feitas quando se juntam uma grande quantidade de dados, mas estas descobertas serão o exito de um processo muito rigoroso”, diz Kwiatkowski. E chama a atenção que um rigor deste gênero, todavia, não está ainda difundido: “No seu início, toda nova revolução gera uma grande quantidade de coisas inúteis e supérfluas. No fim dos anos 90 as pessoas afirmavam que a Internet não serviria para nada, talvez somente para vender cosméticos. Hoje temos o Google. Estarmos livres de uma hipótese não significa estarmos livres de um modelo: um modelo é necessário sempre, como também é necessária sempre a interpretação, mesmo que não se tenha uma hipótese”.