01 Outubro 2020
Muitas pessoas declararam 2020 o pior ano de todos. Embora tal descrição possa parecer irremediavelmente subjetiva, de acordo com uma medida está correta. Esta referência é o Hedonômetro, uma forma computadorizada de avaliar nossa felicidade e nosso desânimo. Funciona cotidianamente nos computadores da Universidade de Vermont - UVM, onde coleta cerca de 50 milhões de tuítes do Twitter e, em seguida, faz uma rápida leitura do estado de ânimo do público. De acordo com o Hedonômetro, 2020 está sendo de longe o ano mais horrível, desde que se começou o acompanhamento, em 2008.
A reportagem é de Dana Mackenzie, publicada por El Salto, 30-09-2020. A tradução é do Cepat.
O Hedonômetro é uma encarnação relativamente recente de uma tarefa na qual os cientistas da computação vêm trabalhando há mais de 50 anos: usar computadores para avaliar o tom emocional das palavras. Para construir o Hedonômetro, o cientista da computação da UVM, Chris Danforth, teve que ensinar uma máquina a entender as emoções por trás desses tuítes, já que nenhum ser humano teria a capacidade de ler todos. Esse processo, chamado de análise de sentimentos, deu grandes passos nos últimos anos e está encontrando cada vez mais usos.
Além de medir a temperatura emocional do usuário do Twitter, os pesquisadores estão usando a análise de sentimentos para avaliar as percepções das pessoas sobre as mudanças climáticas e examinar a sabedoria convencional, como, na música, se um acorde menor é mais triste do que um acorde maior (e o quanto mais). As empresas que desejam informações sobre o sentimento do consumidor estão usando a análise de sentimentos para avaliar críticas em plataformas como o Yelp. Alguns a utilizam para avaliar o estado de ânimo dos funcionários nas redes sociais internas em funcionamento. A técnica também pode ter aplicações médicas, como identificar pessoas deprimidas que precisam de ajuda.
A análise de sentimentos está permitindo aos pesquisadores examinar uma enxurrada de dados que antes eram longos e difíceis de coletar, quanto mais de estudar, disse Danforth. “Nas ciências sociais, temos a tendência de medir coisas que são fáceis, como o Produto Interno Bruto. A felicidade é algo importante e difícil de medir”.
Você poderia pensar que o primeiro passo na análise de sentimentos seria ensinar o computador a entender o que os humanos estão dizendo. Mas isso é algo que os cientistas da computação não podem fazer. Entender a linguagem é um dos problemas notoriamente difíceis da inteligência artificial. Mas há muitas pistas para as emoções por trás do texto escrito que os computadores podem reconhecer, mesmo sem entender o significado das palavras.
A primeira abordagem para a análise de sentimentos é a contagem de palavras. A ideia é bastante simples: contar o número de palavras positivas e subtrair o número de palavras negativas. Uma medida ainda melhor pode ser obtida pesando as palavras: "Excelente", por exemplo, carrega um sentimento mais forte do que "bom". Esses pesos são geralmente atribuídos por especialistas humanos e fazem parte da criação dos dicionários de palavras-emoção, chamados léxicos, que a análise de sentimentos muitas vezes utiliza.
Mas a contagem de palavras tem problemas inerentes. Uma é que ignora a ordem das palavras, tratando a frase como uma espécie de ensopado de palavras. E a contagem de palavras pode perder dicas específicas do contexto. Considere esta crítica de produto: "Estou tão feliz que meu iPhone não é como meu velho e feio Droid”. A frase contém três palavras negativas (não, velho e feio) e apenas uma positiva (feliz). Enquanto um humano reconhece imediatamente que velho e feio se referem a um telefone diferente, para o computador, parece negativo. E as comparações apresentam dificuldades adicionais: o que significa 'não ser como'? Significa que o falante não está comparando o iPhone com o Android? A linguagem pode ser muito confusa.
Para lidar com essas questões, os cientistas da computação têm recorrido cada vez mais a abordagens mais sofisticadas que deixam os humanos completamente à margem. Estão usando algoritmos de aprendizagem automática que ensinam um programa de computador a reconhecer padrões, como relações significativas entre palavras. Por exemplo, o computador pode aprender que pares de palavras como banco e parque muitas vezes ocorrem juntas. Essas associações podem fornecer pistas sobre significado e sentimento. Se banco e dinheiro estiverem na mesma frase, provavelmente seja um tipo diferente de banco.
Um grande avanço nesses métodos veio em 2013, quando Tomas Mikolov, do Google Brain, aplicou a aprendizagem automática para construir uma ferramenta chamada Word Embeddings. Esta converte cada palavra em uma lista de 50 a 300 números, chamada de vetor. Os números são como uma impressão digital que descreve uma palavra e, especificamente, as outras palavras que tende a frequentar.
Para obter esses descritores, o programa de Mikolov analisou milhões de palavras em artigos de jornal e tentou prever a próxima palavra do texto, considerando as palavras anteriores. As incrustações de Mikolov reconhecem sinônimos: palavras como dinheiro e grana têm vetores muito semelhantes. Mais sutilmente, as Words Embeddings capturam analogias elementares - que o rei é para a rainha o que o menino é para a menina, por exemplo -, embora não consigam definir essas palavras (um feito notável, visto que tais analogias faziam parte de como os exames de admissão à faculdade nos Estados Unidos avaliavam o desempenho).
As Word Embeddings de Mikolov foram geradas pelo que é chamado de rede neural com uma camada oculta. As redes neurais, que são vagamente modeladas segundo o cérebro humano, permitiram avanços incríveis na aprendizagem automática, incluindo AlphaGo (que aprendeu a jogar melhor que o campeão mundial). A rede de Mikolov era uma rede deliberadamente mais superficial, por isso poderia ser útil para uma variedade de tarefas, como tradução e análises de temas.
As redes neurais mais profundas, com mais camadas de córtex, podem extrair ainda mais informações sobre o sentimento de uma palavra no contexto de uma frase ou documento específico. Uma tarefa de referência comum é o computador ler uma crítica de filme no IMDB e prever se o crítico a aprovou ou reprovou. Os primeiros métodos de léxico alcançaram cerca de 74% de precisão. Os mais sofisticados chegaram a 87%. As primeiras redes neurais, em 2011, alcançaram 89%. Hoje, agem com mais de 94% de precisão, aproximando-se de um ser humano. (O humor e o sarcasmo continuam sendo grandes obstáculos, porque as palavras escritas podem expressar literalmente o oposto do sentimento que se pretende).
Apesar dos benefícios das redes neurais, os métodos baseados no léxico ainda são populares. O Hedonômetro, por exemplo, usa um léxico e Danforth não tem a intenção de trocá-lo. Embora as redes neurais possam ser mais precisas para alguns problemas, têm um custo. O simples período de formação é uma das tarefas informaticamente mais intensas que você pode pedir para um computador fazer.
“Basicamente, você está limitado pelo tanto de eletricidade que possui”, diz Robert Stine, da Wharton School, que aborda a evolução da análise de sentimentos na Annual Review of Statistics and Its Application de 2019. “Quanto de eletricidade o Google usou para fazer o AlphaGo? A anedota que ouvi foi que o suficiente para cozinhar o oceano”, diz Stine.
Além das necessidades de eletricidade, as redes neurais exigem hardware caro e conhecimento técnico, e falta transparência porque o computador está descobrindo como abordar a tarefa, mais do que seguindo as instruções explícitas de um programador. "É mais fácil corrigir erros com um léxico", diz Bing Liu, da Universidade de Illinois, em Chicago, um dos pioneiros da análise de sentimentos.
Embora a análise de sentimentos muitas vezes caia na esfera dos cientistas da computação, ela tem raízes profundas na psicologia. Em 1962, o psicólogo de Harvard, Philip Stone, desenvolveu o General Inquirer, o primeiro programa computadorizado de análise de texto geral para uso em psicologia. Nos anos 1990, o psicólogo social James Pennebaker desenvolveu um programa de análise de sentimentos (Linguistic Inquiry and Word Count) para examinar o mundo psicológico das pessoas. Essas avaliações iniciais revelaram e confirmaram padrões que os especialistas observavam há muito tempo: os pacientes com diagnóstico de depressão tinham estilos de escrita distintos, como o uso dos pronomes “eu” e “mim” com mais frequência. Usavam mais palavras com afetividade negativa e, às vezes, mais palavras relacionadas à morte.
Os pesquisadores agora estão examinando a expressão da saúde mental na linguagem e na escrita, analisando postagens nas redes sociais. O psicólogo Andrew Reece, por exemplo, analisou postagens no Twitter de pessoas com diagnósticos formais de depressão e transtorno de estresse pós-traumático que foram escritos antes do diagnóstico (com o consentimento dos participantes). Os sinais de depressão começaram a aparecer até nove meses antes. E o Facebook tem um algoritmo para detectar usuários que parecem estar em risco de suicídio. Especialistas humanos revisam os casos e, caso corresponda, enviam instruções aos usuários e números de telefone de ajuda.
Mas os dados de redes sociais ainda estão longe de ser usados no atendimento ao paciente. As questões de privacidade são uma preocupação óbvia. Além disso, ainda há trabalho a ser feito para medir o nível de utilidade dessas análises. Muitos estudos que avaliam a saúde mental não conseguem definir seus termos de forma adequada e não fornecem informações suficientes para replicar seus resultados, diz Stevie Chancellor, uma especialista em ciência da computação com foco nas pessoas, da Universidade Northwestern, e coautora de uma crítica recente a 75 estudos desse tipo.
Mas mesmo assim, acredita que a análise de sentimentos pode ser útil clinicamente, por exemplo, na triagem de um novo paciente. E mesmo sem dados pessoais, a análise de sentimentos pode identificar tendências, como o nível geral de estresse de estudantes universitários, durante uma pandemia, e os tipos de interações em redes sociais que desencadeiam recaídas entre pessoas com transtornos alimentares.
A análise de sentimentos também está abordando questões mais leves, como os efeitos do clima sobre o humor. Em 2016, Nick Obradovich, agora no Instituto Max Planck para o Desenvolvimento Humano, em Berlim, analisou cerca de 2 bilhões de postagens no Facebook e 1 bilhão de postagens no Twitter. Um pouco de chuva diminuía a felicidade expressa pelas pessoas em cerca de 1%. As temperaturas abaixo de zero baixavam cerca do dobro.
Em um estudo de acompanhamento - e mais desanimador -, Obradovich e outros colegas acessaram o Twitter para entender os sentimentos sobre as mudanças climáticas. Descobriram que após cinco anos de aumento de calor, o sensação de normal dos usuários do Twitter mudou e não estavam mais tuitando sobre uma onda de calor. Não obstante, a sensação de bem-estar dos usuários ainda era afetada, mostram os dados. “É um problema que avança tão devagar que não é percebido”, diz Obradovich. "Essa foi uma das descobertas empíricas mais perturbadoras que já fiz”.
A reputação da segunda-feira como o pior dia da semana também exigiu investigação. Embora segunda-feira seja o nome do dia que provoca as reações mais negativas, terça-feira foi na verdade o dia em que as pessoas estavam mais tristes, descobriu uma análise preliminar de tuítes feita pelo Hedonômetro de Danforth. A sexta-feira e o sábado, é claro, foram os dias mais felizes. Mas o padrão semanal mudou após a eleição presidencial dos Estados Unidos de 2016. Embora provavelmente ainda haja um sinal semanal, "sobreposta a ele estão acontecimentos que chamam nossa atenção e se fala sobre eles mais do que a respeito do básico da vida", disse Danforth. Tradução: no Twitter, a política nunca para. “Qualquer dia da semana pode ser o mais triste”, diz.
Outro tópico colocado à prova é que, na música, os acordes maiores são percebidos como mais alegres do que os acordes menores. Yong-Yeol Ahn, especialista em ciências sociais e informática, da Universidade de Indiana, colocou essa ideia à prova analisando o sentimento das letras que acompanham cada acorde, em 123.000 canções. Os acordes maiores foram, na verdade, associados a palavras mais felizes, 6,3 em comparação com 6,2 para acordes menores, em uma escala de 1 a 9. Embora a diferença pareça pequena, é cerca de metade da diferença de sentimento entre o Natal e um dia normal da semana, no Hedonômetro. Ahn também comparou gêneros e descobriu que o rock dos anos 1960 era o mais feliz e o heavy metal era o mais negativo.
O mundo dos negócios também está assumindo a ferramenta. A análise de sentimentos está se tornando amplamente utilizada pelas empresas, mas muitas não falam sobre isso, portanto, aumentar sua popularidade é difícil. “Todas estão fazendo isso: Microsoft, Google, Amazon, todas. Algumas delas têm vários grupos de pesquisa”, diz Liu. Uma medida de interesse facilmente acessível é o grande número de programas de software de análise de sentimentos comerciais e acadêmicos que está disponível publicamente: uma comparação de referência de 2018 detalhou 28 desses programas.
Algumas empresas usam a análise de sentimentos para entender o que seus clientes estão dizendo nas redes sociais. Como um exemplo possivelmente apócrifo, a Expedia Canadá realizou uma campanha de marketing, em 2013, que se tornou viral da maneira errada, porque as pessoas odiavam o som estridente de violino ao fundo. A Expedia rapidamente substituiu o anúncio irritante por novos vídeos que zombavam do antigo (por exemplo, convidaram um usuário descontente do Twitter para quebrar o violino). Frequentemente, afirma-se que a Expedia foi alertada sobre a resposta das redes sociais pela análise de sentimentos. Embora isto seja difícil de confirmar, é certamente o tipo de coisa que a análise de sentimentos pode fazer.
Outras empresas usam a análise de sentimentos para rastrear a satisfação dos funcionários, por exemplo, monitorando as redes sociais internas da empresa. A IBM, por exemplo, desenvolveu um programa chamado Social Pulse que monitorava a intranet da empresa para ver o que os funcionários estavam reclamando. Por motivos de privacidade, o software analisava apenas postagens compartilhadas com toda a empresa. Mesmo assim, essa tendência incomoda Danforth, que diz: “Minha preocupação seria que a privacidade dos funcionários não estivesse em consonância com a essência da empresa. É uma coisa eticamente duvidosa”.
É provável que a ética continue sendo um problema, na medida em que a análise de sentimentos se torne mais comum. E as empresas, os profissionais da saúde mental e qualquer outro campo que considerem o seu uso devem ter em mente que, embora a análise de sentimentos seja infinitamente promissora, cumprir essa promessa ainda pode ser difícil. As matemáticas que subjazem as análises são a parte fácil. A parte difícil é entender os humanos. Como disse Liu: "Não entendemos sequer o que é entender".