17 Outubro 2020
"Como tornou-se possível hackear a realidade, manipulando-a de forma tão crível. As implicações dramáticas na política: pode haver debate público em meio a múltiplos mundos paralelos? Como ultradireita planeja criar um caos cognitivo", escreve Tomás Rodríguez Ansorena, em artigo publicado por Nueva Sociedad e reproduzido por Outras Palavras, 15-10-2020. A tradução é de Simone Paz.
Em menos de seis anos, o desenvolvimento da inteligência artificial tornou possível que quase qualquer um pudesse criar imagens falsas indistinguíveis da realidade. Do negócio pornográfico ao golpe no Gabão, a Internet dissemina essa nova ameaça fantasma: a de nunca mais sabermos o que é verdade.
Nas últimas eleições legislativas em Nova Déli, o candidato Manoj Tiwari surpreendeu seus eleitores com um vídeo falando em hindi, outro em inglês e outro em haryanvi. Antes de se tornar a figura principal do Partido Popular Indiano (BJP, na sigla em hindi) na capital do país, Tiwari foi ator, cantor popular e estrela de um reality show, mas ninguém desconfiava que ele falasse inglês (capital muito valorizado nas classes urbanas), e muito menos o dialeto da região de Haryana. Alguns dias depois, a verdade foi descoberta: uma agência publicitária propôs ao BJP — mesmo partido do primeiro-ministro Narendra Modi — expandir a oferta eleitoral utilizando inteligência artificial para criar deepfakes de Tiwari. Com gravações anteriores e software de última geração, puseram em sua boca palavras que ele desconhecia e levaram sua mensagem por WhatsApp para eleitores fora de seus núcleos de apoio. Não é a primeira vez que um candidato altera ou atua com sua voz para abordar novos cidadãos. Nem é o primeiro a usar inteligência artificial na política. Mas, até onde sabemos, é a primeira vez que um candidato transforma seu próprio corpo e voz usando deep learning para melhorar seu desempenho.
A deep-fake surgiu, pela primeira vez, em 2017: ano crucial no boom das fake news. O usuário do Reddit de nome /r/deepfakes postou suas primeiras criações pornográficas usando algoritmos e bancos de imagens gratuitas, com resultados surpreendentes. Em sintonia com o surgimento do TikTok e dos aplicativos de envelhecimento ou rejuvenescimento facial, a técnica desse usuário anônimo se tornou popular e logo o primeiro aplicativo aberto apareceu para incorporar qualquer rosto a algum vídeo já existente. Desde Bolsonaro como o Chapolin Colorado, até Cristina Kirchner como a drag queen Ru Paul, a Internet ficou cheia de vídeos com fins principalmente humorísticos, embora a grande maioria ainda seja pornográfica. O mais notável, três anos após o seu aparecimento, é a melhoria da sua qualidade. Em agosto, um fã postou sua própria versão das cenas do jovem Robert De Niro no The Irishman. A comparação entre o trabalho de CGI (imagens geradas por computação gráfica) da Netflix e a deep-fake deste usuário do YouTube — e os milhões de dólares de diferença — dão a diretriz da acessibilidade e eficácia em potencial desta ferramenta.
Para essas criações, é usado um autocoder, que cria uma imagem latente com apenas algumas variáveis (padrões de sorriso, de testa franzida, etc.) e acrescenta mais algumas variáveis à imagem final (os mesmos gestos com outro rosto, ou o mesmo rosto com outro discurso, por exemplo). Mas não se trata só de imagens estáticas ou em movimento, também estamos falando de som.
O falso furo de reportagem, baseado em um áudio viral, sobre a suposta mudança de Lionel Messi para o Manchester City poderia ter acontecido mesmo sem um imitador talentoso. O áudio poderia muito bem ter sido criado com um software como o usado pelo Boston Children’s Hospital para recriar as vozes daqueles que perderam a fala. Em setembro, ficamos sabendo do primeiro grande golpe da deep-fake: de acordo com o Wall Street Journal, o CEO de uma empresa inglesa transferiu 220 mil euros, atendendo as ordens de um software que imitava a voz de seu chefe alemão.
A mera existência dessa tecnologia não só possibilita a criação de fakes — com consequências políticas e sociais inusitadas — como também destitui a realidade de seu status: se o que realmente existe pode ser adulterado ou inventado diretamente, todos têm o direito à desconfiança. Como contou Rob Toews na Revista Forbes, o exemplo mais paradigmático desse problema ocorreu no Gabão. Por muitos meses, em 2018, seu presidente, Ali Bongo, não apareceu publicamente. Rumores sobre sua saúde, e até mesmo a suspeita de que ele havia morrido, forçaram o governo a revelar que Bongo sofreu um AVC, mas que estava se recuperando e que faria um discurso no Ano Novo. Os movimentos rígidos e aparentemente artificiais do líder na mensagem gravada despertaram rapidamente a psicose da oposição: o vídeo é falso, exclamaram. Uma semana depois, baseados na suposta acefalia do governo, uma fração do Exército quis dar um golpe no Gabão, mas foi reprimido… pelo próprio Bongo, que continua a liderar o governo. O vídeo não tinha sido falsificado.
A pandemia levou nossa relação com imagens virtuais a níveis nunca imaginados. Entrevistas de emprego, aulas, batizados, consultas médicas, audiências judiciais, sessões legislativas e até sexo. A “presença” é uma exigência cada vez mais dispensável nos rituais e instituições que nos constituem como sociedade. Por outro lado, a identidade virtual, sua “impressão digital”, torna-se cada vez mais relevante, não só em termos jurídicos, mas também práticos. Ali, onde a vida cotidiana só encontra seu caminho por meio de uma projeção digital, sua autenticação é vital. Isso é sabido por crianças de todas de norte a sul que, assim como o senador argentino Esteban Bullrich fez no Congresso, já aprenderam a enganar seus professores, colocando imagens em looping na sala de aula virtual.
Deep-fakes apresentam outros problemas ainda piores. A inteligência artificial (IA) já é utilizada na criação massiva de comentários para posicionar um produto ou serviço em plataformas de e-commerce, e também para fins políticos, como foi comprovado durante a campanha presidencial argentina em 2019. Por que não imaginar protestos ou mobilizações em massa, execuções sumárias, repressões, crimes de rua e outros registros visuais fabricados? Se as “campanhas de difamação” já são uma ferramenta consolidada, tanto para quem as fabricam quanto para quem as utilizam como pretexto, quais possibilidades são geradas pelas deep-fakes? Que níveis de miséria política podem ser desatados a partir da possibilidade de um registro visual falso?
De acordo com uma análise do Crime Science Journal, as deep-fakes com dolo (ou propósito criminoso) são os crimes baseados em IA com maior poder de dano (ou lucro) nesta categoria e, também, os mais difíceis de derrotar. Entre suas modalidades estão a falsificação extorsiva de sequestros por meio da imitação de voz ou imagem de vídeo, a imitação por voz para acessar sistemas seguros e uma ampla gama de extorsões com vídeos falsos.
Essas preocupações já desencadearam algumas reações. A China proibiu a disseminação de deep-fakes sem advertir que esta tecnologia foi usada; e o Estado da Califórnia proibiu seu uso para fins políticos durante os períodos eleitorais. Em outubro, o Facebook criou um fundo de 10 milhões de dólares para desenvolver ferramentas que detectam rapidamente imagens falsas. A Microsoft, por sua vez, acaba de apresentar o “Video Authenticator”, uma ferramenta para detectar deep-fakes. Nisso, apareceu até a Sensity, a “primeira empresa de inteligência visual contra ameaças“, combinando detecção e monitoramento algorítmico de deep-fake .
De acordo com a Sensity, em julho de 2019 havia menos de 15 mil deep-fakes circulando na web. Um ano depois, o número cresceu para quase 50 mil. Destes, 96% são pornográficos — e, até agora, só no ano de 2020, foram carregados mais de mil deep-fakes por mês só em sites de pornografia, onde supostos “vídeos proibidos” de celebridades e influenciadores aparecem com cada vez mais frequência. “As empresas por trás da web pornográfica não enxergam isso como um problema”, disse o CEO da Sensity, Giorgio Patrini, à Wired. Pelo contrário. Uma deep-fake da Emma Watson obtém 23 milhões de visualizações no Xvideos, Xnxx e xHamster, três dos maiores sites pornôs do mundo, cuja lógica de monetização consiste em desviar o tráfego massivo para conteúdo pago.
Entre as criações mais distorcidas existe o cruzamento de deep-fakes com a realidade virtual, onde pessoas reais (celebridades ou não) podem ganhar vida como escravas sexuais virtuais de um usuário. Essa não deveria ser a principal preocupação para sociedades como as da América Latina, onde o acesso à Internet nem mesmo é garantido a todos. Mas os últimos anos mostram que o futuro nunca está tão longe assim…
A deep-fake não é uma simples forma de edição de vídeo, mas a aplicação de uma tecnologia específica, com um fim específico: deep learning (aprendizado profundo) num registro falso. Por sua vez, o deep learning não é qualquer tipo de inteligência artificial. Segundo a definição do livro homônimo de Ian Goodfellow (2014), Deep Learning, ele procura “resolver as tarefas que, para um ser humano, são fáceis de realizar — mas difíceis de descrever formalmente”. Por exemplo, reconhecer uma imagem. O desenvolvimento da ciência da computação foi na direção oposta: já em 1997, o computador IBM Deep Blue conseguiu derrotar o melhor enxadrista vivo do mundo. Mas, muito mais recente, é a capacidade dos computadores de interpretar um estado de espírito, distinguir um cão de um gato ou “falar”, tarefas que qualquer ser humano selvagem pode realizar sem treinamento específico. A ironia está contida em algum captcha [um teste de desafio cognitivo, utilizado como ferramenta anti-spam]: “Prove que você é humano identificando o semáforo.” Que grande habilidade, senhor humano. Parabéns.
Ian Goodfellow já tinha causado polêmica entre seus colegas com seu livro, quando, naquele mesmo ano, idealizou a invenção que o colocou no panteão global das mentes fundamentais da inteligência artificial: Redes Antagônicas Geradoras (GANs), um modelo algorítmico que possibilitou, entre outras coisas, o aparecimento de deep-fakes. O atual diretor de Machine Learning da Apple e ex-pesquisador principal do Google Brain (que ainda não tem 35 anos) estava bebendo cerveja em um bar de Montreal, enquanto discutia com amigos sobre a capacidade da inteligência artificial de gerar fotos realistas. O álcool impulsionou uma ideia que ele teria descartado sob a influência da sobriedade.
Para que uma rede neural aprenda a criar uma imagem, não basta apenas olhar para milhões de imagens, mas também saber se o que foi criado está certo ou errado. Para resolver este problema, Goodfellow propôs colocar duas redes em competição: uma rede “geradora”, treinada para criar as imagens, e uma rede “discriminatória”, especificamente treinada para detectar as diferenças entre uma imagem real e uma criada artificialmente. Por meio de rodadas sucessivas, as redes melhoram automaticamente os parâmetros nos quais cumprem sua tarefa. E, eventualmente, a rede discriminadora não será mais capaz de detectar o que é real e o que é falso. A teoria de Goodfellow foi comprovada na prática e, entre outros usos menos divulgados, as deep-fakes apareceram nos subúrbios da internet.
A invenção de Goodfellow carrega uma lógica faustiana: você se tornará capaz de criar o real, mas não saberá mais o que é real. Em entrevista à MIT Technology Review, ele admite que não haverá solução técnica para o problema da autenticação, mas que será uma exigência social educar e conscientizar sobre os perigos desta tecnologia e a possibilidade de que as imagens que observamos possam ou não ser reais. “Como você provaria que é um humano e não um robô?”, perguntou-lhe Lex Fridman, em seu podcast. “De acordo com minha própria metodologia de pesquisa, não há como saber neste momento”, respondeu Goodfellow, que de seu sobrenome (que significa “bom companheiro”) ao tom monótono de voz e sua precisão discursiva, poderia se passar por andróide. “Provar que algo é real pelo seu próprio conteúdo é muito difícil. Podemos simular quase tudo, então você teria que usar algo além do conteúdo para provar que algo é real”, continuou Goodfellow.
A má-reputação do que é fake, no entanto, não deveria ofuscar seu potencial: o teste de drogas simuladas, em órgãos simulados, afetados por doenças simuladas; os experimentos subatômicos para o desenvolvimento de energias alternativas; a projeção algorítmica de viagens espaciais; aplicações industriais, agroalimentares e até artísticas. A maioria dessas disciplinas requer imensa capacidade computacional (e, nesse campo, a maior aposta é a computação quântica), mas o que é mais interessante é a premissa subjacente. Goodfellow procura que as redes “entendam o mundo em termos de uma hierarquia de conceitos, cada um deles definido a partir de conceitos mais simples”, derivados da experiência.
Se as redes neurais de inteligência artificial continuarem nesse ritmo de aceleração, a humanidade terá à sua disposição ferramentas capazes de deslocar sua experiência com o mundo. Para sempre. Ao contrário de outras tecnologias, a “democratização” não resolverá os dilemas que as deep-fakes apresentam. De quem iremos reivindicar a verdade? Talvez precisemos nos acostumar a viver sem ela.