Wim Vanderbauwhede é professor de Ciência da Computação na Universidade de Glasgow, onde lidera o grupo de pesquisa em Computação Sustentável e de Baixa Emissão.
Ele escreveu sobre o alto consumo de energia de grandes modelos de IA generativa como o ChatGPT, que ele acredita que “não podemos nos dar ao luxo” de expandir conforme proposto na atualidade. Recentemente, ele expressou ceticismo de que ganhos de eficiência possam levar a menores emissões da indústria.
A reportagem é de Elena de Sus, publicada por ctxt, 15-02-2025.
Pesquise computação de baixo consumo. Como você se interessou por essa questão?
Estou ciente das mudanças climáticas há muito tempo. Afinal, isso não é nenhuma novidade. Nasci na Bélgica e quando morei lá, fiz trabalho voluntário para uma organização ambiental.
Na minha carreira acadêmica, concentrei-me em melhorar a eficiência dos computadores. Mas já se sabe há muito tempo que se você torna algo mais eficiente, ele geralmente se torna mais barato, então a demanda aumenta, e como há mais demanda, as emissões de carbono aumentam, não diminuem.
Toda a história da Revolução Industrial tem sido uma história de melhoria da eficiência. A eficiência crescente da máquina a vapor nos levou a queimar muito carvão.
Os computadores são literalmente milhões de vezes mais eficientes do que eram nas décadas de 1930 ou 1940. Mas isso tornou seu uso onipresente. Portanto, as emissões totais da computação aumentaram apesar de todas as melhorias na eficiência.
Eu tinha esse conflito com o trabalho sobre eficiência e queria contribuir para a sustentabilidade de uma forma mais ampla. Há alguns anos tive a oportunidade de iniciar uma nova atividade de pesquisa no departamento onde trabalho, com o apoio do chefe do departamento, e assim foi criado o grupo de Computação Sustentável e de Baixa Emissão.
O termo que uso quando dou palestras é computação frugal. A mensagem da computação frugal é que devemos usar menos recursos de computação, assim como devemos usar menos de qualquer recurso se não quisermos mudanças climáticas catastróficas.
Não devemos buscar o crescimento entendido como crescimento no consumo de recursos e energia porque isso é destrutivo. Nosso modelo social é projetado para nos incentivar a usar mais recursos e mais energia, mas esse não é um modelo sustentável.
No entanto, desenvolvimentos recentes como IA generativa e bitcoin consomem muita energia.
Em algum momento antes do início da febre da IA, tivemos a bolha do Bitcoin e parecia que o Bitcoin iria consumir muitos recursos. Mas o Bitcoin não é uma moeda viável para um estado-nação. O ex-ministro das Finanças grego Yanis Varoufakis escreveu extensivamente sobre esse assunto. Se fosse necessária prova, El Salvador abandonou o bitcoin como moeda nacional. Isso significa que o Bitcoin e seus derivados continuarão populares em alguns círculos, mas não crescerão muito. Portanto, suas emissões também não aumentarão muito. Além disso, outras criptomoedas, como o Ethereum, baseadas no protocolo de prova de participação, em vez de prova de trabalho , ganharam popularidade. Sua pegada de carbono é 100 vezes menor. Portanto, as emissões de criptomoedas não tiveram um crescimento espetacular, e o nível atual de emissões não é terrível. Se continuar assim não será um grande problema.
A IA generativa é diferente porque tem o apoio de muitos governos. Todo mundo parece acreditar que isso é mágico e que criará crescimento ilimitado. Ou talvez eles não acreditem, mas agem como se acreditassem. Portanto, é um esforço importante para produzir mais chips, mais data centers e gerar mais eletricidade. Atualmente, 70% da eletricidade ainda vem de combustíveis fósseis. Então vamos queimar mais carvão.
Então o problema é o apoio estatal à IA?
O apoio do Estado atrasa o processo. As bolhas geralmente estouram sozinhas porque as pessoas começam a perceber que não há nada ali. Mas se os governos acharem que isso é uma boa ideia, eles investirão nela, e esses investimentos serão feitos mesmo que as pessoas já percebam que não vale a pena, porque as instituições são lentas. Então tudo está atrasado. E com esse atraso, é claro, mais emissões são geradas.
É muito difícil alcançar crescimento econômico hoje em dia. E se você acredita que precisa alcançá-lo, qualquer coisa que prometa esse crescimento vai lhe interessar. O governo do Reino Unido, por exemplo, é assim. Também a dos Estados Unidos. Eles acham que a IA vai lhes trazer crescimento, então estão investindo nessa área, e esses investimentos continuarão mesmo se a bolha estourar este ano. E, claro, se o governo diz que a IA é boa, é muito mais difícil para uma pessoa comum dizer que a IA é ruim.
Com o lançamento de modelos de IA generativa mais eficientes da empresa chinesa DeepSeek, a bolha parece ter estourado. Pelo menos as ações da Nvidia caíram e tem havido muito debate sobre se um investimento tão grande em data centers não faria sentido.
Tenho analisado as informações que o DeepSeek está disposto a fornecer.
Para começar, a narrativa de que eles tiveram que usar GPUs de baixo desempenho por causa das restrições de exportação do governo dos EUA é falsa. Vou explicar por que isso é falso.
Para cumprir com as restrições de exportação de 2022, a Nvidia criou uma série especial de GPUs para o mercado chinês que apresentam pior desempenho em uma área específica. Isso é chamado de desempenho de ponto flutuante de endereço duplo. Mas a IA não precisa de desempenho de ponto flutuante de endereço duplo.
É necessário para supercomputadores que realizam cálculos científicos. Mas os chineses produziram seus próprios supercomputadores para cálculos científicos, eles não estão comprando GPUs Nvidia para isso. Eles estão comprando-os para IA, e para IA isso é irrelevante.
Os modelos de IA da OpenAI, Google e outras empresas dos EUA são equipados com GPUs Nvidia chamadas A100. Para treinar esses modelos, eles usam modelos superiores chamados H100.
Para o mercado chinês, a Nvidia vendeu os equivalentes A800 e H800 [Nota: os Estados Unidos também proibiram a exportação destes no ano seguinte, em 2023]. Em seu artigo , a DeepSeek diz que seu modelo funciona com o H800. O H800 é superior ao A100 em quase todos os aspectos, mas é apenas um pouco pior em conectividade. Então, se você combinar várias dessas GPUs em uma rede, a largura de banda da rede será menor, e no artigo a DeepSeek explica como eles resolveram isso. É um bom exemplo de engenharia, mas não traz muitos benefícios.
Então não estamos falando de poder computacional restrito. Este é o melhor da gama. É melhor do que o que a maioria das empresas usa em seus data centers atualmente.
O DeepSeek tem sido muito inteligente em duas coisas. Eles lançaram um aplicativo que as pessoas gostaram. Seu preço é competitivo. E eles têm vários modelos menores de código aberto com os quais as pessoas podem brincar. E acho que é nisso que a mídia tem se concentrado, mas também não é novidade. A Meta já havia lançado modelos menores de código aberto com o Llama. Eles também não são realmente de código aberto, porque os dados que eles usaram não são públicos, mas esse é outro assunto.
A questão é que o modelo que faz as principais inferências não é tão pequeno. Comparado ao GPT4, por exemplo, o DeepSeek conseguiu usar menos parâmetros simultaneamente em um determinado momento, então seu modelo será um pouco mais eficiente em termos de energia.
A ideia é genial, eles provaram que funciona e isso é bom. Mas voltamos ao mesmo problema. Se o seu preço for competitivo, mais pessoas o usarão. Portanto, é improvável que o resultado seja uma redução no consumo de energia. Pode ser um aumento se a empresa se tornar muito grande.
Tem havido muito foco no custo de treinamento desses modelos de IA generativa, mas você escreveu que o custo de usá-los é muito mais alto.
Sim. Isso é verdade quer estejamos falando de custos ambientais ou financeiros. Não sou o único que escreveu sobre isso. Muitas pessoas estão percebendo que o custo econômico do treinamento está se tornando anedótico. Eu calculei isso.
Os custos de inferência [uso] aumentam com o número de usuários. Os custos de treinamento só aumentam se você fizer um modelo maior. É provavelmente aqui que o DeepSeek foi mais inteligente, porque seu cluster de GPU não é muito grande, eles conseguiram treinar o modelo em um cluster menor, já que são uma empresa pequena. Isso lhes permite economizar no custo inicial. Mas se eles se tornarem uma grande empresa, precisarão de muitos data centers para responder a todas as consultas dos usuários. Esse será o custo dominante.
Alguns anos atrás, os custos de treinamento eram muito mais altos porque os modelos eram treinados de forma ineficiente. Eles não sabiam como fazer isso direito. Então eles precisaram de muitos recursos para obter um modelo não muito bom e provavelmente tiveram que repetir os processos. Mas agora os custos da inferência são definitivamente dominantes. E também as emissões derivadas da inferência.
Você acha que os mercados reagiram exageradamente ao lançamento do DeepSeek?
Claro que sim. Principalmente os mercados americanos, porque isso vem da China e eles estão assustados. Mas acho que a Nvidia não deveria se preocupar.
Quer dizer, pelas razões que expliquei, suas vendas dependem mais do fato de que as pessoas estão projetando um enorme crescimento em IA.
CEOs de grandes empresas vêm dizendo que precisam aumentar a fabricação de chips em 100 vezes nos próximos dez anos. Essas coisas fizeram as ações subirem. O problema é que os data centers já estão sendo construídos. E também as usinas de energia para abastecê-los, porque um data center precisa de eletricidade assim que é construído.
Então, mesmo que nada disso aconteça com a IA, eles terão começado a construir e então desejarão usar essa infraestrutura, porque, do contrário, terão feito um péssimo negócio. Esse é o dano que eu acho que está sendo feito.
Não é possível multiplicar a produção de semicondutores por 100 porque, no máximo, podemos multiplicar por dois a capacidade de mineração dos materiais necessários. Então isso não vai acontecer. E é provável que todas essas pessoas saibam disso.
Todos podem saber que é uma bolha?
Sim. Mas causa muito dano porque dá à indústria de combustíveis fósseis a desculpa perfeita para produzir mais, para toda a energia que eles dizem que será necessária para algo que provavelmente nunca acontecerá.
Você acha que esses grandes modelos de linguagem não valem a pena, certo? Mesmo que sejam úteis para algumas coisas.
Sim, eu pessoalmente acho que a IA generativa que está sendo promovida pela OpenAI e pelo resto das empresas que competem com elas não é muito útil. Quero dizer, é útil para cenários específicos, mas quando você tem um cenário específico, você pode usar um modelo muito menor para fazer a mesma coisa.
Temos esses grandes modelos que podem fazer tudo para todos desde 2020 ou algo assim, e a produtividade global definitivamente não cresceu.
Empresas que usam Copilot e outros grandes modelos de linguagem para programação acham isso problemático, porque é muito mais difícil depurar [consertar] código que não foi escrito por seus próprios desenvolvedores, mas por uma máquina. Você pode pensar que o código será escrito mais rápido porque a máquina faz isso, mas a máquina não garante que ele esteja correto. Não pode. Um modelo de linguagem de IA generativa não tem noção do que as coisas significam.
E há muitas coisas assim. Se você observar a IA que gera imagens, ela pode parecer brilhante, mas na verdade é medíocre. Ele não pode substituir bons ilustradores porque quem quer uma ilustração de qualidade não pode usar isso. Queremos queimar o planeta para produzir ilustrações baratas?
Antes da IA generativa existir, as pessoas não a queriam. Foi um impulso tecnológico, não uma atração de mercado. O problema é que, ao criar essa tecnologia, estamos criando uma quantidade enorme de emissões extras em um momento em que não podemos nos dar ao luxo de fazer isso. As emissões devem diminuir. Se a IA generativa é útil ou não é irrelevante. Poderia ser extremamente útil, mas se ainda fizer o planeta queimar, não adianta.
E, pelos meus cálculos, se as projeções desses empresários se concretizarem, a IA sozinha seria suficiente para nos tirar de todas as metas climáticas. Como eu disse, é muito improvável que isso aconteça. Mas eles estão dizendo que não se importariam se isso acontecesse. E não podemos nos dar ao luxo desse aumento nas emissões.
Simples e claro.
Podemos pagar por modelos menores. Na ciência da computação, fazemos uma grande distinção entre o que preferimos chamar de aprendizado de máquina e o que está sendo chamado de IA, que geralmente é IA generativa.
OK. Acho que há muita confusão sobre isso. Você poderia explicar qual é a diferença?
O governo do Reino Unido também comete esse erro. Eles falam sobre como a IA pode fazer grandes coisas, como detectar câncer em uma imagem de ressonância magnética ou um raio X, e, portanto, precisamos construir mais centros de dados para IA generativa. Mas o SegNet, o modelo líder para detecção de câncer de cólon, com uma taxa de precisão de 99%, tem 7,6 milhões de parâmetros, enquanto o GPT4 tem mais de um bilhão.
Isso significa que o SegNet usa 100.000 vezes menos energia que o GPT4. Ele pode ser executado em um PC no hospital. Você não precisa construir nenhum data center para obter melhores diagnósticos. Apenas alguns servidores em hospitais.
E o que essas diferentes coisas que chamamos de IA têm em comum?
A maioria dos modelos hoje usa redes neurais. Uma rede neural é uma abstração inspirada no cérebro na qual, essencialmente, cada neurônio recebe alguns sinais ou entradas, que são números, os multiplica por pesos e então os soma, normaliza o resultado e o envia para outro neurônio. E se você fizer isso várias vezes, obterá algo que pode ser extrapolado para um espaço de parâmetros muito amplo. Então você é muito bom em... digamos, adivinhar coisas, mas é fazer aproximações estatísticas.
O modelo usado para detectar cânceres é uma rede neural convolucional. Esses são os usados para imagens. Aquelas usadas para textos são chamadas de redes neurais recorrentes. Em uma imagem, os pixels estão próximos uns dos outros. Em um texto, as palavras vêm uma após a outra. Grandes modelos de inteligência artificial generativa são versões muito mais avançadas desses dois tipos de redes neurais.
Um modelo que detecta um padrão em uma imagem não é o mesmo que um modelo generativo que precisa produzir um novo texto ou imagem. Isso dá mais trabalho. É por isso que os modelos generativos consomem mais energia, porque precisam fazer mais cálculos.
Li que podemos estar atingindo um limite nos dados disponíveis para treinar esses grandes modelos, e que não há muito mais a ser descoberto. Não sei se isso é verdade.
É pior que isso. Há muito conteúdo gerado por IA na internet atualmente. Esta não é minha especialidade, mas foi demonstrado que se você der a um modelo de IA conteúdo gerado por IA, ele tende a degradar seu desempenho muito rapidamente. Isso se chama envenenamento. Não é fácil evitar porque os bots de web scraping [ programas que coletam dados de páginas da web, neste caso para treinar IA] não conseguem dizer se uma página foi gerada por IA ou não. Isso significa que os melhores dados para modelos generalistas serão aqueles anteriores a 2022.
Além disso, você não pode simplesmente continuar fazendo modelos maiores, você tem que começar a fazer coisas como o que o DeepSeek fez. Na verdade, a OpenAI já estava fazendo coisas semelhantes. Ele tem um modelo com 1,76 trilhão de parâmetros, mas usa apenas 200 bilhões de cada vez. Simplesmente porque não é possível acessá-los todos de uma vez. O DeepSeek provou que você pode se sair bem com ainda menos.
De qualquer forma, você não pode continuar aumentando o tamanho deles e esperando que seu desempenho melhore, porque há limites tanto na qualidade dos dados quanto na engenharia necessária. Então, sim, os resultados provavelmente começarão a estagnar, mas não melhorarão muito.
Então a ideia de que podemos alcançar inteligência artificial geral a partir desses modelos…
Isso é absurdo. Aqueles que promovem essa ideia sabem que ela é uma distração. Eles dizem: "Ah, a IA vai ser muito perigosa, e precisamos implementar todos os tipos de salvaguardas para garantir que, se tivermos uma, ela se comporte corretamente". Essa é a distração perfeita para não ter que se preocupar com as reais consequências negativas desses produtos.
Não há possibilidade de um gerador de padrões estatísticos se tornar inteligente. Não há nada nesses modelos que realmente imite a inteligência.
Pensamos em inteligência artificial há mais de 50 anos. Muito profundamente. E acho que qualquer um que esteja fazendo isso concordaria que modelos de IA generativos, ou o que quer que chamemos de IA hoje, não são o tipo que nos levaria a um software autoconsciente .
Eles parecem inteligentes porque tudo o que sabemos está lá. Foi apresentado um resumo de todo o conhecimento que os humanos colocaram online nesses modelos. Então eles têm uma aproximação de tudo.