"A governança ética e a sustentabilidade também são questões críticas. Modelos avançados como os de IA generativa demandam infraestrutura computacional massiva, resultando em altos custos energéticos e ambientais, muitas vezes em regiões de alta pegada de carbono. Simultaneamente, a ausência de regulamentações globais sobre privacidade, vieses e usos militares da IA alimenta tensões geopolíticas, levantando o dilema entre inovação e mitigação de riscos", escrevem Lucia Santaella, Fabiana Raulino e Kalynka Cruz, em artigo enviado diretamente ao Instituto Humanitas Unisinos — IHU, 30-01-2025
Lucia Santaella é pesquisadora 1 A do CNPq, professora titular na pós-graduação em Comunicação e Semiótica e em Tecnologias da Inteligência e Design Digital (PUCSP). Doutora em Teoria Literária pela PUCSP e Livre-docente em Ciências da Comunicação pela USP. Fez doze estágios de pós-doutorado no exterior e foi professora e pesquisadora convidada em várias universidades europeias e latino-americanas. Já levou à defesa 285 mestres e doutores. Publicou 57 livros e organizou 34, além da publicação de quase 500 artigos no Brasil e no exterior. Recebeu os prêmios Jabuti (2002, 2009, 2011, 2014), o prêmio Sergio Motta (2005) e o prêmio Luiz Beltrão (2010).
Fabiana Raulino é doutoranda em Tecnologias da Inteligência e Design Digital pela PUC-SP, com pesquisa direcionada à coautoria e aprendizagem colaborativa com uso de Inteligência Artificial na Educação de Neo Humanos. Mestre em Engenharia de Produção pela UFSCAR. Especialista em Docência no Ensino Superior pela UNICID.Professora de Inteligência Artificial do MBA Executivo da Faculdade XP. Professora de Inteligência Artificial em Jogos Hiperrealistas na FAAP Digital.
Kalynka Cruz é professora e pesquisadora na Universidade Federal do Pará (UFPA) e atualmente pesquisadora visitante no Institut Mines-Télécom (França). Doutora em Sociologia pela École des Hautes Études en Sciences Sociales (EHESS/Paris), também possui mestrado em Tecnologias da Inteligência e Design Digital pela PUC-SP e especialização em Arte, Educação e Novas Tecnologias pela UnB. Coordena o Observatório Interinstitucional sobre Cibercultura e os Povos dos Rios e da Floresta, um projeto internacional e multidisciplinar financiado pelo CNPq, envolvendo instituições no Brasil e estrangeiras. Lidera o Grupo de Pesquisa Amazônia Digital (CNPq).
Em 27 de janeiro de 2025, foi lançado o DeepSeek, uma startup chinesa que apresentou um modelo de IA de alto desempenho e baixo custo, desenvolvido com um investimento, segundo a empresa, de apenas US$ 5,6 milhões (Agência Brasil, 2025). O sucesso da DeepSeek desafiou a supremacia das gigantes americanas no setor de inteligência artificial (IA), o que provocou um impacto entre investidores sobre a possível perda de influência das empresas dos EUA nesse domínio tecnológico.
Não por acaso, o mercado financeiro global sofreu uma significativa desvalorização nas ações de empresas de tecnologia dos Estados Unidos, resultando em uma perda acumulada de aproximadamente US$ 1 trilhão em valor de mercado. Foi fartamente noticiado que a Nvidia, renomada fabricante de chips de inteligência artificial (IA), arcou com uma queda de 17% em suas ações, correspondendo a uma redução de US$ 589 bilhões em sua capitalização, a maior já registrada por uma única empresa em um único dia no mercado acionário americano. Além da Nvidia, outras empresas de tecnologia, como Meta e Alphabet, também registraram quedas significativas em suas ações, refletindo a apreensão do mercado diante do avanço chinês na área de inteligência artificial (O Globo, 2025).
Este texto busca explicar o porquê da ferramenta DeepSeek ter gerado tamanho impacto no mercado, além de aparecer como uma ótima alternativa gratuita para o Brasil e, especialmente, como é possível extrair o melhor daquilo que essa tecnologia tem a dar. Nosso objetivo é explicar o que são os MoEs (Mixture of Experts) utilizados pela DeepSeek, que estão na base de um funcionamento diferenciado de outros modelos produzidos no Vale do Silício, especialmente o mais popular dentre eles, o ChatGPT4, de resto, um modelo pago. Por fim, algumas reflexões serão apresentadas sobre a importância de obtermos letramento digital sobre o uso dessas tecnologias para elaborarmos comandos semanticamente precisos e estrategicamente otimizados, garantindo maior eficiência e relevância nas interações com sistemas cognitivos especializados.
Este artigo foi escrito em janeiro de 2025. A localização temporal torna-se um elemento essencial quando se trata de discutir quaisquer aspectos da IA, isto porque é necessário situar o leitor e fundamentar as análises realizadas, permitindo compreender as discussões nesse campo em constante transformação.
Este LLM (Large Language Model) chinês, desenvolvido pela empresa de mesmo nome em Hangzhou, explícita ou implicitamente traz consigo a promessa de rivalizar — e até superar — o desempenho de outros Chats, inclusive o ChatGPT, mesmo em sua versão paga (GPT-4) (Steibel et al, 2025). Para aqueles que já o experimentaram, o que mais chama atenção é o fato de um modelo gratuito alcançar níveis de qualidade comparáveis a um sistema amplamente reconhecido e financeiramente robusto, levantando a pergunta: como isso seria possível, considerando que o DeepSeek foi treinado com um custo significativamente menor?
Para contextualizar, a empresa afirma que o treinamento do DeepSeek R1 custou cerca de US$ 5,6 milhões, uma fração ínfima quando comparada aos gastos declarados pela Meta ao treinar o Llama, que utilizou dezenas de milhares de chips Nvidia e investimentos expressivamente maiores (Dave; Knight, 2024). Elon Musk contestou a informação e disse que isso seria impossível. Em contraste, o DeepSeek aproveitou um conjunto de mais de 2.000 chips Nvidia, um número surpreendentemente baixo para modelos dessa magnitude.
A chave para essa eficiência impressionante deve estar na arquitetura que fundamenta o modelo, um marco na era dos modelos de IA: o Mixture of Experts (MoE). Com isso, o DeepSeek simboliza uma mudança de paradigma no desenvolvimento de LLMs, mostrando que excelência não está necessariamente atrelada a recursos financeiros exorbitantes, mas sim a inovações arquitetônicas. Sua adoção do MoE desafia a supremacia das arquiteturas transformer tradicionais, demonstrando que é possível equilibrar profundidade, especialização e eficiência computacional (Cai, 2024).
É possível prever que, mesmo que existam esforços para conter o avanço do DeepSeek, como ocorreu com plataformas como o TikTok ou com as restrições comerciais impostas por empresas norte-americanas de semicondutores ao mercado chinês, sua arquitetura open source já está disponível e sendo amplamente explorada pela comunidade global de desenvolvedores (Sanseviero, 2023). Essa abertura torna inviável restringir ou centralizar seu uso, permitindo que o modelo seja adaptado, aprimorado e integrado a diversas aplicações sem depender de uma única entidade ou jurisdição. Essa característica consolida o DeepSeek.
De acordo com Krishnamurthy et al (2023), o diferencial técnico da abordagem Mixture of Experts (MoE) está na capacidade de dividir o trabalho entre diferentes "especialistas" — partes do modelo treinadas para lidar com tipos específicos de dados ou tarefas. Ao invés de utilizar um único modelo monolítico para processar todas as entradas, o MoE distribui a carga computacional, ativando apenas os especialistas mais relevantes para a tarefa em questão. Essa ativação seletiva não apenas melhora a eficiência, mas também possibilita a especialização sem aumentar o custo computacional de maneira linear.
Em 2024, os MoEs ganharam relevância significativa com o lançamento de modelos como Mixtral-8x7B, Grok-1, DBRX, Arctic, e o DeepSeek-V2, todos adotando essa abordagem para maximizar eficiência e precisão. Esses avanços destacaram a capacidade dos MoEs de reduzir os limites impostos por arquiteturas tradicionais, abrindo novas possibilidades em escala, especialização e acessibilidade (Cai, 2024).
A inovação dos MoEs está na substituição das camadas tradicionais de redes neurais feedforward (FFN) por camadas especializadas (MoE). Em modelos baseados em transformers, como os LLMs (Large Language Models), essas camadas MoE são compostas por várias subredes independentes, denominadas "especialistas". Cada especialista é uma rede neural dedicada, com seu próprio conjunto de pesos, treinada para executar um tipo específico de processamento (Grootendorst, 2024).
O processo central dos MoEs envolve um mecanismo conhecido como gating function. Esse componente atua como um roteador dinâmico, decidindo quais especialistas devem ser ativados para cada entrada específica, com base em características dos dados ou tokens processados. Esse mecanismo é o que permite aos MoEs oferecer maior especialização em áreas específicas, ao mesmo tempo que minimizam custos computacionais desnecessários (Grootendorst, 2024). Em contraste com redes neurais tradicionais, onde cada camada utiliza todos os nós para processar uma entrada, um modelo MoE emprega apenas um subconjunto de especialistas para lidar com cada tarefa.
Por exemplo, em uma entrada relacionada a uma linguagem de programação como Python, o modelo pode ativar especialistas focados em sintaxe de código, lógica computacional e análise semântica, enquanto ignora especialistas voltados para processamento de linguagem natural ou dados numéricos. Essa ativação seletiva permite que o modelo escale sem que o custo computacional cresça proporcionalmente.
A eficiência dos MoEs também se reflete na otimização de recursos durante o treinamento. Em vez de treinar um modelo menor por mais etapas, os MoEs permitem que modelos maiores sejam treinados em menos iterações (iteration), otimizando o orçamento computacional. Essa abordagem tem demonstrado ser mais eficaz para melhorar a qualidade final do modelo, especialmente quando se trata de LLMs em larga escala (Sanseviero et al, 2023).
Além disso, o DeepSeek e outros modelos MoE priorizam eficiência energética e acessibilidade, utilizando GPUs de forma inteligente e escalável. A arquitetura suporta até 338 linguagens de programação, com foco na inclusão de múltiplos contextos, ao mesmo tempo que mantém uma abordagem open source, permitindo que a comunidade técnica participe ativamente de sua evolução (Zhu et al., 2024).
Uma característica impressionante dos MoEs, exemplificada pelo DeepSeek-V3, é a transparência em suas operações. Ao solicitar, por exemplo, a geração de um código em Python, o modelo não apenas entrega o resultado, mas também fornece uma explicação detalhada de como está pensando (thinking) ao processar o comando. Esse comportamento reflete o avanço dos MoEs em transformar sistemas de IA em verdadeiros especialistas cognitivos, capazes de contextualizar e justificar suas respostas (Zhuu et al., 2024).
Para melhor compreensão dos MoEs, compartilhamos a tradução de uma analogia que encontramos em uma publicação do LinkedIn, muito interessante pela didática. Ela foi criada por Harsha Kudaravalli, que esclarece as diferenças fundamentais entre as arquiteturas do GPT-4 e do DeepSeek com a seguinte analogia: imagine que ambos os modelos têm 100 pessoas respondendo aos seus comandos.
No caso do GPT, essa abordagem seria equivalente a 100 colaboradores generalistas, cada um tentando contribuir com uma resposta razoável, mas sem um foco profundo em um tema específico. Já no DeepSeek, esses 100 colaboradores seriam especialistas altamente qualificados, cada uma com um domínio aprofundado em uma área específica, sendo ativadas apenas quando sua expertise é relevante para a tarefa. Essa analogia nos ajuda a visualizar como as redes neurais diferem na maneira como processam e distribuem informações, ilustrando o salto qualitativo que o DeepSeek oferece ao adotar a arquitetura Mixture of Experts.
Para entender a magnitude dessa diferença, é útil considerar como um modelo como o GPT-4 opera. Em termos simplificados, seria como ter milhares de colaboradores generalistas respondendo a um prompt, mas sem ativar um conhecimento específico a menos que o usuário forneça instruções explícitas e contextualizadas.
O MoE, por outro lado, propõe um paradigma fundamentalmente diferente. Inspirado pelo trabalho seminal de Jacobs e Nowlan (1991) e Jordan e Jacobs (1994), Cai et al. (2024) apresentaram o artigo “A Survey on Mixture of Experts” no qual o MoE é explicitado no tempo atual com seus componentes especializados, denominados "experts". Esses experts não trabalham simultaneamente, ou seja, apenas os componentes mais relevantes para uma tarefa específica são ativados em um dado momento. Isso resulta em uma redução significativa nos custos computacionais, permitindo uma utilização mais eficiente dos recursos disponíveis, ao mesmo tempo que entrega respostas altamente especializadas.
Para compreender melhor como o DeepSeek opera em sua arquitetura, é necessário explorar a maneira como modelos de linguagem processam prompts. No caso de LLMs como o GPT-4, a base está no transformer, uma estrutura de autoatenção introduzida no artigo revolucionário “Attention is All You Need” (Vaswani et al., 2017). Essa arquitetura utiliza mecanismos que avaliam a relevância de cada palavra dentro de uma frase, atribuindo pesos matemáticos a tokens e identificando relações semânticas em um espaço multidimensional. Quando o usuário digita um comando, o modelo analisa a ordem das palavras, suas conexões e o peso semântico relativo para gerar a melhor resposta possível.
De acordo com a análise feita na plataforma de desenvolvedores Hugging Face por Sanseviero (2023), o DeepSeek, ao adotar o MoE, leva esse processo a um novo patamar por usar a esparsidade. A esparsidade usa a ideia de computação condicional, portanto, enquanto em modelos densos todos os parâmetros são usados para todas as entradas, a esparsidade nos permite executar apenas algumas partes de todo o sistema.
Aqui, a escolha semântica feita pelo usuário no prompt assume ainda mais importância. Cada palavra no comando pode ativar experts diferentes, dependendo de sua relevância. Assim, enquanto o transformer distribui atenção de forma ampla para todas as partes da entrada, o MoE atua de forma seletiva, como se delegasse partes da tarefa para especialistas específicos que melhor entendem aquele contexto, ou seja, o MoE mantém o mecanismo de atenção do transformer, mas otimiza a computação ao ativar seletivamente subredes especializadas para cada entrada e, portanto, reduzindo o custo computacional.
Por exemplo, um prompt técnico sobre medicina pode ativar subredes especializadas em terminologia médica e processamento de linguagem científica, enquanto uma solicitação relacionada à criação artística pode acionar especialistas em análise estética e composição criativa. Esse mecanismo de ativação condicional permite que o DeepSeek equilibre profundidade analítica e eficiência operacional, gerando respostas detalhadas sem comprometer recursos computacionais.
Além de sua arquitetura MoE, a eficiência do DeepSeek também pode ser atribuída a sua estratégia de treinamento. Enquanto modelos densos exigem o uso de todos os parâmetros para cada entrada, o DeepSeek utiliza uma arquitetura esparsa, ativando dinamicamente apenas os especialistas relevantes por cada inferência. Essa abordagem seletiva reduz drasticamente a redundância, resultando, ademais, em menos consumo energético e menores custos de treinamento (Dai, 2024, p. 8).
Em última análise, o sucesso de tecnologias como o DeepSeek reforça a importância de integrar inovações técnicas com uma compreensão profunda da semântica e do potencial que reside em cada prompt, reafirmando que, no campo da IA, o verdadeiro diferencial está no equilíbrio entre eficiência e especialização. Ao analisar os MoEs do DeepSeek, torna-se evidente que o futuro dos modelos de linguagem aponta para uma especialização crescente, integrada à capacidade de personalização pelos usuários.
No entanto, ao considerar o nosso português como língua principal, por exemplo, enfrentamos um desafio significativo: esses modelos são amplamente treinados em inglês, uma língua que não reflete completamente nossas especificidades linguísticas, culturais e contextuais. Isso muitas vezes resulta em respostas que ignoram nuances linguísticas e complexidades, no nosso caso, da língua e cultura brasileiras de que a língua é inseparável. Para compensar essa lacuna, nossos comandos precisam ser mais longos, detalhados e cuidadosamente elaborados, para orientar os especialistas internos do modelo a operar de forma mais precisa e eficiente em nosso idioma.
O cuidado na semântica e sintaxe pode transformar resultados medianos em criações avançadas que dependem da clara expressão verbal de nossas necessidades (Chan et al., 2024). Grande parte dos usuários não chega a explorar esse conteúdo, seja pela falta de hábito de leitura, pela dificuldade em navegar na complexidade das opções oferecidas, por desconhecimento ou pelo fato de as interfaces dessas ferramentas serem tão intuitivas e simples que geram a falsa impressão de que não há necessidade de especialização. Entretanto, a realidade mostra que essa especialização é crucial para alcançar resultados verdadeiramente diferenciados (essa documentação encontra-se nas próprias plataformas) (Labate e Cozman, 2024).
De acordo com Chan et al (2024, s/p), a acessibilidade das ferramentas, por mais intuitivas que pareçam, frequentemente esconde dependência de conhecimento técnico. Documentações e a necessidade de entender conceitos subjacentes tornam-se uma vantagem competitiva para aqueles que dedicam tempo à aprendizagem e prática. Por exemplo, entender como construir um comando que especifique ângulos de câmera em um vídeo ou a paleta de cores de uma imagem permite ao especialista produzir resultados que superam em muito os padrões oferecidos pelas interações básicas.
Os desafios das IAs generativas refletem a complexidade de um mundo cada vez mais interconectado, mas profundamente desigual. A concentração de poder econômico e tecnológico nas mãos de grandes corporações e países desenvolvidos perpetua disparidades no acesso a infraestrutura, dados e conhecimento técnico. Enquanto Estados Unidos, China e União Europeia lideram a corrida, países em desenvolvimento enfrentam barreiras estruturais que dificultam sua soberania digital, agravando desigualdades socioeconômicas e culturais (Tao et al., 2024, p. 4).
Além disso, a falta de diversidade nos times de desenvolvimento e a exclusão de línguas e contextos locais resultam em soluções que não atendem à complexidade das comunidades globais, criando um abismo digital que compromete o potencial inclusivo dessas tecnologias (Tao et al., 2024, p. 4).
Ao analisar a trajetória do DeepSeek e seu enorme impacto no mercado, torna-se evidente que o futuro dos modelos de linguagem caminha para uma maior especialização, alinhada à capacidade de personalização por parte dos usuários. E não é só isso: para brasileiros, ter um modelo gratuito e aberto cria inúmeras oportunidades novas e faz com que a DeepSeek possa provavelmente ser a melhor alternativa de uso, muito além do que IAs como Claude e Perplexity conseguiram.
A governança ética e a sustentabilidade também são questões críticas. Modelos avançados como os de IA generativa demandam infraestrutura computacional massiva, resultando em altos custos energéticos e ambientais, muitas vezes em regiões de alta pegada de carbono. Simultaneamente, a ausência de regulamentações globais sobre privacidade, vieses e usos militares da IA alimenta tensões geopolíticas, levantando o dilema entre inovação e mitigação de riscos (Andrade e Röhe, 2023, p. 51). Somado a isso, controles de exportação de tecnologias avançadas reforçam o domínio de poucos atores e dificultam a inovação em regiões menos desenvolvidas. Para enfrentar esses desafios, é imprescindível um esforço global que priorize inclusão, ética e sustentabilidade, garantindo que os avanços da IA beneficiem a todos, e não apenas uma parcela privilegiada (Andrade e Röhe, 2023, p. 54).
O DeepSeek, de fato, ao se diferenciar pelo uso inteligente de recursos computacionais, pelo foco em especialização e pela capacidade de adaptar-se ao contexto, abre um novo capítulo na história dos LLMs. Com um treinamento acessível, uma abordagem open source, e uma comunidade ativa de desenvolvedores, o DeepSeek se consolida como um modelo inclusivo, eficiente e disruptivo. No entanto, ele também escancara desafios fundamentais, como a necessidade de linguagens e culturas menos representadas se adaptarem às lacunas nos dados de treinamento. Para usuários da nossa língua portuguesa, por exemplo, elaborar prompts mais detalhados e direcionados é um requisito para maximizar o potencial desses sistemas.
O poder dessas ferramentas está intrinsecamente ligado à capacidade humana de explorar seu potencial com criatividade e profundidade. Assim como os especialistas internos do MoE são ativados pelo contexto, os humanos, ao interagir com essas tecnologias, precisam se posicionar como mentores que guiam o conhecimento gerado pela IA, moldando-o com base em suas intenções e necessidades.
A construção de um futuro sustentável requer a implementação de ações educacionais coordenadas que democratizem o conhecimento e fomentem a alfabetização digital, garantindo que todas as pessoas tenham acesso às ferramentas necessárias para atuar de forma crítica e ativa na transformação digital e socioeconômica. Não cumpriremos esse compromisso se não estruturarmos modelos educacionais inclusivos e acessíveis, capazes de preparar indivíduos para um mundo no qual a simbiose entre humanidade e tecnologia seja conduzida com responsabilidade e visão sistêmica.
AGÊNCIA BRASIL. Startup chinesa de IA gera tombo global em ações de tecnologia. 2025. Disponível aqui. Acesso em: 28 jan. 2025.
ANDRADE, Gabriela; RÖHE, Anderson. A inteligência artificial e os direitos fundamentais. TECCOGS – Revista Digital de Tecnologias Cognitivas, n. 28. 2023, p. 45–55.
CAI, Weilin et al. A survey on mixture of experts. arXiv preprint arXiv:2407.06204, 2024. Disponível aqui. Acesso em: 28 jan. 2025.
CHAN, Chunkit et al. Persona Knowledge-Aligned Prompt Tuning Method for Online Debate. arXiv preprint arXiv:2410.04239, 5 out. 2024. Disponível aqui. Acesso em: 28 jan. 2025.
DAI, Damai et al. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. 2024. Disponível aqui. Acesso em: 28 jan. 2025.
DAVE, Paresh; KNIGHT, Will. Meta's Next Llama AI Models Are Training on a GPU Cluster 'Bigger Than Anything' Else. Wired, 31 out. 2024. Disponível aqui. Acesso em: 29 jan. 2025.
GROOTENDORST, Maarten. A visual guide to mixture of experts (MoE). Exploring Language Models, 7 out. 2024. Disponível aqui. Acesso em: 28 jan. 2025.
JACOBS, Robert A. et al. Adaptive mixtures of local experts. Neural Computation, v. 3, n. 1, p. 79–87, 1991. Disponível aqui. Acesso em: 28 jan. 2025.
JORDAN, Michael I.; JACOBS, Robert A. Hierarchical mixtures of experts and the EM algorithm. Neural Computation, v. 6, n. 2, p. 181–214, 1994.
JORNAL NACIONAL. Anúncio do sucesso da China com desenvolvimento de IA derruba preços de ações de empresas de tecnologia dos EUA e da Europa. Disponível aqui. Acesso em: 28 jan. 2025.
KRISHNAMURTHY, Yamuna; WATKINS, Chris; GÄRTNER, Thomas. Improving Expert Specialization in Mixture of Experts. 2023. Disponível aqui. Acesso em: 28 jan. 2025.
KUDARAVALLI, Harsha. ChatGPT's transformer vs. DeepSeek's MoE architecture. LinkedIn, 2025. Disponível aqui. Acesso em: 28 jan. 2025.
LABATE, Anton Bulle; COZMAN, Fabio Gagliardi. Infusing Prompts with Syntax and Semantics. 2024. Disponível aqui. Acesso em: 28 jan. 2025.
MIDJOURNEY. Prompts. Midjourney Documentation, 2025. Disponível aqui. Acesso em: 28 jan. 2025.
OGLOBO. Não foi só a Nvidia: índice de empresas de tecnologia nos EUA perde US$ 1 trilhão em um dia com avanço chinês em IA. Disponível aqui. Acesso em: 28 jan. 2025.
OPENAI. Prompt engineering best practices for ChatGPT. OpenAI Help Center, [S.l.], 2024. Disponível aqui. Acesso em: 28 jan. 2025.
ORGANIZAÇÃO DAS NAÇÕES UNIDAS (ONU). Declaração da Conferência das Nações Unidas sobre o Meio Ambiente Humano. Estocolmo, 1972. Disponível aqui. Acesso em: 28 jan. 2025.
RUNWAY. Gen-3 Alpha prompting guide. Runway Help Center, 2025. Disponível aqui. Acesso em: 28 jan. 2025.
SANSEVIERO, Omar et al. Mixture of experts explained. Hugging Face Blog, 11 dez. 2023. Disponível aqui. Acesso em: 28 jan. 2025.
STEIBEL, Marcelo; CRUZ, Danilo; NAKAMURA, João. DeepSeek: China jogou mercado de IA de pernas para o ar, diz Steibel ao WW. CNN Brasil, 2025. Disponível aqui. Acesso em: 28 jan. 2025.
TAO, Yan; VIBERG, Olga; BAKER, Ryan S.; KIZILCEC, René F. Cultural bias and cultural alignment of large language models. PNAS Nexus, [S.l.], v. 3, n. 9, p. e346, 17 set. 2024. Disponível aqui. Acesso em: 28 jan. 2025.
VASWANI, Ashish et al. Attention is all you need. In: Advances in Neural Information Processing Systems, 2017. Disponível aqui. Acesso em: 28 jan. 2025.
ZHU, Qihao et al. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv preprint arXiv:2406.11931, 17 jun. 2024. Disponível aqui. Acesso em: 28 jan. 2025.