Você digita uma pergunta no ChatGPT, no Gemini ou no Claude, aperta enter e a resposta brota em segundos. Parece mágica. Não é. Por trás daquele texto há matemática pesada, galpões do tamanho de quarteirões cheios de chips quentes e uma corrida de bilhões de dólares entre as maiores empresas dos Estados Unidos. Este guia abre a caixa-preta peça por peça, num português direto, para o brasileiro que usa essas ferramentas todo dia mas nunca parou para entender o que acontece do lado de dentro. Tudo aqui foi apurado em 27 de junho de 2026, e os números mais voláteis vêm datados de propósito, porque mudam rápido.
Como a IA funciona por dentro
Comece pelo conceito que sustenta quase tudo: o aprendizado de máquina (machine learning). Em vez de um programador escrever, linha a linha, todas as regras que o computador deve seguir, ele mostra ao sistema milhares ou milhões de exemplos e deixa o próprio sistema descobrir os padrões. Você não ensina a regra; você ensina pelo exemplo. A IBM resume bem a relação: todo aprendizado de máquina é inteligência artificial, mas nem toda IA é aprendizado de máquina.
Dentro desse ramo existe um subconjunto mais poderoso, o aprendizado profundo (deep learning), construído sobre redes neurais. O nome vem da inspiração no cérebro humano: as redes imitam, de forma simplificada, como os neurônios se sinalizam uns aos outros. O que torna uma rede "profunda" é a quantidade de camadas empilhadas — precisa ter mais de três. Cada camada extrai um nível de padrão mais abstrato que a anterior, e o modelo aprende sozinho o que procurar, sem um humano dizer "olhe para isto aqui".
Pesos, parâmetros e o que "aprender" significa
Quando se diz que um modelo "aprende", o que muda de fato são os parâmetros, também chamados de pesos e vieses. Eles são apenas números, geralmente decimais como 0,543 ou -0,891. Cada peso influencia como o modelo decide qual palavra vem a seguir. Os grandes modelos de linguagem — os LLMs, como os que rodam por trás do GPT, do LLaMA e do Mistral — contêm bilhões desses números. A quantidade de parâmetros é um dos principais indicadores da complexidade de um modelo. O GPT-3.5, por exemplo, tem cerca de 175 bilhões de parâmetros. Os modelos de ponta de hoje já vão da casa das centenas de bilhões aos trilhões.
Treino e uso são duas fases diferentes
Há dois momentos bem distintos na vida de um modelo. No treino, a rede passa os dados pelas camadas e ajusta cada peso conforme um retorno de "acertou" ou "errou", repetindo isso bilhões de vezes. A NVIDIA usa a imagem da escola em sessão: é a fase de aprender, e é absurdamente pesada em cálculo. Treinar o Llama 3.1, segundo a empresa, exigiu 3,8 × 10²⁵ operações matemáticas. Depois vem a inferência: o modelo já treinado aplica o que aprendeu para responder sobre dados novos — é o que acontece quando você manda sua pergunta. Como diz a NVIDIA, a inferência não existe sem o treino que veio antes.
Por que tudo isso precisa de GPU
No fundo, treinar e rodar IA se resume a multiplicar matrizes e vetores — montanhas de continhas que podem ser feitas todas ao mesmo tempo. É aí que entra a GPU, a placa gráfica. Uma CPU comum tem poucos núcleos muito potentes, ótimos para tarefas em sequência. A GPU tem milhares de núcleos menores, desenhados para matemática paralela. Em vez de fazer uma conta de cada vez, ela faz milhares simultaneamente. As GPUs da NVIDIA ainda trazem os chamados Tensor Cores, especializados em multiplicação de matrizes, que aceleram esse trabalho em até cerca de vinte vezes em relação aos núcleos comuns. É essa arquitetura que transformou o treino de IA, antes impraticável, em algo viável.
Tokens: a moeda da conversa
Um detalhe que confunde muita gente: o modelo não lê palavras nem letras, e sim tokens, pedaços de texto que podem ser uma palavra inteira, um fragmento de palavra ou um único caractere. A regra prática da OpenAI ajuda: em inglês, 1 token equivale a mais ou menos 4 caracteres, e 100 tokens correspondem a cerca de 75 palavras. O GPT usa uma técnica chamada Byte-Pair Encoding, que monta seu vocabulário juntando os pares de caracteres mais frequentes — assim consegue lidar até com palavras raras e erros de digitação, quebrando-as em pedaços conhecidos. Tokens importam pelo bolso: tanto o custo de cada pedido quanto a "janela de contexto" (quanto o modelo consegue ler de uma vez) são medidos nessa unidade.
A escala explodiu, mas o custo de uso despencou. Segundo o AI Index 2025, do Stanford HAI, o poder de computação usado para treinar os principais modelos dobra a cada cinco meses, e o tamanho dos conjuntos de dados dobra a cada oito. Ao mesmo tempo, consultar um modelo no nível do GPT-3.5 caiu de US$ 20,00 por milhão de tokens em novembro de 2022 para US$ 0,07 por milhão em outubro de 2024 — uma queda de mais de 280 vezes. Treinar os maiores modelos de fronteira, porém, passa de US$ 100 milhões, conta que só gigantes pagam. Daí a corrida por dezenas de milhares de GPUs.
Os tipos de IA: do que existe ao que ainda é ficção
A IBM organiza a inteligência artificial em três degraus de capacidade. O primeiro é a IA estreita (ANI, também chamada de IA fraca): treinada e focada em tarefas específicas. É praticamente toda a IA que existe hoje. A Siri, a Alexa, os carros autônomos, os filtros de spam e até os LLMs e as ferramentas de IA generativa se encaixam aqui — são brilhantes em seu domínio e perdidos fora dele.
O segundo degrau é a IA geral (AGI, ou IA forte): um sistema capaz de entender o mundo e resolver problemas de qualquer natureza com a flexibilidade de uma pessoa. Tanto a IBM quanto o Stanford afirmam que a AGI verdadeira ainda não foi construída — continua hipotética. O terceiro é a superinteligência artificial (ASI), um estágio futuro, também hipotético, em que as máquinas superariam os humanos em tudo, da criatividade à inteligência emocional. Vale separar as coisas: um sistema com inteligência de um humano mediano já seria AGI, sem ser superinteligente. Quando executivos do setor cravam datas para a AGI, trate como opinião, não como fato apurado.
Os sabores da IA estreita
Dentro do que já funciona, há famílias com nomes que valem conhecer. A IA generativa cria conteúdo novo — texto, imagem, som, animação, modelos 3D — a partir de uma instrução, apoiada nas redes transformer. O ChatGPT escreve uma redação a partir de um pedido curto; o Stable Diffusion produz imagens realistas a partir de uma descrição. A visão computacional ensina máquinas a enxergar: ela segmenta (classifica cada pixel como carro, rua ou pedestre), classifica (o que é a imagem) e detecta (onde estão os objetos), com uso em diagnóstico médico, carros autônomos e controle de qualidade na indústria. E o processamento de linguagem natural (PLN) lida com texto e voz para entender intenção e gerar resposta — está no corretor ortográfico, na tradução automática e na busca semântica.
O ritmo de avanço dessas máquinas surpreende quem olha os números. O AI Index 2025 registrou que, no SWE-bench, um teste de engenharia de software real, os modelos saltaram de 4,4% de problemas resolvidos em 2023 para 71,7% em 2024. O investimento privado global em IA chegou a US$ 252,3 bilhões em 2024. Os exemplos mudam depressa: a Sora 2, da OpenAI, modelo de texto-para-vídeo lançado em 30 de setembro de 2025, teve seu aplicativo próprio descontinuado em 26 de abril de 2026 (o modelo seguiu disponível dentro do ChatGPT). O mercado de vídeo migrou para concorrentes como o Google Veo 3, capaz de gerar clipes em 4K com diálogo e som a partir de um único comando.
Quem manda no jogo: as empresas de IA dos Estados Unidos
O setor americano de IA está concentrado em um punhado de nomes, e o ranking muda a cada rodada de investimento. A OpenAI, criadora do ChatGPT, captou US$ 122 bilhões em 31 de março de 2026, a um valuation de US$ 852 bilhões; seu modelo de ponta é o GPT-5.4, e o ChatGPT passa de 900 milhões de usuários ativos por semana. A Anthropic, que faz o assistente Claude, captou US$ 65 bilhões em 28 de maio de 2026, alcançando US$ 965 bilhões de valuation, entre as startups de IA mais valiosas, com receita anualizada acima de US$ 47 bilhões.
O Google DeepMind toca a família Gemini: o Gemini 3.1 Pro chegou em 19 de fevereiro de 2026 com janela de 1 milhão de tokens, acompanhado de uma versão rápida e barata, o Gemini 3 Flash. A Meta, dona da linha aberta Llama, montou os Meta Superintelligence Labs (com Alexandr Wang como diretor de IA) e, em abril de 2026, lançou o Muse Spark, seu primeiro modelo fechado, destinado a substituir o Llama e alimentar WhatsApp, Instagram e Facebook; a empresa projeta gastar de US$ 115 a 135 bilhões em IA em 2026.
A Microsoft, dona do Copilot e grande investidora da OpenAI, renegociou o acordo com a parceira em 27 de abril de 2026. A empresa também diversificou: anunciou no fim de 2025 um aporte de até US$ 5 bilhões na Anthropic e passou a usar o Claude em parte do Copilot. A xAI, de Elon Musk, dona do chatbot Grok, captou US$ 20 bilhões em janeiro de 2026 e chegou a cerca de 117 milhões de usuários mensais. A Amazon ampliou em 20 de abril de 2026 seu aporte na Anthropic em mais US$ 5 bilhões e oferece seus próprios modelos Nova via Bedrock, enquanto a Anthropic se comprometeu a gastar mais de US$ 100 bilhões em tecnologia AWS ao longo de dez anos.
No andar de baixo, onde mora o silício, dois nomes dominam. A NVIDIA detém mais de 80% do mercado de GPUs para data center. A AMD, a vice, fechou em outubro de 2025 um acordo para fornecer 6 gigawatts de GPUs Instinct à OpenAI — potencial de cerca de US$ 100 bilhões em receita —, com os primeiros chips MI450 começando a ser instalados no segundo semestre de 2026.
Como a IA fez a NVIDIA virar gigante
Nenhuma empresa lucrou tanto com a explosão da IA quanto a NVIDIA. No primeiro trimestre do seu ano fiscal de 2027, encerrado em 26 de abril de 2026, o segmento de Data Center faturou US$ 75,2 bilhões, alta de 92% em um ano. A receita total da empresa bateu o recorde de US$ 81,6 bilhões, com lucro líquido de US$ 58,3 bilhões. No ano fiscal de 2026 completo, foram US$ 215,9 bilhões de receita, dos quais US$ 193,7 bilhões só de data center.
O reflexo na bolsa foi histórico. Em 29 de outubro de 2025, a NVIDIA virou a primeira empresa a valer mais de US$ 5 trilhões em mercado, depois de cruzar US$ 1 trilhão em junho de 2023. Em 26 de junho de 2026, seu valor de mercado rondava US$ 4,663 trilhões, ainda a empresa mais valiosa do mundo — número que oscila todo dia com a ação.
O verdadeiro segredo da NVIDIA, porém, não está só no chip, e sim no software. A plataforma CUDA, construída ao longo de quase vinte anos, tem mais de 4 milhões de desenvolvedores e bibliotecas integradas a praticamente todos os frameworks de IA, como PyTorch e TensorFlow. Trocar de fornecedor significa reescrever muita coisa — caro e arriscado. Do lado do hardware, a evolução é brutal: o H200 foi a primeira GPU com 141 GB de memória HBM3e, quase o dobro do H100; a GPU Blackwell B200 traz 192 GB e entrega cerca de 10 petaflops, contra 4 do H100. No terceiro trimestre fiscal de 2026, o CEO Jensen Huang disse que as vendas de Blackwell estavam "fora da escala" e que as GPUs em nuvem estavam esgotadas.
A bolha da IA: os dois lados da mesa
Com tanto dinheiro entrando, cresceu o temor de uma bolha parecida com a das pontocom. O FMI alertou em outubro de 2025 para esse risco, mas com uma ressalva importante: ao contrário dos anos 1990, a aposta atual não é bancada por dívida, então uma correção castigaria acionistas sem ameaçar tanto o sistema financeiro. O Banco da Inglaterra avisou que o risco de uma "correção acentuada" subiu, com valuations esticados, e em dezembro reforçou a preocupação com a parte do gasto financiada por dívida. Jerome Powell, do Fed, ponderou que a IA difere da bolha pontocom porque "as empresas tão valorizadas de fato têm lucros", embora tenha reconhecido que os preços das ações estão, por várias medidas, bastante altos.
O argumento mais citado pelos pessimistas vem de um estudo do MIT (Project NANDA), de julho de 2025: 95% dos projetos-piloto corporativos de IA generativa não geraram retorno mensurável, apesar de US$ 30 a 40 bilhões investidos. Vale a ressalva de que o estudo usa uma definição estreita de sucesso. Há também o financiamento circular que incomoda analistas: a NVIDIA anunciou investir até US$ 100 bilhões na OpenAI, que por sua vez fechou centenas de bilhões em contratos de nuvem com Oracle e Microsoft, acumulando US$ 1,4 trilhão em compromissos de computação. A OpenAI teve cerca de US$ 13 bilhões de receita em 2025 e perdas operacionais de US$ 20,9 bilhões no mesmo ano.
Do outro lado, Jensen Huang rejeita o paralelo com a Cisco de 1999. A NVIDIA tem lucros reais e recordes, e em memorando a analistas, em novembro de 2025, argumentou que suas GPUs se depreciam em 4 a 6 anos de uso real e que seus aportes estratégicos são fração pequena da receita. Quem encarna o pessimismo é Michael Burry, o investidor de "A Grande Aposta", que comprou mais de US$ 1 bilhão em opções apostando contra NVIDIA e Palantir e chamou o boom de "loucura gloriosa". Um dado dá tamanho ao medo: ao fim de 2025, as cinco maiores empresas sustentavam cerca de 30% do S&P 500, a maior concentração em meio século. A favor da prudência, porém, fica um contraste técnico: a NVIDIA negociava a cerca de 47 vezes o lucro em fevereiro de 2026, contra mais de 200 vezes da Cisco em 2000.
O desafio invisível: energia, água e resfriamento
Toda essa computação consome eletricidade em escala de país. A Agência Internacional de Energia projeta que a demanda elétrica dos data centers mais que dobre até 2030, de cerca de 415 TWh em 2024 para 945 TWh — mais do que o Japão inteiro consome hoje, perto de 3% da eletricidade global. O consumo cresce cerca de 15% ao ano, mais de quatro vezes mais rápido que todos os outros setores somados. Só nos Estados Unidos, os data centers devem puxar quase metade de todo o crescimento da demanda elétrica até 2030.
O calor virou um teto físico. Um rack de IA GB200 NVL72, da NVIDIA, puxa cerca de 120 kW — o resfriamento a ar trava por volta de 8 a 25 kW por rack, então a empresa exige refrigeração líquida direto no chip. O resfriamento já responde por cerca de 40% do gasto de energia num data center de IA. Não à toa, o mercado de resfriamento líquido praticamente dobrou em 2025, para perto de US$ 3 bilhões, e deve chegar a US$ 7 bilhões em 2029, segundo a Dell'Oro. A eficiência média, porém, empacou: o índice PUE da indústria ficou em 1,54 pelo sexto ano seguido, segundo o Uptime Institute, embora os hyperscalers operem bem mais enxutos, em torno de 1,10 a 1,15.
A água é o outro gargalo. Os data centers do Google consumiram cerca de 8,1 bilhões de galões em 2024, um salto de 28% sobre 2023. Os melhores da classe gastam muito menos: a Microsoft fechou o ano fiscal de 2025 com 0,30 litro por kWh, e a Amazon afirma chegar a 0,12. Desde agosto de 2024, todo projeto novo da Microsoft usa um desenho de resfriamento de "zero evaporação de água", em circuito fechado, que evita mais de 125 milhões de litros por data center ao ano. Para garantir energia limpa o tempo todo, as big techs apostam no nuclear, inclusive nos pequenos reatores modulares: a Microsoft assinou contrato para religar a usina de Three Mile Island, e, somados os projetos anunciados, mais de 9,8 GW de capacidade nuclear já foram comprometidos para alimentar a IA.
Por que a memória do seu computador ficou tão cara
A corrida da IA chegou ao bolso de quem nunca pensou em treinar um modelo: o preço da memória RAM disparou. A causa é estrutural. A memória especial usada em IA, a HBM, consome cerca de três vezes mais capacidade de fábrica por gigabyte do que a DDR5 comum. Cada wafer empurrado para HBM tira capacidade da memória comum. A TrendForce estima que a IA vai absorver cerca de 20% de toda a capacidade global de produção de DRAM em 2026, e a demanda por HBM deve crescer perto de 70% no ano.
Os números são vertiginosos e bem datados. A TrendForce relatou, em 1º de junho de 2026, que a receita da indústria de DRAM saltou 81% em um trimestre, para cerca de US$ 97 bilhões, com preços de contrato subindo de 93% a 98%. Samsung, SK Hynix e Micron — que dominam o setor — redirecionaram sua produção para os produtos de alta margem, e a Micron chegou a sair do mercado de memória de consumo. Um executivo da Samsung avisou, no começo de janeiro de 2026, que a escassez "vai afetar todo mundo". A SK Hynix declarou sua capacidade de 2026 "essencialmente esgotada".
Para o consumidor, o aperto doeu. O rastreador da Tom's Hardware registrou, em 3 de junho de 2026, o kit de 32 GB de DDR5 mais barato dos EUA a US$ 374,97 — um ano antes custava de US$ 80 a US$ 120. Os preços de memória de consumo subiram de 300% a 600% em relação às mínimas de 2024 e 2025, e a IDC chegou a alertar que o mercado de PCs pode encolher até 9% em 2026 por causa disso. O projeto Stargate, da OpenAI, com cartas de intenção assinadas com Samsung e SK Hynix, pode consumir até 900 mil wafers de DRAM por mês, perto de 40% da produção mundial. Fornecedores sinalizam aperto persistindo de 2027 a cerca de 2030.
A saída do Google: fazer o próprio chip
Diante do custo, da escassez e da dependência da NVIDIA, o Google escolheu um caminho diferente: desenhar seu próprio silício. A sétima geração do seu chip TPU (Tensor Processing Unit), batizada de Ironwood, foi apresentada em novembro de 2025, feita internamente para treinar grandes modelos e rodar chatbots e agentes em tempo real, competindo de frente com as GPUs da NVIDIA. Segundo análise citada pela CNBC, conforme os clientes adotam chips próprios, a fatia da NVIDIA pode recuar dos atuais cerca de 85% para perto de 75%.
As especificações impressionam. Cada chip Ironwood traz 192 GB de memória HBM, seis vezes a da geração anterior, e os "pods" escalam até 9.216 chips, entregando 42,5 exaflops de computação — dez vezes o pico do TPU v5p — com cerca do dobro de eficiência por watt. O Google o descreve como seu primeiro TPU pensado para a "era da inferência", a fase de uso em massa. A própria empresa usa o Ironwood para servir os modelos Gemini e produtos como Busca, YouTube e Gmail.
O marco comercial veio em 23 de outubro de 2025, quando a Anthropic anunciou que vai ampliar o uso dos TPUs, com acesso a até 1 milhão de chips e mais de 1 gigawatt de capacidade chegando em 2026, num acordo avaliado em dezenas de bilhões de dólares. A empresa diz ter escolhido os TPUs pela relação entre preço, desempenho e eficiência, mantendo uma estratégia diversificada que ainda inclui o Trainium da Amazon e as GPUs da NVIDIA. O resfriamento líquido entra nessa engenharia: o Google já tem cerca de 1 GW de refrigeração líquida instalada em torno de 2.000 pods de TPU. A TrendForce prevê que os embarques de TPU do Google sigam crescendo mais de 40% em 2026.
No fundo, é tudo a mesma engrenagem. A matemática das redes neurais exige GPUs e TPUs aos milhares; esses chips exigem galpões refrigerados a água e energia de usina; a sede por memória HBM encarece a RAM da sua casa; e os bilhões em jogo sustentam tanto lucros recordes quanto o debate sobre uma possível bolha. Entender essa cadeia ajuda você, que usa essas ferramentas, a separar o que é avanço real do que é apenas barulho de mercado.
Para saber mais
- Stanford HAI — 2025 AI Index Report (Pesquisa e Desenvolvimento)
- IBM — Tipos de Inteligência Artificial
- NVIDIA — Diferença entre treino e inferência em deep learning
- OpenAI — O que são tokens e como contá-los
- NVIDIA Newsroom — Resultados financeiros do 1º trimestre fiscal de 2027
- Agência Internacional de Energia (IEA) — Energia e IA
- Fortune — Estudo do MIT: 95% dos pilotos de IA generativa sem retorno
- TrendForce — Receita de DRAM sobe 81% no 1º trimestre de 2026
- Google — Ironwood, o primeiro TPU para a era da inferência
- Anthropic — Expansão do uso de TPUs do Google Cloud