Para entender de verdade como funcionam os LLMs, é preciso começar por um conceito que parece trivial, mas não é: tokens.
Muita gente imagina que modelos como ChatGPT, Claude ou Gemini leem palavras. Na realidade, eles não enxergam palavras da mesma forma que nós.
Mas, eles enxergam tokens. Um token pode ser uma palavra inteira, parte de uma palavra, um número, um sinal de pontuação ou até fragmentos aparentemente sem sentido. A expressão “inteligência artificial”, por exemplo, pode ser dividida em vários tokens dependendo do tokenizer utilizado pelo modelo.
E não existe uma tokenização universal. Cada família de modelos utiliza seu próprio tokenizer. Como consequência, o mesmo texto pode consumir quantidades diferentes de tokens em modelos distintos. Isso afeta custos, tamanho efetivo da janela de contexto e até o desempenho em diferentes idiomas. Em geral, idiomas como português costumam consumir mais tokens do que inglês para transmitir a mesma informação.
Essa ideia tem origem em trabalhos fundamentais como o artigo Neural Machine Translation of Rare Words with Subword Units (https://arxiv.org/abs/1508.07909), que popularizou técnicas de tokenização por subpalavras e influenciou praticamente todos os modelos modernos.
Mas por que isso importa? Porque antes que um modelo possa processar linguagem, a linguagem precisa ser transformada em números.
O fluxo básico é algo como: Texto → Tokens → Vetores → Modelo → Resposta
Os tokens não são apenas convertidos em números arbitrários. Eles são transformados em representações vetoriais conhecidas como embeddings, que capturam relações semânticas entre conceitos. É isso que permite ao modelo perceber associações como “médico” e “hospital”, “rei” e “rainha” ou “Paris” e “França”, mesmo sem regras explícitas programadas para isso.
Quando escrevemos um prompt, o modelo não vê frases, argumentos ou ideias da forma que vemos. Ele vê uma sequência de vetores representando tokens.
Isso ajuda a explicar vários comportamentos observados no dia a dia. Quando alguém reclama que o contexto do modelo é pequeno, na verdade está falando de tokens. Quando um sistema RAG recupera documentos grandes demais e perde eficiência, estamos falando de tokens. Quando o custo de uma aplicação corporativa explode, estamos falando de tokens. Quando uma instrução importante desaparece no meio de um documento enorme, novamente estamos falando de tokens.
O modelo não vê um relatório estratégico de 30 páginas da forma como um executivo vê. Ele vê milhares de tokens competindo por espaço dentro de uma janela de contexto limitada.
E existe um detalhe importante: nem todos os tokens possuem o mesmo valor informacional. Um único parágrafo altamente relevante pode contribuir mais para a qualidade da resposta do que dezenas de páginas de contexto genérico. Em muitos projetos de IA, o desafio não é fornecer mais informação ao modelo, mas selecionar a informação certa.
Esse conceito nos leva a um segundo princípio fundamental: atenção é um recurso escasso. Aliás, o próprio avanço que tornou os LLMs possíveis veio da arquitetura Transformer, apresentada no artigo Attention Is All You Need (2017). O mecanismo de atenção permite que o modelo determine quais partes do contexto merecem maior peso ao gerar cada resposta.
Mas isso não significa atenção infinita. Mesmo em modelos com janelas de contexto enormes, a utilização das informações não é perfeita. Pesquisas recentes mostram fenômenos como o lost in the middle, em que informações localizadas no meio de contextos muito extensos tendem a receber menos atenção. Ou seja, mais contexto não significa necessariamente melhor uso do contexto.
Existe ainda um terceiro princípio importante: cada token tem custo. E esse custo não está apenas nos tokens enviados ao modelo. Os tokens gerados na resposta também consomem recursos. Em aplicações corporativas isso se torna extremamente relevante. Imagine uma empresa com milhares de funcionários utilizando IA diariamente. Se cada interação incluir dezenas de páginas desnecessárias e gerar respostas excessivamente longas, o consumo cresce rapidamente. Em larga escala, isso pode representar milhões de dólares por ano.
Por isso, boa parte da engenharia moderna de IA não consiste em criar modelos maiores. Consiste em decidir quais tokens realmente precisam chegar ao modelo.
É exatamente daí que surgem técnicas como RAG, sumarização automática, memória seletiva, compressão de contexto e recuperação inteligente de informações. O objetivo é simples: fornecer ao modelo apenas o que ele precisa saber naquele momento.
Na prática, uma das maiores mudanças de mentalidade ao trabalhar com IA é deixar de pensar como alguém escrevendo para uma pessoa e começar a pensar como alguém projetando entradas para uma máquina com recursos limitados.
Antes de copiar e colar um documento inteiro em um LLM, vale fazer algumas perguntas como “o que o modelo realmente precisa saber?”, “o que pode ser resumido?”, “o que pode ser recuperado depois?” e “o que pode ser removido completamente?”.
Uma das lições mais importantes da engenharia de IA é a mesma da boa arquitetura de software: valor nem sempre está em adicionar mais coisas. Muitas vezes está em remover o que não é necessário.
Um dos princípios mais importantes para trabalhar bem com LLMs é também um dos mais contraintuitivos: a qualidade da resposta nem sempre depende da quantidade de informação enviada. Muitas vezes depende da qualidade da informação que você escolheu não enviar.









