LLMs não leem palavras. Eles leem tokens. E isso muda tudo

Os tokens são a unidade básica de processamento dos modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini. Diferentemente dos humanos, esses sistemas não interpretam palavras diretamente, mas sequências de tokens que são convertidas em embeddings e processadas pela arquitetura Transformer. O artigo explica como a tokenização influencia custos, desempenho, tamanho da janela de contexto e qualidade das respostas. Também aborda conceitos como atenção, contexto limitado, fenômeno “lost in the middle” e a importância de técnicas como RAG, sumarização e recuperação inteligente de informações. A principal conclusão é que, em projetos de IA, a qualidade dos resultados depende mais da relevância das informações enviadas ao modelo do que da quantidade de contexto fornecido.

Escrito por Cezar Taurion

18 DE JUNHO

Escrito por Cezar Taurion

Compartilhe

Infográfico que ilustra como modelos de linguagem processam texto por meio de tokenização e embeddings. Na parte superior, a frase “O médico trabalha no hospital em Paris” aparece dividida em tokens coloridos: “O”, “médico”, “trabalha”, “no”, “hospital”, “em” e “Paris”. Abaixo de cada token, são exibidos conjuntos de números que representam sua conversão em vetores matemáticos. Linhas conectam os tokens a pontos posicionados em um espaço vetorial tridimensional, simbolizando embeddings em alta dimensão. O gráfico destaca que cada token é transformado em um vetor numérico que permite ao modelo capturar relações semânticas entre palavras e conceitos. O fundo escuro com efeitos luminosos reforça o tema de inteligência artificial e processamento de linguagem natural.

Entenda o que são tokens em LLMs, como ChatGPT e Gemini, e por que eles impactam custos, contexto, desempenho e qualidade das respostas em aplicações de IA.

Para entender de verdade como funcionam os LLMs, é preciso começar por um conceito que parece trivial, mas não é: tokens.

Muita gente imagina que modelos como ChatGPT, Claude ou Gemini leem palavras. Na realidade, eles não enxergam palavras da mesma forma que nós.

Mas, eles enxergam tokens. Um token pode ser uma palavra inteira, parte de uma palavra, um número, um sinal de pontuação ou até fragmentos aparentemente sem sentido. A expressão “inteligência artificial”, por exemplo, pode ser dividida em vários tokens dependendo do tokenizer utilizado pelo modelo.

E não existe uma tokenização universal. Cada família de modelos utiliza seu próprio tokenizer. Como consequência, o mesmo texto pode consumir quantidades diferentes de tokens em modelos distintos. Isso afeta custos, tamanho efetivo da janela de contexto e até o desempenho em diferentes idiomas. Em geral, idiomas como português costumam consumir mais tokens do que inglês para transmitir a mesma informação.

Essa ideia tem origem em trabalhos fundamentais como o artigo Neural Machine Translation of Rare Words with Subword Units (https://arxiv.org/abs/1508.07909), que popularizou técnicas de tokenização por subpalavras e influenciou praticamente todos os modelos modernos.

Mas por que isso importa? Porque antes que um modelo possa processar linguagem, a linguagem precisa ser transformada em números.

O fluxo básico é algo como: Texto → Tokens → Vetores → Modelo → Resposta

Os tokens não são apenas convertidos em números arbitrários. Eles são transformados em representações vetoriais conhecidas como embeddings, que capturam relações semânticas entre conceitos. É isso que permite ao modelo perceber associações como “médico” e “hospital”, “rei” e “rainha” ou “Paris” e “França”, mesmo sem regras explícitas programadas para isso.

Quando escrevemos um prompt, o modelo não vê frases, argumentos ou ideias da forma que vemos. Ele vê uma sequência de vetores representando tokens.

Isso ajuda a explicar vários comportamentos observados no dia a dia. Quando alguém reclama que o contexto do modelo é pequeno, na verdade está falando de tokens. Quando um sistema RAG recupera documentos grandes demais e perde eficiência, estamos falando de tokens. Quando o custo de uma aplicação corporativa explode, estamos falando de tokens. Quando uma instrução importante desaparece no meio de um documento enorme, novamente estamos falando de tokens.

O modelo não vê um relatório estratégico de 30 páginas da forma como um executivo vê. Ele vê milhares de tokens competindo por espaço dentro de uma janela de contexto limitada.

E existe um detalhe importante: nem todos os tokens possuem o mesmo valor informacional. Um único parágrafo altamente relevante pode contribuir mais para a qualidade da resposta do que dezenas de páginas de contexto genérico. Em muitos projetos de IA, o desafio não é fornecer mais informação ao modelo, mas selecionar a informação certa.

Esse conceito nos leva a um segundo princípio fundamental: atenção é um recurso escasso. Aliás, o próprio avanço que tornou os LLMs possíveis veio da arquitetura Transformer, apresentada no artigo Attention Is All You Need (2017). O mecanismo de atenção permite que o modelo determine quais partes do contexto merecem maior peso ao gerar cada resposta.

Mas isso não significa atenção infinita. Mesmo em modelos com janelas de contexto enormes, a utilização das informações não é perfeita. Pesquisas recentes mostram fenômenos como o lost in the middle, em que informações localizadas no meio de contextos muito extensos tendem a receber menos atenção. Ou seja, mais contexto não significa necessariamente melhor uso do contexto.

Existe ainda um terceiro princípio importante: cada token tem custo. E esse custo não está apenas nos tokens enviados ao modelo. Os tokens gerados na resposta também consomem recursos. Em aplicações corporativas isso se torna extremamente relevante. Imagine uma empresa com milhares de funcionários utilizando IA diariamente. Se cada interação incluir dezenas de páginas desnecessárias e gerar respostas excessivamente longas, o consumo cresce rapidamente. Em larga escala, isso pode representar milhões de dólares por ano.

Por isso, boa parte da engenharia moderna de IA não consiste em criar modelos maiores. Consiste em decidir quais tokens realmente precisam chegar ao modelo.

É exatamente daí que surgem técnicas como RAG, sumarização automática, memória seletiva, compressão de contexto e recuperação inteligente de informações. O objetivo é simples: fornecer ao modelo apenas o que ele precisa saber naquele momento.

Na prática, uma das maiores mudanças de mentalidade ao trabalhar com IA é deixar de pensar como alguém escrevendo para uma pessoa e começar a pensar como alguém projetando entradas para uma máquina com recursos limitados.

Antes de copiar e colar um documento inteiro em um LLM, vale fazer algumas perguntas como “o que o modelo realmente precisa saber?”, “o que pode ser resumido?”, “o que pode ser recuperado depois?” e “o que pode ser removido completamente?”.

Uma das lições mais importantes da engenharia de IA é a mesma da boa arquitetura de software: valor nem sempre está em adicionar mais coisas. Muitas vezes está em remover o que não é necessário.

Um dos princípios mais importantes para trabalhar bem com LLMs é também um dos mais contraintuitivos: a qualidade da resposta nem sempre depende da quantidade de informação enviada. Muitas vezes depende da qualidade da informação que você escolheu não enviar.

Cezar Taurion

Cézar Taurion é referência em TI no Brasil desde fins da década de 70. Sócio e líder de operação da Kick Ventures, organização criada para conectar startups com o mercado a partir da busca de investidores-anjo e parcerias de inovação corporativa. Foi, por 12 anos, Diretor de Novas Tecnologias Aplicadas e Chief Evangelist da IBM Brasil.

Ver mais artigos desse autor

Recomendadas para você

Claude Fable 5 e o novo padrão de citação nos modelos generativos

O Claude Fable 5, novo modelo da Anthropic, chega ao mercado com desempenho recorde em engenharia de software e uma janela de contexto de 1 milhão de tokens. Além dos avanços em programação e raciocínio, o lançamento tem impacto direto em estratégias de Generative Engine Optimization (GEO), ao elevar os critérios de seleção e citação de conteúdo por sistemas de IA. O modelo prioriza fontes consistentes, dados verificáveis, autoridade temática e evidências de execução, tornando a qualidade do conteúdo um fator ainda mais decisivo para marcas que buscam visibilidade em respostas geradas por inteligência artificial.

Alexandre Caramaschi

10 DE JUNHO

LLMs não leem palavras. Eles leem tokens. E isso muda tudo

Cezar Taurion

Recomendadas para você

Claude Fable 5 e o novo padrão de citação nos modelos generativos

Claude Fable 5 e o novo padrão de citação nos modelos generativos

Anthropic supera OpenAI

Como o Google está transformando busca em um sistema de IA

Essa bolha da IA não vai estourar nunca?

O mercado esqueceu a história da IA?

Anthropic supera OpenAI

Como o Google está transformando busca em um sistema de IA

Essa bolha da IA não vai estourar nunca?

O mercado esqueceu a história da IA?

Anthropic supera OpenAI

Como o Google está transformando busca em um sistema de IA

Essa bolha da IA não vai estourar nunca?

O mercado esqueceu a história da IA?

Anthropic supera OpenAI

Como o Google está transformando busca em um sistema de IA

Essa bolha da IA não vai estourar nunca?

O mercado esqueceu a história da IA?

Inscreva-se na nossa newslleter