césar machado blog
receber análises
IA

O erro mais comum com IA: deixar ela explicar demais e você ler de menos

Eu descobri que estava desperdiçando 40% dos tokens que comprava porque não sabia pedir para a IA ser direta. O problema não era o modelo — era meu prompt.

2026-06-093 min de leituraCésar Machado
Código na tela de computador representando erro de programação

Em resumo

  • A maioria dos usuários de IA não percebe que a verbosidade do modelo consome tokens que você está pagando.
  • Um prompt mal feito pode gerar respostas 3-5x maiores do que o necessário.
  • A solução não é reclamar do modelo — é aprender a pedir o tipo de resposta que você precisa.
  • Pequenas mudanças no prompt economizam 30-40% dos tokens em tarefas repetitivas.

O dia em que eu olhei meu gasto de tokens

Eu uso IA para tudo: código, texto, análise, revisão, automação. Até o mês passado, eu não olhava quanto estava gastando em tokens. Quando finalmente olhei, o número me assustou: estava queimando mais de $200 por mês só em chamadas de API.

Mas o número em si não era o problema. O problema era que, quando analisei as chamadas, percebi que uns 40% dos tokens eram a IA explicando coisas que eu não tinha pedido. Ela resumia o que entendeu, listava alternativas que não existiam, dava contexto histórico que eu já sabia, e depois — finalmente — respondia o que eu queria.

O modelo não estava errado. Eu estava pedindo errado.

Por que a IA explica tanto

Os modelos de IA são treinados para serem úteis e completos. Isso é bom quando você está aprendendo algo novo. É péssimo quando você quer uma resposta direta para uma pergunta específica.

O problema é que a maioria dos prompts não diz à IA o tipo de resposta esperada. Quando você pergunta "como faço para configurar X?", o modelo assume que você quer:

. Por que você deveria configurar X.

  1. Uma explicação do que é X.
  2. Os pré-requisitos.
  3. Os passos.
  4. Possíveis erros.
  5. Alternativas.

Quando na verdade você queria só os passos.

O processo que me economizou 40% dos tokens

A solução foi criar um padrão de prompt que eu uso em todas as chamadas recorrentes. Não é complicado — são três regras:

Regra 1: Especifique o formato da resposta. Em vez de perguntar como fazer algo, peça "liste apenas os passos, sem explicação prévia". Isso soa óbvio, mas 90% das pessoas não fazem.

Regra 2: Diga o que você já sabe. Se você já sabe o contexto, diga. "Eu sei que X faz Y. Me diga apenas como configurar Z." Isso elimina a parte explicativa da resposta.

Regra 3: Limite o tamanho. Peça "responda em até 100 palavras" ou "dê apenas o código, sem comentários". Modelos respeitam limites quando você os impõe.

Resultados reais

Após aplicar essas três regras por um mês:

  • Meu gasto de tokens caiu de $200 para $120 por mês.
  • Minha velocidade de trabalho aumentou porque eu lia menos e fazia mais.
  • A qualidade das respostas não caiu — na verdade, melhorou, porque o modelo focava no que eu precisava.

O mais interessante: quando eu precisava de explicações detalhadas — para aprender algo novo ou revisar uma decisão — eu pedia explicitamente. "Explique como se eu fosse iniciante" ou "liste os trade-offs de cada abordagem." A IA continuava sendo verbosa quando eu queria que fosse.

O erro que quase todo mundo comete

O erro mais comum não é usar IA errado. É tratar a IA como se ela soubesse o que você quer sem você dizer. A IA não sabe se você quer resumo ou detalhe, código ou explicação, opção única ou lista de alternativas. Se você não diz, ela assume — e o padrão é sempre "mais completo possível."

Isso é como contratar um consultor e não dizer o escopo. Ele vai entregar 200 páginas porque não sabe se você queria 5.

Quando a verbosidade é boa

Não estou dizendo que respostas longas são ruins. Elas são essenciais quando:

  • Você está aprendendo um assunto novo.
  • Está revisando uma decisão importante.
  • Precisa entender trade-offs complexos.
  • Está pedindo feedback sobre código ou texto.

O problema é quando você paga por verbosidade que não precisa. É como ligar o ar condicionado com a janela aberta.

O teste que fiz com minha equipe

Para validar se isso funcionava para outras pessoas, pedi para três colegas aplicarem as mesmas três regras por uma semana. Os resultados foram consistentes: todos relataram redução no tempo de leitura e na satisfação com as respostas. Um deles economizou 50% dos tokens porque trabalhava com geração de relatórios — uma tarefa onde a verbosidade padrão é especialmente custosa.

O interessante e que dois deles disseram que no começo parecia que estavam sendo rudos com a IA. Pedir "só os passos, sem explicação" soava grosso. Mas a IA nao se ofende. Ela obedece. E o resultado e melhor para todo mundo — menos tokens, mais foco, menos ruído.

Se você trabalha com volume — e qualquer pessoa que usa IA para trabalho provavelmente trabalha — a diferença entre um prompt bom e um prompt mediano e dinheiro real. Não é uma otimização de nicho. E a diferença entre sustentável e insustentável. E o melhor: é uma habilidade que você aprende uma vez e aplica para sempre.

Perguntas que eu faria antes de marcar uma call

Isso funciona com qualquer modelo de IA?

Sim. GPT, Claude, Gemini, modelos locais — todos respondem a prompts que especificam formato e tamanho. A diferença é o quanto cada modelo obedece, mas todos obedecem parcialmente.

E se eu precisar de uma resposta longa?

Peça explicitamente. Diga 'explique em detalhes' ou 'liste todos os trade-offs'. O ponto não é que respostas longas são ruins — é que respostas longas não pedidas são desperdício.

Se quiser comparar isso com a sua operação

Se você sente que está lendo demais e produzindo de menos quando usa IA, provavelmente é um problema de prompt, não de modelo. Se quiser, a gente pode revisar seus prompts mais usados em uma call e encontrar onde dá para ganhar eficiência.

Entrar na lista · ver como eu penso