Verificando acesso...

Início / Trilha 3 / Módulo 3.2
MÓDULO 3.2

💰 Controle de custos e gestão de rate limits

Tokens, orçamento por modelo, alertas automáticos e decisões de free tier vs pago — o freio financeiro do sistema Triad.

7
Tópicos
~50
Minutos
Avançado
Nível
Gestão
Tipo
1

🔢 Entendendo tokens — input vs output, cache vs fresh

O que é

Entender a estrutura de custo é o pré-requisito para qualquer estratégia de otimização. Sem esse conhecimento, você otimiza o componente errado e gasta esforço sem resultado.

Por que aprender

📊 Estrutura de custo dos LLMs

Input tokens

O que você envia ao modelo: system prompt + briefing + histórico. Geralmente mais barato que output. Em português: ~2–3 caracteres por token.

Output tokens

O que o modelo responde: drafts, críticas, análises. Mais caro que input. O principal driver de custo em loops de iteração.

Cache de prompt

Tokens de input que se repetem entre chamadas são cobrados a 10% do preço normal (Claude). System prompts constantes são candidatos perfeitos para cache.

Fresh tokens

Tokens cobrados ao preço cheio. O que varia a cada chamada (o briefing, os drafts) são sempre fresh — não beneficiam de cache.

Conceitos-chave

Input vs output tokens

Output geralmente custa 3–5x mais que input — o loop de iteração amplifica esse custo

Cache de prompt

10% do preço para tokens repetidos — system prompts longos beneficiam muito

~2–3 caracteres por token

Estimativa para português — texto em pt-BR usa mais tokens que inglês para o mesmo conteúdo

Custo por modelo

Cada modelo tem preço diferente — verificar openrouter.ai/models antes de escolher

2

🧮 Como calcular custo antes de rodar uma tarefa pesada

O que é

Estimar custo antes de executar elimina surpresas. Em tarefas novas, uma estimativa ruim pode resultar em custo 10x maior que o esperado — mas a fórmula é simples.

Por que aprender

1

Estime o tamanho do briefing (input do Worker)

Regra prática: 750 palavras ≈ 1.000 tokens. Um briefing detalhado de 1 página ≈ 500–800 tokens.

2

Estime o tamanho de cada draft (output do Worker)

Análises médias produzem 500–2.000 tokens por ângulo. Com 3 ângulos: 1.500–6.000 tokens por iteração do Worker.

3

Multiplique pelo número esperado de iterações

Sistema bem calibrado: 2–3 iterações. Sistema novo ou prompt não otimizado: 5–10 iterações. Use 5 como estimativa conservadora para tarefas novas.

4

Aplique o preço do modelo e adicione 30% de margem

Exemplo: DeepSeek V4 a $0,87/M output tokens. 5 iterações × 3.000 tokens output = 15.000 tokens × $0,87/M = $0,013 + 30% = ~$0,017.

Conceitos-chave

750 palavras = 1.000 tokens

Regra de bolso para estimar tamanho de texto em tokens

Margem de 30%

Buffer para variação de tokens, críticas longas e overhead do sistema

5 iterações como estimativa conservadora

Para tarefas novas sem histórico de calibração do prompt

Custo real vs estimado

Comparar depois de cada tarefa para calibrar estimativas futuras

3

⚠️ Rate limits — o que são, quando acontecem, como evitar

O que é

Rate limits são o principal ponto de falha em loops overnight. Saber quando acontecem e como evitá-los é o que garante que o trabalho noturno chega completo pela manhã.

Por que aprender

📋 Tipos de rate limit

TPM — Tokens por Minuto

O mais comum. Em loops intensivos, um único modelo pode atingir o TPM em minutos. Solução: usar BYOK direto no provedor, que tem limites mais altos.

RPM — Requisições por Minuto

Limite no número de chamadas de API por minuto. Relevante quando o Triad faz muitas chamadas pequenas (ex: Crítico avaliando ângulos individualmente).

Limite por dia (RPD/TPD)

Alguns modelos têm limites diários no free tier. Quando atingidos, o modelo fica indisponível até o reset (geralmente meia-noite UTC).

Erro 429

"Too Many Requests" — o código de erro que indica rate limit atingido. O Hermes deve ter retry automático com backoff exponencial para esse erro.

💡 BYOK como solução para rate limits

BYOK (Bring Your Own Key) — usar sua chave direta do provedor (DeepSeek, Anthropic) em vez de passar pelo pool compartilhado do OpenRouter. Limites são muito mais altos porque são dedicados à sua conta, não compartilhados entre todos os usuários do OpenRouter.

Conceitos-chave

TPM e RPM

Os dois limites mais comuns — tokens por minuto e requisições por minuto

429 Too Many Requests

O código de erro de rate limit — o Hermes deve ter retry com backoff exponencial

BYOK como solução

Chave própria no provedor = limites dedicados, não compartilhados com outros usuários

Limites por tier

Quanto mais você gasta historicamente, maior o tier e mais altos os limites

4

📅 Estratégias de orçamento por modelo e por semana

O que é

Orçamento por modelo evita que um loop runaway consuma créditos ilimitados. É o freio de segurança financeiro do sistema — e precisa ser definido antes de colocar o Triad em produção intensiva.

Por que aprender

💼 Modelo de orçamento semanal por papel

Papel Modelo sugerido Orçamento semanal Justificativa
Condutor Claude Opus $5/semana Tarefas estratégicas são poucas — usar Opus só quando necessário
Worker DeepSeek V4 $10/semana Uso intensivo — múltiplas iterações e ângulos por tarefa
Crítico GPT-5.5 $3/semana Críticas são outputs curtos — custo menor que o Worker

⚠️ Loop runaway — o risco financeiro real

Um loop runaway é um loop Worker-Crítico que não converge — continua iterando indefinidamente porque o Crítico nunca aprova ou o Worker nunca resolve o problema. Sem orçamento definido, um loop overnight pode consumir centenas de dólares antes de ser detectado manualmente.

Conceitos-chave

Orçamento por papel

Cada modelo do Triad tem orçamento independente — evita que um papel consuma tudo

Alertas de 80%

Alerta quando o uso semanal atinge 80% do orçamento — tempo para investigar antes de bloquear

Loop runaway

Loop sem convergência que consome créditos indefinidamente sem produzir resultado

Reserva de 20%

Manter 20% do orçamento para experimentos e tarefas fora do Triad padrão

5

🔔 Alertas de custo no OpenRouter — configurando limites

O que é

Alertas automáticos são o sistema de proteção que funciona enquanto você dorme. Sem eles, você pode acordar com uma conta inesperada de um loop que ficou rodando além do planejado.

Por que aprender

1

Acessar Spend Alerts

No OpenRouter: Settings → Billing → Spend Alerts. Aqui você configura alertas por email para gastos diários e limites hard mensais.

2

Configurar alerta de gasto diário

Defina um limite de gasto diário. Quando atingido, você recebe email. Para um orçamento de $20/semana, um limite de $4/dia é razoável.

3

Definir limite hard mensal

O OpenRouter bloqueia novas chamadas automaticamente quando o limite mensal é atingido. Isso é o freio final — mais conservador que alertas de email.

4

Criar chaves de API separadas por projeto

Para projetos de equipe ou múltiplas iniciativas: crie uma chave de API por projeto. Isso permite monitorar custo por iniciativa no dashboard do OpenRouter.

Conceitos-chave

Spend Alerts no OpenRouter

Configuração nativa — Settings → Billing → Spend Alerts

Limite hard mensal

Bloqueia automaticamente quando atingido — o freio final e mais confiável

Chave por projeto

Monitoramento de custo granular por iniciativa ou cliente

Proteção automática overnight

O objetivo é que o sistema proteja você enquanto você dorme — não depender de monitoramento manual

6

🆓 Quando usar free tier vs pago — a decisão certa

O que é

Usar free tier nas situações erradas resulta em trabalho interrompido e estados inconsistentes — muitas vezes mais custoso em tempo do que a economia em dinheiro.

Por que aprender

✓ Free tier é adequado para

  • Testes de configuração de novos prompts
  • Exploração de novos ângulos ou abordagens
  • Tarefas de baixa prioridade onde velocidade não importa
  • Verificações rápidas de configuração (menos de 5 chamadas)

✗ Free tier NÃO é adequado para

  • O Triad em produção (rate limits muito baixos)
  • Tarefas overnight (risco de interrupção no meio)
  • Loops de mais de 5 iterações
  • Qualquer tarefa que vai levar mais de 10 minutos

💡 Regra prática

Se a tarefa vai levar mais de 10 minutos de execução ou produzir mais de 10 chamadas de API, use tier pago com BYOK. O custo de uma interrupção em produção (retrabalho, estado inconsistente, diagnóstico) supera qualquer economia no free tier.

Conceitos-chave

Free tier para testes

Exploração e validação de prompts sem risco financeiro, mas com risco de interrupção

Pago para produção

Tier pago com BYOK garante limites altos e confiabilidade para loops de produção

Limite de 10 chamadas

Acima de 10 chamadas, o overhead de gerenciar limites do free tier não vale a pena

Custo em tempo vs dinheiro

Retrabalho por interrupção custa mais em tempo do que a diferença de preço free vs pago

7

✂️ Otimizando prompts para reduzir tokens sem perder qualidade

O que é

Reduzir tokens sem perder qualidade é o que permite fazer mais com o mesmo orçamento. Cada técnica tem impacto mensurável no custo sem afetar a profundidade do output.

Por que aprender

1

Remover exemplos redundantes do system prompt

Um exemplo claro vale mais que três mediocres. Exemplos redundantes aumentam o custo de cache sem adicionar informação nova.

2

Usar listas em vez de parágrafos nas instruções

Listas são mais densas em informação por token que parágrafos. Instruções em prosa usam 30–50% mais tokens para o mesmo conteúdo.

3

Separar constantes (system) de variáveis (user)

Instruções constantes no system prompt se beneficiam de cache (10% do preço). Instruções variáveis no prompt do usuário são sempre fresh. Nunca misture os dois.

4

Briefing estruturado de 5 seções em vez de prosa

O formato estruturado (Objetivo / Critérios / Restrições / Contexto / Ângulos) usa menos tokens e é mais fácil de auditar antes de despachar.

5

Pedir ao Worker raciocínio em bullets, não parágrafos

Bullets são mais densos e mais fáceis de avaliar pelo Crítico. Parágrafos longos aumentam o custo de output sem aumentar a qualidade da análise.

Conceitos-chave

Cache de system prompt

Instruções constantes cacheadas reduzem custo de input em 90%

Lista vs parágrafo

Listas usam 30–50% menos tokens para transmitir a mesma instrução

Briefing estruturado

Formato de 5 seções é mais econômico e mais fácil de auditar que prosa

Raciocínio em bullets

Output mais denso e mais útil para o Crítico — menos tokens, mais informação

Resumo do Módulo

750 palavras ≈ 1.000 tokens — a regra de bolso para estimar custo antes de executar
TPM e RPM — os dois tipos de rate limit que mais afetam loops overnight
Orçamento por papel — Condutor, Worker e Crítico com limites independentes
Spend Alerts no OpenRouter — o sistema de proteção automática enquanto você dorme
Mais de 10 chamadas = tier pago — a linha divisória entre free tier e produção com BYOK
Cache de system prompt — a otimização de custo mais simples e de maior impacto

Próximo Módulo:

3.3 — Monitoramento, logs e saúde do sistema