Verificando acesso...

Início / Trilha 3 / Módulo 3.3
MÓDULO 3.3

📊 Monitoramento, logs e saúde do sistema

Disponibilidade, custo, qualidade e ritual diário de 5 minutos — o que mantém o Hermes funcionando de forma confiável ao longo do tempo.

7
Tópicos
~45
Minutos
Avançado
Nível
Operações
Tipo
1

🔍 O que monitorar em um sistema Hermes ativo

O que é

Monitoramento sistemático transforma o Hermes de uma ferramenta que funciona às vezes em um sistema confiável. Um sistema mal monitorado deriva silenciosamente para comportamento inesperado — e você só descobre quando já tem consequências.

Por que aprender

1. Disponibilidade

O Hermes responde quando você o chama? Os modelos configurados estão acessíveis?

Verificar: resposta a uma pergunta simples, acesso ao soul.md, execução de ferramenta básica.

2. Custo

O gasto está dentro do orçamento definido? Há anomalias em relação à média dos últimos dias?

Verificar: dashboard do OpenRouter, custo de ontem vs média de 7 dias.

3. Qualidade

Os outputs do Triad estão sendo aprovados em menos de 3 iterações? O Crítico está convergindo?

Verificar: log de execuções, número médio de iterações nas últimas 5 tarefas.

4. Saúde do soul.md

As informações do soul.md ainda refletem a realidade atual? Mudanças importantes foram registradas?

Verificar: data da última atualização, resposta do Hermes quando perguntado sobre contexto atual.

Conceitos-chave

Quatro categorias

Disponibilidade, custo, qualidade e saúde do soul.md — cada uma detecta tipos diferentes de problemas

Deriva silenciosa

O sistema pode degradar gradualmente sem que nenhum evento único indique o problema

Monitoramento como prevenção

Detectar antes das consequências é o objetivo — não remediar depois

Atualidade do soul.md

soul.md desatualizado é uma forma de degradação de qualidade — o contexto está errado

2

📁 Logs nativos do Hermes — onde ficam e como ler

O que é

Os logs do Hermes respondem à pergunta "por que o agente fez X?". Saber onde ficam e como lê-los é o que permite diagnosticar problemas retroativamente — sem reconstruir de memória.

Por que aprender

🗂️ Estrutura de logs do Hermes

~/.hermes/logs/

Diretório raiz dos logs. Cada sessão gera um arquivo com timestamp no nome.

session-YYYY-MM-DD.log

Arquivo de log por sessão. Contém todas as chamadas de modelo, ferramentas executadas e decisões do agente.

💻 Comandos de log

hermes logs --last 10

Mostra os últimos 10 eventos do log mais recente. Ideal para verificação rápida do que aconteceu.

hermes logs --session [ID]

Log completo de uma sessão específica. Use quando precisar reconstruir o que aconteceu em uma tarefa específica.

hermes logs --cost

Resumo de custo por sessão — tokens consumidos e valor gasto por chamada de modelo.

Conceitos-chave

~/.hermes/logs/

Diretório raiz dos logs — primeiro lugar a verificar quando algo vai errado

hermes logs --last

Comando de verificação rápida para os eventos mais recentes

Tokens e custo por chamada

Os logs registram custo granular — permite identificar chamadas mais caras

Diagnóstico retroativo

Logs permitem reconstruir decisões do agente sem depender de memória

3

🖥️ Dashboard do OpenRouter como painel de saúde

O que é

O dashboard do OpenRouter centraliza todas as informações financeiras do sistema. Verificar 2 minutos por dia é suficiente para detectar anomalias antes que se tornem problemas grandes.

Por que aprender

📈 O que verificar em openrouter.ai/activity

1.
Custo do dia anterior vs média dos últimos 7 dias

Anomalia: custo 2x+ acima da média. Indica: loop runaway, tarefa inesperadamente cara ou configuração errada.

2.
Modelo com maior custo

Anomalia: modelo secundário consumindo mais que o Worker. Indica: roteamento errado ou fallback acionado com frequência.

3.
Taxa de erro por modelo

Anomalia: taxa de erro acima de 5%. Indica: problema de configuração, modelo em instabilidade ou rate limit crônico.

4.
Latência por modelo

Anomalia: latência acima de 30s para modelos que normalmente respondem em 5–10s. Indica: sobrecarga do provedor.

Conceitos-chave

Revisão diária de 2 minutos

O ritual mínimo de manutenção — custo vs anomalia, modelo mais caro, taxa de erro

Custo vs média 7 dias

A comparação mais útil para detectar anomalias rapidamente

Taxa de erro

Acima de 5% indica problema que precisa de investigação imediata

Latência por modelo

Latência alta indica sobrecarga do provedor — avaliar se vale mudar para fallback temporariamente

4

🔔 Alertas de falha — configurando notificações

O que é

Alertas proativos eliminam a necessidade de monitoramento ativo constante. Você age quando precisa, não monitora constantemente.

Por que aprender

📋 4 eventos críticos para configurar alertas

1
Custo diário excede o limite

Configurar no OpenRouter nativo. Dispara email quando o gasto do dia ultrapassa o threshold definido.

2
Erro 429 repetido — rate limit crônico

Quando o mesmo modelo retorna 429 múltiplas vezes consecutivas, indica rate limit estrutural que precisa de BYOK ou modelo alternativo.

3
Job agendado não completou no tempo esperado

Hermes nativo. Indica tarefa presa, loop sem convergência ou falha silenciosa na execução.

4
soul.md não atualizado há mais de 30 dias

Verificação periódica manual ou via script. soul.md desatualizado = contexto desalinhado = outputs menos relevantes.

💡 Telegram como canal de alerta

Para alertas em tempo real no celular: use o bot do Hermes nativo ou crie um Webhook para seu bot pessoal do Telegram. O Telegram tem melhor confiabilidade para notificações críticas que email, que pode ir para spam.

Conceitos-chave

Alerta de custo

Primeiro sinal de loop runaway ou tarefa inesperadamente cara

Alerta de rate limit crônico

429 repetido indica problema estrutural — não é falha temporária, precisa de ação

soul.md stale

30 dias sem atualização é o threshold para considerar o contexto desatualizado

Telegram como canal

Notificação imediata no celular — mais confiável que email para alertas críticos

5

⏱️ Revisão diária — o ritual de 5 minutos

O que é

5 minutos por dia de revisão previne horas de debugging quando algo vai errado. É o custo de manutenção mais barato possível para um sistema de produção.

Por que aprender

1

Abrir o OpenRouter dashboard (1 min)

Verificar custo de ontem vs média. Identificar qualquer anomalia óbvia antes de iniciar o dia de trabalho.

2

Verificar jobs incompletos no Hermes (1 min)

hermes jobs --status. Tarefas com status "running" por mais de 12 horas merecem investigação.

3

Ler o resumo das últimas 24 horas (2 min)

Peça ao Hermes: "Hermes, resuma o que você fez nas últimas 24 horas". Confirma que o agente executou o que foi planejado e nada além.

4

Verificar alertas pendentes e soul.md (1 min)

Checar notificações de alerta. Confirmar que o soul.md ainda reflete mudanças recentes no seu contexto.

💡 Automatizando o ritual

Peça ao Hermes para enviar um resumo diário às 8h: "Hermes, configure um job diário às 8h para me enviar um sumário de saúde do sistema: custo de ontem, jobs ativos, e qualquer anomalia detectada nos logs."

Conceitos-chave

Ritual de 5 minutos

O custo de manutenção mínimo para um sistema de produção confiável

Resumo diário automático

Hermes pode enviar o sumário proativamente — elimina a necessidade de verificação manual

soul.md vs realidade atual

Verificar se o contexto ainda reflete mudanças recentes no seu negócio ou objetivos

Prevenção vs remediação

5 min/dia de prevenção custa menos que horas de diagnóstico e recuperação

6

🔁 Detectando tarefas presas ou loops infinitos

O que é

Loops infinitos são o bug mais caro de um sistema de IA agêntica. Um loop overnight sem parada pode consumir créditos significativos antes de ser detectado manualmente.

Por que aprender

⚠️ Sinais de loop infinito

  • Número de iterações crescendo sem convergência — 10, 15, 20 iterações sem que o Crítico retorne SHIP
  • Mesmo tipo de reprovação repetindo — o Crítico reprova com o mesmo motivo 3+ vezes consecutivas
  • Custo subindo sem entrega — tokens consumidos aumentando sem que o resultado seja retornado
  • Hermes "trabalhando" sem retornar resultado — sessão ativa por mais tempo que o esperado para a tarefa

🛡️ Proteção contra loops infinitos — instrução no Worker

"Se o Crítico retornar REVISE com o mesmo problema

pela terceira vez consecutiva:

1. Pare de tentar resolver o problema diretamente

2. Sinalize STUCK: [descrição do problema recorrente]

3. Escale para o Condutor com o contexto completo

4. Não tente uma quarta iteração do mesmo ângulo"

Conceitos-chave

Sinal STUCK

O Worker sinaliza que não consegue avançar — visível e recuperável, não silencioso

Escala para o Condutor

O Condutor tem contexto para reformular o briefing e desbloquear o loop

Limite de iterações como proteção

Três tentativas consecutivas com o mesmo problema é o threshold padrão

Custo crescente como sinal

Custo subindo sem entrega é um sinal objetivo de loop — verificável no dashboard

7

📚 Documentando o histórico de decisões do agente

O que é

O histórico de decisões é o dado bruto para melhoria contínua. Sem revisão periódica, você perde a oportunidade de aprender com o que o sistema já fez.

Por que aprender

🗂️ ~/.hermes/memory/ — o arquivo de decisões

~/.hermes/memory/

Histórico persistente de decisões, conversas e contexto acumulado pelo Hermes entre sessões.

hermes memory --export

Exporta o histórico de memória em formato legível para análise externa.

1

Quais tipos de tarefa foram delegados com mais frequência?

Revele o padrão de uso real vs o planejado. Tipos de tarefa frequentes são candidatos a persona especializada.

2

Quais tiveram melhor qualidade de output?

Identifica onde o sistema é mais eficiente — informa onde vale aumentar a carga de trabalho delegada.

3

Quais foram reprovados pelo Crítico mais vezes?

Padrão de reprovação recorrente indica gap sistemático no briefing do Condutor para esse tipo de tarefa.

4

Adicionar insights à seção Memory do soul.md

Os insights da análise vão para o soul.md como contexto permanente. O Hermes passa a levar em conta esses padrões em execuções futuras.

Conceitos-chave

~/.hermes/memory/

Arquivo de decisões — a base para análise de padrões e melhoria contínua

Tipos de tarefa com melhor ROI

Onde o sistema entrega mais valor — informa onde aumentar a delegação

Padrão de reprovação

Gap sistemático que se manifesta como reprovação recorrente do Crítico

Insights para o soul.md

O mecanismo de aprendizado — o Hermes incorpora padrões ao seu contexto permanente

Resumo do Módulo

4 categorias de monitoramento — disponibilidade, custo, qualidade e saúde do soul.md
~/.hermes/logs/ — onde ficam os logs para diagnóstico retroativo
2 minutos no OpenRouter — revisão diária mínima para detectar anomalias financeiras
4 eventos críticos para alertas — custo, 429 crônico, job incompleto e soul.md stale
Sinal STUCK — proteção contra loops infinitos com escala automática para o Condutor
~/.hermes/memory/ — histórico de decisões para análise de padrões e melhoria contínua

Próximo Módulo:

3.4 — Segurança — Chaves e dados sensíveis