Monitoramento, logs e saúde | TRIAD

🔍 O que monitorar em um sistema Hermes ativo

O que é

Monitoramento sistemático transforma o Hermes de uma ferramenta que funciona às vezes em um sistema confiável. Um sistema mal monitorado deriva silenciosamente para comportamento inesperado — e você só descobre quando já tem consequências.

Por que aprender

1. Disponibilidade

O Hermes responde quando você o chama? Os modelos configurados estão acessíveis?

Verificar: resposta a uma pergunta simples, acesso ao soul.md, execução de ferramenta básica.

2. Custo

O gasto está dentro do orçamento definido? Há anomalias em relação à média dos últimos dias?

Verificar: dashboard do OpenRouter, custo de ontem vs média de 7 dias.

3. Qualidade

Os outputs do Triad estão sendo aprovados em menos de 3 iterações? O Crítico está convergindo?

Verificar: log de execuções, número médio de iterações nas últimas 5 tarefas.

4. Saúde do soul.md

As informações do soul.md ainda refletem a realidade atual? Mudanças importantes foram registradas?

Verificar: data da última atualização, resposta do Hermes quando perguntado sobre contexto atual.

Conceitos-chave

Quatro categorias

Disponibilidade, custo, qualidade e saúde do soul.md — cada uma detecta tipos diferentes de problemas

Deriva silenciosa

O sistema pode degradar gradualmente sem que nenhum evento único indique o problema

Monitoramento como prevenção

Detectar antes das consequências é o objetivo — não remediar depois

Atualidade do soul.md

soul.md desatualizado é uma forma de degradação de qualidade — o contexto está errado

📁 Logs nativos do Hermes — onde ficam e como ler

O que é

Os logs do Hermes respondem à pergunta "por que o agente fez X?". Saber onde ficam e como lê-los é o que permite diagnosticar problemas retroativamente — sem reconstruir de memória.

Por que aprender

🗂️ Estrutura de logs do Hermes

~/.hermes/logs/

Diretório raiz dos logs. Cada sessão gera um arquivo com timestamp no nome.

session-YYYY-MM-DD.log

Arquivo de log por sessão. Contém todas as chamadas de modelo, ferramentas executadas e decisões do agente.

💻 Comandos de log

hermes logs --last 10

Mostra os últimos 10 eventos do log mais recente. Ideal para verificação rápida do que aconteceu.

hermes logs --session [ID]

Log completo de uma sessão específica. Use quando precisar reconstruir o que aconteceu em uma tarefa específica.

hermes logs --cost

Resumo de custo por sessão — tokens consumidos e valor gasto por chamada de modelo.

Conceitos-chave

~/.hermes/logs/

Diretório raiz dos logs — primeiro lugar a verificar quando algo vai errado

hermes logs --last

Comando de verificação rápida para os eventos mais recentes

Tokens e custo por chamada

Os logs registram custo granular — permite identificar chamadas mais caras

Diagnóstico retroativo

Logs permitem reconstruir decisões do agente sem depender de memória

🖥️ Dashboard do OpenRouter como painel de saúde

O que é

O dashboard do OpenRouter centraliza todas as informações financeiras do sistema. Verificar 2 minutos por dia é suficiente para detectar anomalias antes que se tornem problemas grandes.

Por que aprender

📈 O que verificar em openrouter.ai/activity

Custo do dia anterior vs média dos últimos 7 dias

Anomalia: custo 2x+ acima da média. Indica: loop runaway, tarefa inesperadamente cara ou configuração errada.

Modelo com maior custo

Anomalia: modelo secundário consumindo mais que o Worker. Indica: roteamento errado ou fallback acionado com frequência.

Taxa de erro por modelo

Anomalia: taxa de erro acima de 5%. Indica: problema de configuração, modelo em instabilidade ou rate limit crônico.

Latência por modelo

Anomalia: latência acima de 30s para modelos que normalmente respondem em 5–10s. Indica: sobrecarga do provedor.

Conceitos-chave

Revisão diária de 2 minutos

O ritual mínimo de manutenção — custo vs anomalia, modelo mais caro, taxa de erro

Custo vs média 7 dias

A comparação mais útil para detectar anomalias rapidamente

Taxa de erro

Acima de 5% indica problema que precisa de investigação imediata

Latência por modelo

Latência alta indica sobrecarga do provedor — avaliar se vale mudar para fallback temporariamente

🔔 Alertas de falha — configurando notificações

O que é

Alertas proativos eliminam a necessidade de monitoramento ativo constante. Você age quando precisa, não monitora constantemente.

Por que aprender

📋 4 eventos críticos para configurar alertas

Custo diário excede o limite

Configurar no OpenRouter nativo. Dispara email quando o gasto do dia ultrapassa o threshold definido.

Erro 429 repetido — rate limit crônico

Quando o mesmo modelo retorna 429 múltiplas vezes consecutivas, indica rate limit estrutural que precisa de BYOK ou modelo alternativo.

Job agendado não completou no tempo esperado

Hermes nativo. Indica tarefa presa, loop sem convergência ou falha silenciosa na execução.

soul.md não atualizado há mais de 30 dias

Verificação periódica manual ou via script. soul.md desatualizado = contexto desalinhado = outputs menos relevantes.

💡 Telegram como canal de alerta

Para alertas em tempo real no celular: use o bot do Hermes nativo ou crie um Webhook para seu bot pessoal do Telegram. O Telegram tem melhor confiabilidade para notificações críticas que email, que pode ir para spam.

Conceitos-chave

Alerta de custo

Primeiro sinal de loop runaway ou tarefa inesperadamente cara

Alerta de rate limit crônico

429 repetido indica problema estrutural — não é falha temporária, precisa de ação

soul.md stale

30 dias sem atualização é o threshold para considerar o contexto desatualizado

Telegram como canal

Notificação imediata no celular — mais confiável que email para alertas críticos

⏱️ Revisão diária — o ritual de 5 minutos

O que é

5 minutos por dia de revisão previne horas de debugging quando algo vai errado. É o custo de manutenção mais barato possível para um sistema de produção.

Por que aprender

Abrir o OpenRouter dashboard (1 min)

Verificar custo de ontem vs média. Identificar qualquer anomalia óbvia antes de iniciar o dia de trabalho.

Verificar jobs incompletos no Hermes (1 min)

hermes jobs --status. Tarefas com status "running" por mais de 12 horas merecem investigação.

Ler o resumo das últimas 24 horas (2 min)

Peça ao Hermes: "Hermes, resuma o que você fez nas últimas 24 horas". Confirma que o agente executou o que foi planejado e nada além.

Verificar alertas pendentes e soul.md (1 min)

Checar notificações de alerta. Confirmar que o soul.md ainda reflete mudanças recentes no seu contexto.

💡 Automatizando o ritual

Peça ao Hermes para enviar um resumo diário às 8h: "Hermes, configure um job diário às 8h para me enviar um sumário de saúde do sistema: custo de ontem, jobs ativos, e qualquer anomalia detectada nos logs."

Conceitos-chave

Ritual de 5 minutos

O custo de manutenção mínimo para um sistema de produção confiável

Resumo diário automático

Hermes pode enviar o sumário proativamente — elimina a necessidade de verificação manual

soul.md vs realidade atual

Verificar se o contexto ainda reflete mudanças recentes no seu negócio ou objetivos

Prevenção vs remediação

5 min/dia de prevenção custa menos que horas de diagnóstico e recuperação

🔁 Detectando tarefas presas ou loops infinitos

O que é

Loops infinitos são o bug mais caro de um sistema de IA agêntica. Um loop overnight sem parada pode consumir créditos significativos antes de ser detectado manualmente.

Por que aprender

⚠️ Sinais de loop infinito

•Número de iterações crescendo sem convergência — 10, 15, 20 iterações sem que o Crítico retorne SHIP
•Mesmo tipo de reprovação repetindo — o Crítico reprova com o mesmo motivo 3+ vezes consecutivas
•Custo subindo sem entrega — tokens consumidos aumentando sem que o resultado seja retornado
•Hermes "trabalhando" sem retornar resultado — sessão ativa por mais tempo que o esperado para a tarefa

🛡️ Proteção contra loops infinitos — instrução no Worker

"Se o Crítico retornar REVISE com o mesmo problema

pela terceira vez consecutiva:

1. Pare de tentar resolver o problema diretamente

2. Sinalize STUCK: [descrição do problema recorrente]

3. Escale para o Condutor com o contexto completo

4. Não tente uma quarta iteração do mesmo ângulo"

Conceitos-chave

Sinal STUCK

O Worker sinaliza que não consegue avançar — visível e recuperável, não silencioso

Escala para o Condutor

O Condutor tem contexto para reformular o briefing e desbloquear o loop

Limite de iterações como proteção

Três tentativas consecutivas com o mesmo problema é o threshold padrão

Custo crescente como sinal

Custo subindo sem entrega é um sinal objetivo de loop — verificável no dashboard

📚 Documentando o histórico de decisões do agente

O que é

O histórico de decisões é o dado bruto para melhoria contínua. Sem revisão periódica, você perde a oportunidade de aprender com o que o sistema já fez.

Por que aprender

🗂️ ~/.hermes/memory/ — o arquivo de decisões

~/.hermes/memory/

Histórico persistente de decisões, conversas e contexto acumulado pelo Hermes entre sessões.

hermes memory --export

Exporta o histórico de memória em formato legível para análise externa.

Quais tipos de tarefa foram delegados com mais frequência?

Revele o padrão de uso real vs o planejado. Tipos de tarefa frequentes são candidatos a persona especializada.

Quais tiveram melhor qualidade de output?

Identifica onde o sistema é mais eficiente — informa onde vale aumentar a carga de trabalho delegada.

Quais foram reprovados pelo Crítico mais vezes?

Padrão de reprovação recorrente indica gap sistemático no briefing do Condutor para esse tipo de tarefa.

Adicionar insights à seção Memory do soul.md

Os insights da análise vão para o soul.md como contexto permanente. O Hermes passa a levar em conta esses padrões em execuções futuras.

Conceitos-chave

~/.hermes/memory/

Arquivo de decisões — a base para análise de padrões e melhoria contínua

Tipos de tarefa com melhor ROI

Onde o sistema entrega mais valor — informa onde aumentar a delegação

Padrão de reprovação

Gap sistemático que se manifesta como reprovação recorrente do Crítico

Insights para o soul.md

O mecanismo de aprendizado — o Hermes incorpora padrões ao seu contexto permanente

✅ Resumo do Módulo

✓

4 categorias de monitoramento — disponibilidade, custo, qualidade e saúde do soul.md

✓

~/.hermes/logs/ — onde ficam os logs para diagnóstico retroativo

✓

2 minutos no OpenRouter — revisão diária mínima para detectar anomalias financeiras

✓

4 eventos críticos para alertas — custo, 429 crônico, job incompleto e soul.md stale

✓

Sinal STUCK — proteção contra loops infinitos com escala automática para o Condutor

✓

~/.hermes/memory/ — histórico de decisões para análise de padrões e melhoria contínua

Próximo Módulo:

3.4 — Segurança — Chaves e dados sensíveis

← Módulo Anterior Próximo Módulo →