O Sistema Triad | TRIAD — AutomationsAI

1

🗺️ Visão geral do fluxo: Condutor → Executor → Crítico

O Triad é um sistema de três papéis distintos executados por três modelos diferentes. Cada papel resolve um problema que os outros não conseguem resolver sozinhos — e a separação é o que produz resultado verificado em vez de output plausível.

O que é

Um pipeline com três etapas obrigatórias: o Condutor (Opus) transforma o objetivo em briefing preciso; o Executor (DeepSeek) explora múltiplos ângulos em paralelo; o Crítico (GPT-5.5) avalia cada draft contra os critérios do briefing e emite SHIP, REVISE ou FUNDAMENTAL FLAW. O loop Executor↔Crítico roda até SHIP, e o Condutor faz a validação final.

🔗 O fluxo, ponta a ponta

Usuário

│ objetivo bruto

▼

┌─────────────────────────┐

│ CONDUTOR (Opus) │ interroga, briefa, valida

└─────────────────────────┘

│ briefing estruturado

▼

┌─────────────────────────┐

│ EXECUTOR (DeepSeek) │ 3–5 ângulos em paralelo

└─────────────────────────┘

│ drafts ◄──────┐

▼ │ REVISE

┌─────────────────────────┐

│ CRÍTICO (GPT-5.5) │ SHIP / REVISE / FLAW

└─────────────────────────┘

│ SHIP

▼

CONDUTOR valida → entrega ao usuário

🎙️ CONDUTOR

Claude Opus

Pergunta o que falta, escreve o briefing, valida o output final contra o objetivo original.

⚙️ EXECUTOR

DeepSeek

Explora 3–5 ângulos em paralelo com premissas distintas. Volume e custo baixo.

🔍 CRÍTICO

GPT-5.5

Avalia cada ângulo contra os critérios. Emite veredicto específico, não opinião.

🔑 Conceitos-chave

Separação de papéis

Cada modelo resolve um problema que os outros não resolvem sozinhos

Pipeline determinístico

A ordem Condutor → Executor → Crítico → Validação é fixa

Loop interno

Executor e Crítico iteram entre si até SHIP — o usuário não participa

Validação final

O Condutor revisa o SHIP do Crítico antes de entregar — duplo controle

2

🎙️ Opus como Condutor — interrogar, briefar, validar

O Condutor é o único papel que conversa com o usuário. Claude Opus é escolhido aqui porque seu forte é raciocínio estruturado — ele interroga até entender, escreve um briefing testável, e valida o resultado final contra o objetivo original.

O que é

O modelo de planejamento — Claude Opus opera como gerente de projeto. Recebe o pedido do usuário (geralmente vago), faz perguntas até eliminar ambiguidade, produz um briefing estruturado com critérios mensuráveis, e no final do loop revisa o output entregue pelo Crítico antes de devolver ao usuário.

📝 Estrutura de um briefing do Condutor

# BRIEFING

OBJETIVO: [uma frase, sem ambiguidade]

CRITÉRIOS DE SUCESSO:

- [testável #1]

- [testável #2]

- [testável #3]

RESTRIÇÕES:

- [o que NÃO fazer]

- [formatos inaceitáveis]

CONTEXTO: [dados que o Executor não tem]

ÂNGULOS SUGERIDOS:

1. [premissa A]

2. [premissa B — fundamentalmente diferente de A]

3. [premissa C]

✗ Sem Condutor

✗Usuário envia objetivo vago direto ao Executor
✗Crítico avalia sem critérios — vira opinião
✗Loop diverge: SHIP em coisa errada
✗Resultado plausível, não verificado

✓ Com Condutor

✓Briefing elimina ambiguidade antes da execução
✓Crítico tem critérios objetivos para julgar
✓Loop converge: SHIP é alinhado ao objetivo
✓Validação final confirma encaixe com o pedido

💡 Por que Opus aqui

Opus tem o melhor raciocínio passo-a-passo da família Anthropic. Ele consegue (a) detectar lacunas no pedido inicial, (b) formular perguntas que reduzem ambiguidade, (c) sintetizar respostas em critérios testáveis. Esses três passos definem se o resto do Triad vai produzir algo útil ou apenas plausível.

🔑 Conceitos-chave

Interrogação prévia

O Condutor pergunta antes de despachar — não assume

Briefing como contrato

O briefing é o contrato que o Crítico usa para julgar

Validação final

Mesmo após SHIP do Crítico, o Condutor revisa o encaixe

Único ponto de contato

O usuário só fala com o Condutor — Executor e Crítico ficam encapsulados

3

⚙️ DeepSeek como Executor — volume, custo, resiliência

O Executor produz volume — 3–5 ângulos por iteração, e potencialmente dezenas de iterações até SHIP. DeepSeek é escolhido aqui porque combina capacidade de raciocínio com custo baixo o suficiente para rodar por horas sem inviabilizar a operação.

O que é

O modelo de execução — DeepSeek opera como força de trabalho do Triad. Lê o briefing, gera múltiplos ângulos com premissas diferentes, recebe feedback do Crítico, revisa e ressubmete. Pode rodar continuamente por horas em tarefas grandes sem que o custo se torne proibitivo.

$0.87

por milhão de tokens

DeepSeek — Executor

~$15

por milhão de tokens

Opus — Condutor

~$10

por milhão de tokens

GPT-5.5 — Crítico

🛠️ Por que DeepSeek aqui

•Custo 17× menor que Opus: permite gerar 17× mais drafts pelo mesmo orçamento — viabiliza paralelismo real.
•Janela de contexto longa: aguenta briefings densos sem perder o início.
•Arquitetura MoE: ativa apenas os experts relevantes por token, mantendo latência baixa em iterações longas.
•Resiliência operacional: roda por horas sem rate limit estourar — ideal para tarefas com 10+ iterações.

💡 Princípio do executor "barato"

O Executor é o papel que mais consome tokens — porque é quem produz volume. Usar o modelo mais caro aqui inverteria a economia do Triad. Você quer o modelo mais barato que ainda consiga raciocinar — não o modelo mais inteligente disponível.

🔑 Conceitos-chave

Executor como força bruta

Gerar volume é mais importante que gerar perfeição na primeira tentativa

Custo viabiliza loop

17× mais barato que Opus permite 10+ iterações sem inviabilizar a operação

MoE para latência

Mixture of Experts ativa só o necessário — bom para iterações longas

Resiliência de rate limit

Sustenta tarefas multi-hora sem interrupção

4

🔍 GPT-5.5 como Crítico — rigor, especificidade, aprovação

O Crítico é o portão de qualidade. GPT-5.5 é escolhido aqui porque tem o melhor desempenho em detectar premissas implícitas e falhas lógicas finas — exatamente o que diferencia uma resposta plausível de uma resposta correta.

O que é

O modelo de revisão — GPT-5.5 recebe o briefing e cada draft do Executor, e emite um de três veredictos: SHIP (atende todos os critérios), REVISE (problema localizado e corrigível), ou FUNDAMENTAL FLAW (a premissa do draft está errada — recomeçar). Cada veredicto vem com especificação do problema, localização no draft e direção da correção.

✓ SHIP

Todos os critérios do briefing foram atendidos. Encaminhar ao Condutor para validação final.

↻ REVISE

Problema específico e localizado. Executor revisa a parte indicada e ressubmete.

✗ FUNDAMENTAL FLAW

A premissa do draft está errada. Descartar e gerar novo ângulo com premissa diferente.

✗ Crítica vaga (rejeitada)

✗"Análise rasa, melhorar"
✗"Faltam exemplos"
✗"Resultado fraco"
✗"Refazer com mais profundidade"

✓ Crítica específica (válida)

✓"Ângulo 2 assume LTV ≥ 12 meses sem dado de retenção"
✓"Critério #3 (ticket ≥ $3k) não atendido no nicho A"
✓"Parágrafo 4 cita competidores sem preço — viola restrição"
✓"FUNDAMENTAL FLAW: ângulo 3 confunde causa e correlação"

📝 System prompt do Crítico (núcleo)

Você é o Crítico. Você NÃO escreve drafts.

Para cada draft recebido:

1. Liste cada critério do briefing

2. Marque ATENDIDO/NÃO-ATENDIDO/PREMISSA-INVÁLIDA

3. Emita veredicto: SHIP | REVISE | FUNDAMENTAL FLAW

4. Se REVISE: localize o trecho, descreva o gap,

proponha direção (NÃO escreva o conteúdo).

Proibido: "poderia ser melhor", "mais detalhado",

"mais profundo", "mais exemplos".

🔑 Conceitos-chave

Três veredictos

SHIP, REVISE, FUNDAMENTAL FLAW — sem zona cinzenta intermediária

Crítico não escreve

Aponta direção; reescrita é trabalho do Executor — separação de papéis

Especificidade obrigatória

Onde, o quê, por que — sem isso o veredicto é inválido

Premissa vs execução

REVISE corrige; FUNDAMENTAL FLAW recomeça — distinção crítica

5

🔁 O loop interno DeepSeek ↔ GPT — até o SHIP

Entre o briefing e o SHIP existe um loop fechado. O Executor produz, o Crítico julga, o Executor revisa — e essa iteração continua até que todos os critérios do briefing sejam atendidos. O usuário não vê esse loop; ele só recebe o resultado validado.

O que é

O ciclo de iteração entre Executor e Crítico. Começa quando o Executor recebe o briefing e termina quando o Crítico emite SHIP em todos os ângulos avaliados. Tarefas de complexidade média convergem em 2–3 iterações; tarefas com premissas instáveis podem precisar de 5+.

⏱️ Timeline de uma execução real

D1

Executor → 1º draft

3 ângulos gerados. Ângulo 1: nicho clínicas odontológicas. Ângulo 2: SaaS para pequenos contadores. Ângulo 3: serviço de manutenção predial.

C1

Crítico → REVISE

"Ângulo 1 assume ticket $3k+ sem dado. Ângulo 2 cita 3 competidores sem preço — viola restrição. Ângulo 3 sem urgência de compra documentada."

D2

Executor → 2º draft

Ângulo 1 com dado de ticket médio (R$ 4.200, fonte CFO). Ângulo 2 com preço dos 3 competidores. Ângulo 3 reescrito com gatilho de urgência (multas ANVISA).

C2

Crítico → REVISE

"Ângulo 1 e 3 OK. Ângulo 2: o preço citado é do plano básico — o critério #2 exige ticket médio efetivo. Recalcular com mix realista."

D3

Executor → 3º draft

Ângulo 2 recalculado: mix 60% básico + 30% plus + 10% enterprise → ticket médio $3.180. Atende critério.

✓

Crítico → SHIP

"Todos os 3 ângulos atendem aos 5 critérios do briefing. Encaminhar ao Condutor para validação final."

🎯 Benchmark de convergência

Tarefas de complexidade média devem convergir em 2–3 iterações. Acima de 5 iterações, suspeite do briefing — provavelmente um critério está mal formulado ou um ângulo precisa de inversão de premissa.

🔑 Conceitos-chave

Loop fechado

Usuário fora; Executor e Crítico iteram sozinhos até SHIP

Convergência por critério

Cada iteração resolve um critério não atendido — progresso mensurável

Limite de iterações

5+ iterações é sinal de briefing fraco, não de executor ruim

SHIP como gate

Sem SHIP, nada chega ao Condutor — sem Condutor, nada chega ao usuário

6

🌈 Por que os modelos devem ser de arquiteturas diferentes

Se você usasse três instâncias do mesmo modelo, eles compartilhariam as mesmas cegueiras — premissas implícitas, padrões de raciocínio, vieses de treino. Arquiteturas diferentes pegam erros diferentes, e essa diversidade é o que torna o Triad mais que a soma das partes.

O que é

O princípio da diversidade arquitetural — combinar modelos que foram treinados com filosofias diferentes (Constitutional AI, RLHF + tools, MoE) para que as cegueiras de um sejam compensadas pelos fortes do outro. É a versão LLM da revisão por pares de disciplinas distintas.

Claude (Anthropic)

Constitutional AI

Treinado com princípios constitucionais aplicados recursivamente. Forte em raciocínio estruturado, ético e em seguir instruções complexas.

Pega: ambiguidade, escopo, ética operacional

GPT (OpenAI)

RLHF + Tools

Treinado com RLHF intensivo e uso de ferramentas. Forte em detecção de inconsistência factual e verificação contra padrões conhecidos.

Pega: alucinação, falha lógica, premissa frágil

DeepSeek

Mixture of Experts

Arquitetura MoE com experts especializados por domínio. Forte em volume, paralelismo e em ângulos não-convencionais por roteamento de experts.

Pega: ângulos que Claude/GPT descartariam

🧪 O experimento mental

Imagine três Claudes Opus no Triad. Se Claude tem um viés sistemático contra X (ex: ângulos de negócio com risco regulatório), o Condutor não vai sugerir X, o Executor não vai gerar X, e o Crítico não vai detectar a ausência de X. O viés vira invisível para o sistema inteiro.

Agora misture: Opus condutor, DeepSeek executor (com experts diferentes), GPT-5.5 crítico (com RLHF diferente). A chance de todos os três compartilharem o mesmo viés cai drasticamente. O sistema vê o que cada modelo sozinho não veria.

💡 Analogia: revisão por pares

Em ciência, um paper de biologia revisto por três biólogos do mesmo grupo é mais frágil que o mesmo paper revisto por um biólogo, um estatístico e um físico. As cegueiras disciplinares são diferentes, e os erros que escapam de cada um são detectados pelos outros. O Triad aplica esse princípio a modelos de linguagem.

🔑 Conceitos-chave

Cegueira compartilhada

Mesma arquitetura = mesmos vieses = mesmos pontos cegos

Diversidade arquitetural

Constitutional AI + RLHF + MoE produz três tipos de visão diferentes

Erro complementar

Os erros de cada modelo são detectados pelos pontos fortes dos outros

Revisão por pares

A justificativa científica do Triad — diversidade disciplinar reduz erro

7

🎯 Exemplo prático — escolha de nicho de negócio

Para tornar o fluxo concreto, vamos seguir uma execução real do início ao fim. O usuário envia uma pergunta vaga; o Triad devolve três nichos validados contra critérios mensuráveis. Cada passo do pipeline é mostrado.

O que é

Um walkthrough completo do Triad em ação, desde o pedido do usuário ("ajude a escolher um nicho de negócio") até a entrega final, passando pela interrogação do Condutor, briefing, exploração paralela do Executor, loop com o Crítico e validação final.

⏱️ Pipeline completo, passo a passo

U

Usuário

"Me ajuda a escolher um nicho de negócio para abrir."

🎙️

Condutor (Opus) — interrogação

"Antes de despachar: (1) capital disponível? (2) tempo até precisar de receita? (3) localização? (4) está disposto a operar B2B ou só B2C? (5) tem alguma habilidade técnica que serve de barreira?"

U

Usuário responde

"R$ 80k. 6 meses. Curitiba. B2B preferível. Sei programar e tenho 8 anos de experiência."

🎙️

Condutor → Briefing

OBJETIVO: 3 nichos B2B em Curitiba com break-even < 6m

CRITÉRIOS:

- ticket médio ≥ R$ 3.000

- urgência alta (perda financeira em < 30 dias)

- ≥ 3 competidores identificados com preço

- barreira técnica que aproveite programação

- investimento inicial ≤ R$ 80k

RESTRIÇÕES: sem B2C; sem nicho saturado em Curitiba

ÂNGULOS: 1) automação fiscal · 2) compliance regulatório

3) integração de ERPs · 4) operação de e-commerce

⚙️

Executor (DeepSeek) → 1º draft

Explora os 4 ângulos. Cada um com mercado endereçável, ticket estimado, 3 competidores, urgência e custo de aquisição. Total: ~12 páginas.

🔍

Crítico (GPT-5.5) → REVISE

"Ângulo 1 OK. Ângulo 2 não documenta urgência ≥ 30d. Ângulo 3 cita competidores nacionais — restrição local não foi avaliada. Ângulo 4 viola restrição (e-commerce é B2C-adjacente em Curitiba)."

⚙️

Executor → 2º draft

Ângulo 2 revisto (multa LGPD em 30d como gatilho). Ângulo 3 revisto (competidores locais Curitiba). Ângulo 4 descartado e substituído por "automação operacional para indústrias do CIC".

🔍

Crítico → REVISE

"Ângulos 1, 2, 3 atendem. Ângulo 4 ainda não documenta ticket ≥ R$ 3k — projetos de automação industrial geralmente são acima, mas o draft não cita fonte."

⚙️

Executor → 3º draft

Ângulo 4 com ticket médio de R$ 8.500 documentado (3 cases públicos do CIC + Sebrae PR).

✓

Crítico → SHIP

"Os 4 ângulos atendem aos 5 critérios. Encaminhar ao Condutor."

🎙️

Condutor → Validação final

"Os 4 ângulos batem com o objetivo. Selecionando os 3 melhores (1, 3, 4) por melhor encaixe com 'programação como barreira' — o critério implícito do usuário. Entregando ranqueado."

U

Usuário recebe

3 nichos validados com ticket, urgência, competidores, barreira técnica e investimento — cada um defensável contra os critérios que o próprio usuário ajudou a definir.

🎯 O que mudou em relação a "pedir para um LLM"

Se o usuário tivesse perguntado a um único modelo "que nicho devo abrir?", a resposta seria plausível mas não verificada — sem critérios, sem comparação de ângulos, sem revisão por outra arquitetura. O Triad força que cada afirmação passe por um teste antes de chegar ao usuário.

🔑 Conceitos-chave

Interrogação antes da execução

5 perguntas do Condutor eliminaram 80% da ambiguidade do pedido

3 iterações até SHIP

Dentro do benchmark de complexidade média

Critérios como contrato

O Crítico só aprova quando cada critério é demonstrado, não suposto

Validação final ranqueia

O Condutor não só valida — prioriza com base no contexto do usuário

⚡ O Sistema Triad

🗺️ Visão geral do fluxo: Condutor → Executor → Crítico

O que é

🔗 O fluxo, ponta a ponta

🔑 Conceitos-chave

🎙️ Opus como Condutor — interrogar, briefar, validar

O que é

📝 Estrutura de um briefing do Condutor

✗ Sem Condutor

✓ Com Condutor

💡 Por que Opus aqui

🔑 Conceitos-chave

⚙️ DeepSeek como Executor — volume, custo, resiliência

O que é

🛠️ Por que DeepSeek aqui

💡 Princípio do executor "barato"

🔑 Conceitos-chave

🔍 GPT-5.5 como Crítico — rigor, especificidade, aprovação

O que é

✗ Crítica vaga (rejeitada)

✓ Crítica específica (válida)

📝 System prompt do Crítico (núcleo)

🔑 Conceitos-chave

🔁 O loop interno DeepSeek ↔ GPT — até o SHIP

O que é

⏱️ Timeline de uma execução real

🎯 Benchmark de convergência

🔑 Conceitos-chave

🌈 Por que os modelos devem ser de arquiteturas diferentes

O que é

🧪 O experimento mental

💡 Analogia: revisão por pares

🔑 Conceitos-chave

🎯 Exemplo prático — escolha de nicho de negócio

O que é

⏱️ Pipeline completo, passo a passo

🎯 O que mudou em relação a "pedir para um LLM"

🔑 Conceitos-chave

✅ Resumo do Módulo

Próximo Módulo: