Skip to main content

Command Palette

Search for a command to run...

Por que sua IA falha? O segredo não está no modelo, mas no "Agent Harness"

Seu modelo não é burro ele está mal equipado. Como a engenharia do sistema ao redor da IA importa mais do que o cérebro dentro dela.

Published
6 min read
Por que sua IA falha? O segredo não está no modelo, mas no "Agent Harness"
L

Runtimes Engineer and Developer Experience at PicPay.

Você já deve ter passado por isso: em um momento, o GPT ou o Claude resolve um problema complexo de código em segundos; no momento seguinte, a mesma IA esquece o contexto básico ou inventa uma informação inexistente. Se o "cérebro" (o modelo) é o mesmo, por que os resultados são tão inconsistentes?

Em 2026, a fronteira da tecnologia deixou de ser a busca pelo modelo mais "inteligente". O diferencial de desempenho agora reside no Agent Harness (ou "arreio" do agente). A falha da sua IA raramente é uma questão de "burrice" do modelo, mas sim uma falha de engenharia no ambiente onde ele opera, o seu substrato de execução.

O modelo é o motor, o harness é o carro

Para entender a diferença entre capacidade cognitiva bruta e trabalho útil, imagine um cavalo selvagem. Ele possui força bruta, mas, sem um arreio (harness), pode correr para qualquer lado ou se assustar com um ruído. O harness não torna o cavalo mais forte; ele permite que sua força seja direcionada de forma confiável.

Na IA, o modelo é o motor, mas o harness é o carro completo. Segundo a arquitetura proposta por WenHao Yu e Martin Fowler, um sistema de agentes robusto é composto por seis camadas de engenharia:

  1. Loop: ciclos de observação, decisão, ação e verificação.

  2. Tools: interfaces para ler arquivos, rodar código e acessar APIs.

  3. Context: curadoria do que a IA deve ver para evitar sobrecarga de tokens.

  4. Persistence: manutenção de estado e memória de longo prazo.

  5. Verification: auto-revisão, testes unitários e linters automáticos.

  6. Constraints: limites de gastos, segurança e permissões de acesso.

"O mesmo modelo sob diferentes harnesses parece uma espécie inteiramente diferente." — WenHao Yu

O salto de 52% para 66% sem mudar uma linha de código da IA

A prova definitiva de que a engenharia de sistemas supera a troca de modelos veio de um experimento da LangChain em fevereiro de 2026. Ao testar seu agente de codificação no Terminal Bench 2.0, a pontuação inicial foi de 52,8%.

Sem atualizar o modelo para uma versão mais potente, a equipe modificou apenas o harness. As mudanças incluíram:

  • Tuned reasoning budgets: mais tempo para planejamento e menos para implementação.

  • Injeção de contexto ambiental: mapeamento completo do diretório antes da tarefa.

  • Failure analysis: análise automatizada de padrões de erro entre execuções.

  • Anti-drift detection: identificação de loops repetitivos onde a IA editava o mesmo arquivo sem progresso.

O resultado? A precisão saltou para 66,5%, levando o agente ao Top 5 do ranking global. Isso demonstra que o "teto" de desempenho é definido pelo sistema de suporte, não pela inteligência inferencial do modelo.

O paradoxo da Vercel: menos ferramentas, mais precisão

Muitos acreditam que quanto mais ferramentas dermos a um agente, mais capaz ele será. O caso da Vercel prova o contrário através do princípio da "Least Agency" (Agência Mínima). Ao reduzir as ferramentas disponíveis de 15 para apenas 2, a empresa otimizou drasticamente a camada de Constraints (Restrições).

Os ganhos foram brutais:

  • Precisão: subiu de 80% para 100%.

  • Custo: redução de 37% no uso de tokens.

  • Velocidade: o sistema tornou-se 3,5 vezes mais rápido.

Ao restringir o espaço de decisão, você remove o "ruído" que causa alucinações. Um harness bem projetado reduz a superfície de ataque e de erro, garantindo que o modelo foque apenas na execução essencial.

Harness Engineering: O fim da "Engenharia de Prompt"

Em 2026, o foco mudou. Se antes o objetivo era descobrir a "palavra mágica" no prompt, hoje o foco é estruturar o sistema. O modelo CAR (Control, Agency, Runtime), detalhado no paper da preprints.org, define como os arquitetos projetam sistemas hoje:

  • Control: onde o julgamento humano vira restrição legível por máquina. Inclui arquivos como AGENTS.md, Repository Maps e políticas de linter.

  • Agency: a interface mediada de ação. Define como a IA interage com o substrato de execução (APIs, browsers, gRPC).

  • Runtime: gerenciamento de estado sobre o tempo. Envolve State Compaction (compactação de memória), Checkpoints e políticas de Rollback para recuperação de erros.

Segurança arquitetônica: quem pensa não deve agir

Um dos maiores riscos atuais é a "Lethal Trifecta": acesso a dados privados, exposição a conteúdo não confiável e um vetor de exfiltração. O paper Parallax argumenta que confiar em "prompts de segurança" é uma falácia, pois eles compartilham o mesmo substrato computacional que as ameaças.

A solução é a Separação Cognitivo-Executiva (CES). Nela, o sistema que "pensa" (LLM) é estruturalmente incapaz de agir. Toda proposta de ação passa pelo Shield, uma camada de validação independente com 4 níveis de determinismo:

  • Tier 0 (Policy): regras determinísticas e imutáveis (Ex: "Nunca apague a pasta /root").

  • Tier 1 (Classifier): heurísticas e modelos fixos para detectar injeção de prompt e ofuscação.

  • Tier 2 (LLM Eval): um segundo modelo, isolado e com orçamento limitado, que julga a intenção da ação usando canary tokens.

  • Tier 3 (Human): aprovação humana em tempo real para ações de alto risco.

Essa hierarquia garante que, mesmo que a IA seja "enganada" por um prompt malicioso, o sistema de execução permaneça íntegro através de Privilege Separation.

O harness na sua vida: terceirizando a função executiva

O conceito de harness é uma lente poderosa para a produtividade pessoal. WenHao Yu sugere que olhemos para o nosso cérebro como o "modelo" e para o nosso ambiente como o harness.

Em vez de tentar um "upgrade no cérebro" via força de vontade (que é inconstante e cara), você deve terceirizar sua função executiva para o ambiente.

  • Quer foco? Mude a camada de Constraints: coloque o celular em outro cômodo.

  • Quer consistência? Crie um Loop: uma rotina matinal que não dependa de decisão, apenas de execução.

Mudar o harness ambiental é sempre mais rápido e eficaz do que tentar mudar a biologia.

O futuro é dos engenheiros de sistemas de IA

A fronteira da inteligência artificial em 2026 não está mais na escala trilionária dos modelos, mas na sofisticação da engenharia ao redor deles. A confiabilidade da IA depende de quão bem projetado é o seu Agent Harness.

Se você quer que sua IA pare de falhar, pare de ajustar o prompt e comece a projetar o sistema. A inteligência é inferencial, mas a segurança e a eficácia devem ser determinísticas.

Se você pudesse mudar apenas uma peça do "harness" que envolve sua rotina hoje, qual delas teria o maior impacto na sua produtividade?