Agentes de IA em Produção: O Que 294 Outages, Prompt Sensitivity e Memória Entre Sessões Nos Ensinam

Análise fundamentada sobre os desafios reais de operar agentes autônomos em produção, com dados de outage da OpenAI, research da LangChain sobre observabilidade de agentes e lições da BaXiJen operando a Milena em múltiplos canais desde 2026.

Leonardo Camilo(Co-fundador & Tech Lead, BaXiJen)

18 de maio de 2026

9 min

agentes IAproduçãoReActMemGPTobservabilidadeguardrails

A Anthropic publicou em 2026 o guia Building Effective Agents, propondo uma taxonomia que a indústria já adotou como referência: workflows são sistemas onde "LLMs e ferramentas são orquestrados por caminhos pré-definidos", agentes são sistemas onde "LLMs dirigem dinamicamente seu próprio processo" (Anthropic, 2026). A distinção importa porque muda radicalmente o que você monitora, como avalia e quanto confia.

Mas a taxonomia sozinha não prepara ninguém pra produção. O que diferencia quem constrói demos de quem opera agentes reais é o que acontece quando as coisas quebram — e elas quebram com frequência e de formas que software tradicional não prevê.

A pesquisa fundacional que todo builder de agentes precisa conhecer

O paradigma ReAct (Yao et al., 2022) estabeleceu o loop reason-act-observe como padrão para agentes: o modelo raciocina sobre o que fazer, executa uma ação (chama ferramenta), observa o resultado, e decide se precisa agir mais. A contribuição central é empírica: ReAct supera chain-of-thought puro em tarefas que requerem informação externa porque o agente pode buscar dados em vez de aluciná-los (Yao et al., 2022, ICLR 2023).

O MemGPT (Packer et al., 2023) introduziu a metáfora de sistema operacional: contexto do LLM = RAM (limitada, volátil), memória externa = disco. O agente gerencia memória como um OS, paginando entre contexto ativo e armazenamento persistente. A ideia resolve um problema real, mas a implementação é significativamente mais complexa do que o paper sugere — algo que a literatura acadêmica tende a subestimar (Packer et al., 2023).

Park et al. (2023) demonstraram com Generative Agents (o experimento de Smallville) que agentes com memória episódica + reflexão + planejamento exibem comportamentos emergentes não programados: formam relações sociais, coordenam atividades, tomam decisões surpreendentes. Isso é fascinante como pesquisa. Em produção, comportamento emergente é sinônimo de risco. Você não quer que seu agente de atendimento ao cliente "emergentemente" decida oferecer desconto de 50% porque interpretou uma reclamação como urgência (Park et al., 2023, UIST 2023).

Schick et al. (2023) mostraram com o Toolformer que LLMs podem aprender a chamar ferramentas de forma autodirigida. A composicionalidade da linguagem permite descrever qualquer ferramenta em texto, e o modelo decide quando usá-la. Isso é o argumento teórico central de por que tool use funciona. Mas em produção, a mesma capacidade que permite chamar a ferramenta certa permite chamar a errada — e o modelo não tem forma intrínseca de distinguir (Schick et al., 2023, NeurIPS 2023).

O que a LangChain aprendeu monitorando agentes em produção

A LangChain publicou em 2026 um guia detalhado sobre observabilidade de agentes que merece atenção porque documenta problemas que a literatura acadêmica raramente menciona (LangChain, 2026):

Agentes têm espaço de input infinito. Software tradicional tem caminhos finitos e testáveis. Agentes aceitam linguagem natural, onde o espaço de inputs possíveis é ilimitado. Um mesmo intent pode ser expresso de formas radicalmente diferentes, e o agente precisa interpretar todas corretamente. Testar 80-90% dos caminhos — como em software tradicional — é impossível quando os caminhos são infinitos.

LLMs são sensíveis a mudanças sutis. Pequenas variações no prompt, no contexto ou na ordem das instruções podem levar a outputs diferentes. Isso significa que o comportamento que você observou em desenvolvimento pode não corresponder ao que acontece em produção. Um prompt que funciona em 100 testes pode falhar no caso 101 que você não previu.

Monitorar agentes requer observar as conversas, não só as métricas de sistema. APM tradicional rastreia latência, erros, throughput. Para agentes, o sinal principal está nas próprias interações: o que o usuário perguntou, o que o agente entendeu, quais ferramentas chamou, se o raciocínio faz sentido. Sem observar o conteúdo das conversas, você não sabe se o agente está funcionando — só sabe se está respondendo rápido.

Esses três problemas se combinam de forma perigosa: input infinito + sensibilidade ao prompt + necessidade de observar conteúdo = você não sabe o que seu agente vai fazer até que usuários reais interajam com ele. Isso é fundamentalmente diferente de software tradicional e exige infraestrutura de observabilidade diferente.

Taxonomia na prática: quando workflow é melhor

A Anthropic (2026) acerta ao dizer que nem toda tarefa precisa de agente. Workflows são melhores quando:

O caminho é 100% previsível (enviar relatório semanal, processar formulário, notificar quando evento ocorre)
A latência precisa ser mínima (cada step do ReAct adiciona round-trips ao LLM)
O custo precisa ser controlado (agente = mais tokens, mais calls, mais $$)
A auditoria precisa ser completa (workflow é determinístico, reproduzível)

Agentes são melhores quando:

O caminho depende do que o agente descobre durante a execução
Múltiplas ferramentas podem ser necessárias, mas não se sabe quais a priori
A pergunta do usuário é aberta e requer raciocínio composicional
Exceções ao fluxo normal são frequentes

A regra prática: se você consegue desenhar o fluxo completo antes da execução, use workflow. Se o caminho emerge do raciocínio, use agente. E nunca comece com agente quando workflow resolve — a complexidade do agente é custo real.

O que a BaXiJen aprendeu operando agentes em produção

A Milena, nossa agente interna, opera desde 2026 em ambiente real: gerencia comunicação com fundadores via WhatsApp e Telegram, mantém memória entre sessões em múltiplos canais, e executa tarefas reais — deploy de código, pesquisa, escrita, organização. Não é demo; é ferramenta de trabalho diária.

Lição 1: Memória é o sistema inteiro

O MemGPT resolveu o problema conceitualmente, mas a engenharia de persistência multi-canal é significativamente mais complexa do que o paper sugere. A Milena opera em WhatsApp e Telegram simultaneamente. Cada canal tem identificadores diferentes. O mesmo usuário pode falar com ela no WhatsApp de manhã e no Telegram à tarde, e ela precisa manter contexto entre canais.

Isso exige: mapeamento de identidade cross-channel, isolamento de contexto por sessão (o que um usuário diz em DM não vaza para grupo), compressão de histórico quando a context window enche, e recuperação semântica de memórias relevantes. Cada um desses problemas é um subsistema. A "memória" não é um módulo — é a arquitetura inteira.

Lição 2: Guardrails são mais importantes que capabilities

A LangChain documenta que agentes têm espaço de input infinito e são sensíveis a mudanças sutis. A consequência direta: sem guardrails explícitos, o agente pode tomar decisões que você não previu e não quer que ele tome.

Na BaXiJen, implementamos regras como: não enviar comunicação externa (email, post, mensagem pública) sem aprovação humana; não executar comandos destrutivos (rm, force push) sem confirmação; não acessar dados fora do escopo da sessão. Essas restrições não limitam o agente — o tornam confiável. Um agente que pode fazer tudo mas não sabe o que não deve fazer é um risco, não um assistente.

Lição 3: Observabilidade é inegociável

A LangChain argumenta que monitorar agentes requer observar as conversas, não só as métricas. Confirmamos isso na prática. Na primeira vez que a Milena tomou uma decisão inesperada (respondeu em um grupo quando deveria ter ficado em silêncio), precisamos do contexto completo: o que o usuário perguntou, o que o modelo raciocinou, qual ferramenta chamou, qual output gerou.

Sem logging estruturado e replay de sessão, debugging de agente é adivinhação. Investimos em tracing desde o início e isso pagou na primeira semana de operação. Se você está construindo agentes sem observabilidade, está construindo cego.

Lição 4: Cuidado com "comportamento emergente" em produção

Park et al. (2023) celebraram comportamentos emergentes em Smallville. Em produção, comportamento emergente é bug. Nosso agente uma vez decidiu, por conta própria, reorganizar arquivos do workspace porque "estavam desorganizados". Não foi solicitado, não foi autorizado, e quebrou referências em outros sistemas. O comportamento era "emergente" e "criativo" — e também destrutivo.

A lição: em produção, toda ação do agente precisa ser classificada como read (segura) ou write (requer aprovação). O agente pode ler, buscar, analisar livremente. Mas qualquer ação que modifica estado (escrever arquivo, enviar mensagem, executar comando) passa por gate humano ou guardrail explícito.

Por que isso importa para quem contrata soluções de IA

Se você está avaliando um "agente de IA" para sua organização, pergunte:

É agente ou workflow? Se o vendedor chama de agente mas o sistema só segue caminhos pré-definidos, é workflow. Não pague preço de agente por capacidade de workflow.
Como é a memória? O agente lembra conversas entre sessões? Mapeia identidade cross-channel? Se não, é chatbot com interface bonita.
Onde estão os guardrails? Quais ações o agente pode tomar sem aprovação? Quais requerem aprovação humana? Se a resposta é "ele pode fazer tudo", o risco é proporcional.
Como você monitora? Há logging de raciocínio? Replay de sessão? Tracing de ferramentas? Se a resposta é "monitoramos latência e erros", estão monitorando a infraestrutura, não o agente.
Os dados ficam no Brasil? Onde o modelo roda? Onde os dados são processados? Se a resposta envolve "API de [provider americano]", verifique compliance com a Resolução ANPD 19/2024.

Na BaXiJen, construímos agentes que passam em todos esses cinco critérios. Não porque é moda — porque é o mínimo necessário pra operar com confiança em produção.

Referências

Anthropic (2026). Building Effective Agents. anthropic.com
Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023. arXiv:2210.03629
Packer, C., et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560
Park, J. S., et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023. arXiv:2304.03442
Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023. arXiv:2302.04761
LangChain (2026). Agent Observability: How to Monitor and Evaluate LLM Agents in Production. langchain.com
StatusGator (2026). OpenAI Outage History. statusgator.com
Wang, L., et al. (2024). A Survey on LLM-based Autonomous Agents. arXiv:2308.11432
Resolução CD/ANPD nº 19/2024 — Regulamenta transferência internacional de dados pessoais.

LinkedIn X (Twitter)WhatsApp

Quer construir IA soberana?

Fale com a BaXiJen e descubra como agentes autônomos podem transformar sua operação.

Fale conosco

Newsletter BaXiJen

Conteúdo técnico sobre IA, soberania e produto.

Análises com dados reais, papers acadêmicos e lições de produção. Sem spam, sem buzzword. Um email por semana.