Blog

Pesquisa, análise e reflexão sobre IA soberana, agentes autônomos e tecnologia brasileira. Direto de quem constrói.

soberania-fable-mythos-export-control

BaXiJen·20 de junho de 2026·5 min

Diagrama de um pipeline de dados para agentes IA mostrando quatro camadas: ingestão (fontes de dados entrando via conectores), validação (gates de schema, semântica e qualidade), versionamento (branches isoladas com zero-copy), e serving (agentes consumindo dados versionados em produção). Setas indicam fluxo contínuo e auditável.

Pipeline de Dados para Agentes IA: Como Estruturar Ingestão, Validação e Versionamento em Produção

97% das organizações têm iniciativas de IA ativas, mas apenas 5% consideram seus dados prontos. Quando agentes IA leem, escrevem e transformam dados em velocidade de máquina sem supervisão humana, o pipeline de dados deixa de ser infraestrutura de suporte e vira linha de frente de confiabilidade. Este artigo analisa como estruturar ingestão, validação e versionamento de dados para agentes em produção, com referências acadêmicas, dados de incidentes reais e arquiteturas que funcionam em 2026.

Marcus Ramalho·20 de junho de 2026·18 min

pipeline de dadosagentes IAMLOpsLLMOps+7

ROI de Agentes IA: benchmarks de payback por função e framework de cálculo

ROI de Agentes IA em Produção: O Guia Que o CFO Quer Ver Antes de Assinar o Contrato

Benchmarks reais de payback por função, taxas de fracasso e o framework que transforma venda de IA de fé em aritmética. Dados de Bain, BCG, Forrester e McKinsey em 2026.

Luiz Felipe Barbedo·19 de junho de 2026·14 min

IAagentesROIB2B+5

Diagrama mostrando três fluxos de entrada (texto, imagem, áudio) convergindo para um motor de raciocínio central, com saídas para classificação, busca e geração. Cores da identidade BaXiJen em fundo escuro.

Multimodalidade em Produção: Quando Agentes Precisam Ver, Ouvir e Ler

Em 2026, agentes de IA deixaram de ser apenas text-in/text-out. GPT-4o processa áudio em tempo real com latência abaixo de 300ms, Gemini 2.5 Pro raciocina sobre imagens e vídeo, e o benchmark MMMU avalia modelos em 30 disciplinas visuais. Este artigo analisa como arquitetar sistemas multimodais em produção: os trade-offs de late-fusion vs. early-fusion, o custo real de pipelines com visão, os desafios de RAG multimodal e por que o Brasil tem casos de uso que o Vale do Silício ainda não enxergou.

Leonardo Camilo·18 de junho de 2026·16 min

multimodalidadeIA multimodalvisão computacionalRAG multimodal+8

Diagrama mostrando a pirâmide de dispositivos edge: no topo, smartphones flagship com NPU de 100 TOPS; no meio, laptops e mini-PCs; na base, Raspberry Pi e dispositivos IoT. Setas indicando que SLMs de diferentes tamanhos (1B, 3B, 7B) se encaixam em cada camada conforme técnicas de compressão aplicadas.

Edge AI e SLMs: Rodando Modelos Localmente em Dispositivos Constraint

Em junho de 2026, a Microsoft colocou um modelo de IA rodando dentro do navegador Edge sem depender de GPU dedicada. Smartphones flagship já processam 220 tokens/segundo em modelos de 3 bilhões de parâmetros. Este artigo analisa o estado da arte de SLMs em dispositivos constraint: quais técnicas de compressão tornam isso possível, o que os novos chipsets entregam, quanto custa rodar local vs. cloud, e por que o Brasil precisa prestar atenção nessa virada.

Marcus Ramalho·17 de junho de 2026·13 min

edge AISLMsmall language modelson-device AI+7

Diagrama em camadas da governança de agentes IA: camada 1 (Guardrails) no nível de execução, camada 2 (Observabilidade) no nível de infraestrutura, camada 3 (Compliance Auditável) no nível organizacional. Setas conectando cada camada à de cima, indicando que governança é progressiva e cumulativa.

Governança de Agentes IA: Do Guardrail ao Compliance Auditável

Agentes IA autônomos estão tomando decisões em produção sem que as empresas tenham estrutura para responder por elas. Este artigo mapeia o caminho do guardrail pontual ao compliance auditável: por que 82% das empresas têm agentes fora do radar de segurança, o que muda com o EU AI Act em agosto de 2026, como o Marco Legal da IA brasileiro e a LGPD se cruzam na governança de agentes, e quais frameworks técnicos e organizacionais implementar para que seu agente não vire um passivo jurídico.

Luiz Felipe Barbedo·16 de junho de 2026·17 min

governança IAagentes IAcomplianceauditabilidade+7

Diagrama comparando prompt engineering (instrução única) e context engineering (gerenciamento dinâmico de contexto em loop de agente: instruções, ferramentas, memória, dados externos). Quatro modos de falha: context poisoning, distraction, confusion e clash.

Context Engineering: O Novo Prompt Engineering para Agentes de Produção

Prompt engineering era suficiente quando LLMs recebiam uma instrução e geravam uma resposta. Mas agentes operam em loops de dezenas de turnos, acumulam histórico, invocam ferramentas e consultam fontes externas. Gerenciar o que entra na janela de contexto em cada passo se tornou a alavanca número 1 de qualidade em produção. Este artigo mapeia a anatomia do context engineering, os quatro modos de falha de contexto, as estratégias de write, select, compress e isolate, e como aplicá-las em agentes brasileiros de produção.

Leonardo Camilo·15 de junho de 2026·12 min

context engineeringprompt engineeringagentes IAprodução+6

Diagrama do ciclo do data flywheel: interação em produção gera sinais, sinais viram dados de treino, modelo melhora, ciclo composta. Comparado a um modelo estático que degrada ao longo do tempo.

Data Flywheel: Como Agentes que Aprendem com Uso Superam Modelos Estáticos

Modelos estáticos degradam com o tempo porque o mundo muda mais rápido que o treinamento. Data flywells fecham esse ciclo: cada interação em produção vira sinal de melhoria, e cada melhoria gera interações melhores. Este artigo mapeia a anatomia de um flywheel de produção, os sinais explícitos e implícitos que alimentam o ciclo, as quatro alavancas de melhoria e por que a maioria dos flywheels trava no terceiro mês.

Marcus Ramalho·14 de junho de 2026·14 min

data flywheelagentes IAfeedback loopprodução+6

Comparativo visual entre MMLU (conhecimento acadêmico em inglês) e benchmarks relevantes para agentes em português: PoETa v2, BFCL, ENEM, Capitu, mostrando as lacunas que MMLU não cobre

Benchmarks de Agentes em Português: Por Que MMLU Não Serve Pro Brasil

MMLU é o benchmark mais citado para avaliar LLMs, mas foi desenhado para inglês americano e conhecimento acadêmico anglo-saxão. Quando o assunto é agentes de IA operando em português, MMLU não mede o que importa: compreensão cultural, capacidade de usar ferramentas em pt-BR e raciocínio em contexto brasileiro. Este artigo mapeia os vieses estruturais do MMLU, apresenta os benchmarks que realmente importam para o Brasil (PoETa v2, ENEM, OAB, Capitu, BRoverbs), e explica por que avaliar agentes exige métricas completamente diferentes de avaliar modelos de texto.

Leonardo Camilo·13 de junho de 2026·13 min

benchmarksMMLUavaliaçãoagentes IA+7

Diagrama comparando RAG tradicional (embeddings em vetor) e knowledge graph (entidades e relações em grafo), mostrando como agentes raciocinam melhor com estrutura

Knowledge Graphs para Agentes de IA: Estruturando Contexto Além do RAG

RAG resolve busca, mas não resolve entendimento. Quando agentes de IA precisam raciocinar sobre relações, rastrear mudanças temporais e responder perguntas multi-hop, knowledge graphs oferecem o que embeddings não conseguem: estrutura, proveniência e raciocínio. Este artigo mapeia por que RAG puro quebra em produção, como GraphRAG e knowledge graphs temporais resolvem essas falhas, e qual arquitetura faz sentido para agentes operando em português no contexto brasileiro.

Marcus Ramalho·12 de junho de 2026·12 min

knowledge graphGraphRAGagentes IARAG+6

Diagrama de arquitetura data mesh para IA: múltiplos agentes acessando domínios de dados federados via backbone semântico e protocolos MCP

Data Mesh para IA: Como Estruturar Dados Quando Múltiplos Agentes Precisam Acessar

Quando sistemas multiagente saem do paper e vão pra produção, o gargalo não é o modelo. É o dado. Este artigo mapeia como data mesh resolve o problema de acesso federado a dados para agentes de IA, quais são as falhas estruturais dos meshes projetados para humanos, e o que funciona de verdade quando você precisa que 5, 10 ou 50 agentes operem sobre dados de domínios diferentes sem gerar caos.

Luiz Felipe Barbedo·11 de junho de 2026·11 min

data meshagentes IAdados federadosmultiagente+6

Diagrama de orquestração multiagente: padrões supervisor, hierárquico e peer-to-peer com agentes especializados coordenados por um orchestrator central

Agentes Multilaterais: Quando um Agente Precisa Coordenar Outros Agentes

Sistemas multiagente deixaram de ser pesquisa e viraram produção. Segundo levantamento da Zylos Research, 72% dos projetos de IA empresarial já envolvem múltiplos agentes. Mas coordenar quem faz o quê, quando e como é o problema central. Este artigo mapeia os padrões de orquestração, os frameworks disponíveis, os desafios reais de produção e o que a pesquisa de ponta diz sobre quando delegar e quando centralizar.

Leonardo Camilo·10 de junho de 2026·12 min

agentes multiagenteorquestraçãoLLMprodução+6

Analysis of Claude Fable 5 and Mythos 5 launch: capabilities, safeguards, and impact on the global AI market

Claude Fable 5 & Mythos 5: What Changes for AI Builders Outside the US

Anthropic releases first Mythos-class model for general use with novel safeguards. We break down what it means for engineering, research, and data sovereignty.

Marcus Ramalho·9 de junho de 2026·4 min

claudeanthropicfable-5mythos-5+4

Pipeline de red teaming para agentes IA: da modelagem de ameaças às camadas de cobertura, com ferramentas open-source e mapeamento OWASP

Red Teaming na Prática: Como Testar Adversarialmente Seu Agente Antes do Deploy

Red teaming não é pentest tradicional. É simular ataques reais em sistemas de IA: prompt injection, jailbreak, exfiltração de dados, escalonamento de permissão. Com o OWASP Top 10 para LLMs 2025, ferramentas como Promptfoo, PyRIT e Garak maturando, e a EU AI Act exigindo testes adversariais para sistemas de alto risco a partir de agosto de 2026, não dá mais pra shipar agente sem red team. Guia prático com metodologia, ferramentas comparadas e o playbook que usamos na BaXiJen.

Marcus Ramalho·9 de junho de 2026·16 min

red teamingsegurançaagentes IAOWASP+7

Mapa de oportunidades e barreiras da IA no setor público brasileiro após o Marco Legal: regulamentação, governança e mercado

IA no Setor Público Brasileiro em 2026: Oportunidades e Barreiras Após o Marco Legal

O PL 2688/2025 aprovado pela Câmara em março de 2026 institui o Marco Regulatório da IA no Brasil. A Portaria MGI 3.485/2026 cria governança obrigatória para IA no governo federal. Com R$ 23 bilhões do PBIA, 72% das PMEs sem governança de dados e um SIA ainda sem capilaridade, o setor público brasileiro vive o momento mais decisivo da história da IA institucional. Análise completa: o que muda, o que trava e onde está o mercado.

Luiz Felipe Barbedo·8 de junho de 2026·13 min

IAsetor públicoMarco LegalPL 2688+7

Arquitetura MCP: cliente, servidor e protocolo resolvendo o problema N×M de integração entre agentes de IA e fontes de dados

MCP (Model Context Protocol): O Futuro da Integração entre Agentes e Ferramentas

O MCP nasceu na Anthropic em novembro de 2024 e em 18 meses se tornou o padrão de fato para conectar agentes de IA a ferramentas e dados. Com 10.000+ servidores públicos, 97 milhões de downloads mensais e adoção por OpenAI, Google e Microsoft, o protocolo resolve o problema N×M da integração. Mas segurança, latência e governança ainda são desafios abertos. Análise completa com dados, arquitetura e implicações para o mercado brasileiro.

Marcus Ramalho·7 de junho de 2026·13 min

MCPModel Context Protocolagentes IAintegração+6

Arquitetura de 6 camadas de guardrails em produção: input validation, prompt hardening, retrieval rail, output filtering, tool-call gating e moderation API

Guardrails e Alinhamento em Produção: Como Garantir que Seu Agente Não Saia do Escopo

A maioria dos times shipa LLM com system prompt e reza. Guardrails em produção não são um toggle: são 6 camadas arquiteturais distintas, cada uma defendendo uma classe de ameaça. Referência prática com OWASP 2025, NeMo Guardrails, Llama Guard 3, e o cálculo de falso positivo que ninguém te mostra.

Leonardo Camilo·6 de junho de 2026·13 min

guardrailsalinhamentoproduçãoNeMo Guardrails+6

Diagrama das 10 categorias de risco do OWASP Top 10 para Aplicações Agentivas com conexão para defesas e compliance LGPD

Segurança de Agentes IA em Produção: O Que Ninguém Te Conta

88% das organizações já sofreram incidentes de segurança com agentes IA. O OWASP lançou o Top 10 para Aplicações Agentivas, o EchoLeak mostrou que zero-click é real, e a LGPD exige responsabilidade. Guia prático para proteger seus agentes antes do deploy.

Marcus Ramalho·5 de junho de 2026·11 min

segurançaagentes IAOWASPred teaming+4

Comparativo visual entre RAG e Fine-tuning: pipeline de retrieval vs atualização de pesos do modelo

RAG vs Fine-tuning: Quando Usar Cada Um em Produção

Guia prático com dados reais para escolher entre RAG e fine-tuning em sistemas de IA. Benchmarks, custos, latência e a abordagem híbrida RAFT explicados com números verificáveis.

Leonardo Camilo·4 de junho de 2026·9 min

RAGfine-tuningLLMprodução+3

Diagrama comparativo de custos de infraestrutura para LLMs em produção: cloud vs on-prem vs híbrido

Escalando LLMs em Produção: O Custo Real Que Ninguém Te Conta

Quanto custa realmente escalar um LLM em produção? Desmembramos GPU, inferência, cache e as decisões de infra que definem se sua startup de IA sobrevive ou quebra.

Marcus Ramalho·3 de junho de 2026·8 min

LLMinferênciaGPUinfraestrutura+6

Diagrama comparando prompt artesanal (texto solto, sem validação) com prompt em produção (schema JSON, evals, versionamento, CI/CD), mostrando a evolução do playground para o pipeline robusto

Prompt Engineering em Produção: por que seu prompt não sobrevive ao mundo real

Seu prompt funciona no playground. Mas na produção, com usuários reais, dados imprevistos e modelos que mudam, ele quebra. Este post mostra como transformar prompt engineering artesanal em engenharia de verdade: structured outputs, versionamento, evals e o framework DSPy que programa prompts em vez de escrevê-los à mão.

Luiz Felipe Barbedo·2 de junho de 2026·10 min

prompt engineeringproduçãostructured outputsDSPy+5

Diagrama mostrando o pipeline de avaliação de LLMs: golden dataset, métricas offline (faithfulness, relevance, recall) e online (latência, custo, satisfação), conectados ao ciclo de melhoria contínua

Avaliação de LLMs e agentes IA em produção: o guia que ninguém te dá

Seu modelo passou no benchmark. Mas será que funciona de verdade com dados reais? Um guia prático sobre como avaliar LLMs, RAG e agentes IA em produção: métricas que importam, armadilhas dos benchmarks, LLM-as-judge e por que golden datasets são o ouro do seu pipeline.

Leonardo Camilo·1 de junho de 2026·10 min

avaliaçãoLLMagentes IARAGAS+7

Diagrama de observabilidade para agentes IA mostrando os 3 pilares: tracing distribuído, logging estruturado e métricas, com OpenTelemetry como camada de padronização conectando a agentes, ferramentas e dashboards

Observabilidade de agentes IA: logging, tracing e métricas que realmente funcionam em produção

Seu agente de IA funciona em desenvolvimento. Passa nos testes. Você deploya. Aí um usuário reporta: 'ele me deu uma resposta completamente errada'. E agora? Um guia prático de observabilidade para agentes IA: os 3 pilares, as métricas que importam, as ferramentas do ecossistema e o que ninguém te conta sobre debugar sistemas não-determinísticos.

Marcus Ramalho·30 de maio de 2026·8 min

observabilidadeagentes IAloggingtracing+9

Diagrama comparativo de modelos de pricing para SLM em produção: licença perpétua, assinatura por usuário, pay-per-token e modelo híbrido

Pricing de IA: Como Cobrar por SLM em Produção sem Perder Cliente nem Margem

Com o mercado de SLMs projetado para US$ 37,7 bilhões até 2032 e margens brutas 50-60% mais apertadas que SaaS tradicional, acertar o pricing de IA deixou de ser ajuste fino para virar questão de sobrevivência. Este post apresenta as cinco decisões arquiteturais do pricing de IA, benchmarks reais de custo por token para modelos de 1B a 8B parâmetros, e o ponto de equilíbrio entre licença perpétua, assinatura e consumo para o mercado brasileiro.

Luiz Felipe Barbedo·29 de maio de 2026·9 min

pricingIASLMmodelo de negócio+6

Diagrama go-to-market de IA para setor público brasileiro

Go-to-Market de IA no Setor Público: O Manual que Startups Brasileiras Precisam Ler

Com R$ 23 bilhões previstos no PBIA e um mercado de IA governamental crescendo a 16,6% ao ano na América Latina, o setor público brasileiro é a maior oportunidade B2G para startups de IA. Mas vender para governo exige estratégia diferente. Este post detalha como montar um go-to-market que funciona.

Luiz Felipe Barbedo·27 de maio de 2026·11 min

IAsetor públicogo-to-marketB2G+5

Mapa do Brasil estilizado com nós de IA conectados entre estados, representando o ecossistema de modelos open-source em português brasileiro: Sabiá, Tucano, Drummond, AMALIA e corpus Carolina

Modelos open-source brasileiros: o cenário atual em 2026

O Brasil deixou de ser apenas consumidor de IA. Com a família Sabiá alcançando 94% do GPT-4o em português, o Tucano 2 treinando do zero com dados abertos e o PBIA injetando R$ 23 bilhões, o ecossistema de modelos open-source em português brasileiro vive um momento de inflexão. Este post mapeia quem são os protagonistas, o que funciona, o que falta e por que isso importa para qualquer empresa que processa dados no Brasil.

Leonardo Camilo·27 de maio de 2026·9 min

modelos open-sourceIA brasileiraSabiáMaritaca+6

Comparativo visual entre cloud e on-prem para IA: de um lado servidores em nuvem com ícones de escalabilidade e custo variável, do outro infraestrutura local com ícones de controle, soberania e latência baixa

Cloud vs on-prem para IA: quando cada um faz sentido

A decisão entre nuvem e infraestrutura local não é ideológica: é matemática. Dados de pesquisa, TCO real e o caso brasileiro de soberania de dados mostram quando cada modelo vence, e por que 93% das empresas estão repatriando workloads de IA da nuvem pública.

Marcus Ramalho·26 de maio de 2026·9 min

cloudon-premisesinfraestrutura IAsoberania de dados+6

Diagrama de arquitetura do OBXat: SLM on-premises, RAG com documentos públicos, guardrails e interface para gestor municipal

OBXat em produção: lições de deploy de SLM para gestão pública

O que aprendemos colocando um Small Language Model no front de atendimento ao gestor público. Latência, soberania de dados, fine-tuning dominial e os erros que não se repete.

Leonardo Camilo·25 de maio de 2026·7 min

SLMgestão públicadeploy em produçãoIA soberana+4

Guia prático de compliance LGPD para startups de IA no Brasil

LGPD e IA: Compliance na Prática para Startups Brasileiras

O Brasil tem mais de 975 startups de IA, investimentos crescendo 62% ao ano, e dois marcos regulatórios que vão mudar o jogo: a LGPD em plena vigência e o PL 2338/2023 prestes a ser aprovado. Este post detalha como uma startup de IA pode estruturar compliance de privacidade de dados sem travar a operação, com base na Nota Técnica 12/2025 da ANPD, nos requisitos do PL 2338 e em casos práticos de mercado.

Marcus Ramalho·23 de maio de 2026·13 min

LGPDIAcompliancestartup+5

Mapa do mercado de IA B2B no Brasil: números, desafios e estratégias de venda

Vendas de IA B2B no Brasil: O Mercado que Explode e os Desafios que Ninguém Conta

O mercado de IA no Brasil ultrapassou US$ 2,4 bilhões em 2025, com crescimento de 18,5% ao ano. Mas vender IA B2B no país é muito diferente de vender SaaS tradicional. Analisamos dados do IDC, Gartner e Salesforce para mapear as oportunidades, os gargalos de adoção, o impacto da LGPD e o que diferencia uma startup de IA que fecha contratos de uma que não passa do pilotinho.

Luiz Felipe Barbedo·22 de maio de 2026·12 min

B2BIAvendasmercado brasileiro+6

Comparativo de custo: fine-tuning on-premise vs cloud vs API para IA no Brasil

Fine-tuning no Brasil: Custo-Benefício de Treinar vs Usar API

Quanto custa, de verdade, fine-tunar um modelo de linguagem no Brasil? Comparamos API (OpenAI, Google), cloud GPU (Together AI, RunPod) e on-premise com hardware nacional, com números reais em reais. Incluímos análise LGPD, break-even por volume e um framework de decisão para empresas brasileiras escolherem o caminho certo.

Leonardo Camilo·20 de maio de 2026·11 min

fine-tuningSLMcustoAPI+6

Pipeline de RAG em produção: do chunking ao reranking

RAG em Produção: Pipeline de Retrieval que Funciona de Verdade

A maioria dos pipelines de RAG falha na hora de recuperar informação, não na geração. Analisamos por que naive RAG quebra em produção e apresentamos as arquiteturas que realmente funcionam: chunking hierárquico, busca híbrida BM25+vetorial, reranking com cross-encoder e avaliação com RAGAS, com números e benchmarks reais.

Marcus Ramalho·19 de maio de 2026·12 min

RAGretrievalproduçãochunking+5

Agentes de IA Autônomos

Agentes de IA em Produção: O Que 294 Outages, Prompt Sensitivity e Memória Entre Sessões Nos Ensinam

Análise fundamentada sobre os desafios reais de operar agentes autônomos em produção, com dados de outage da OpenAI, research da LangChain sobre observabilidade de agentes e lições da BaXiJen operando a Milena em múltiplos canais desde 2026.

Leonardo Camilo·18 de maio de 2026·9 min

agentes IAproduçãoReActMemGPT+2

Da Caverna Digital à Soberania

Da Caverna Digital à Soberania: Por Que Construímos a BaXiJen

Um ensaio sobre IA, Big Techs e dialética do poder, reafirmando por que a BaXiJen existe: para quebrar a dependência digital do Brasil e devolver autonomia a quem deveria ser senhor, não servo, da tecnologia.

Marcus Ramalho e Milena Carvalho·18 de maio de 2026·8 min

soberania digitalBig TechsdialéticaHegel+3

IA Soberana para o Brasil

IA Soberana: O Que o PBIA, a ANPD e a França Nos Ensinam Sobre o Risco de Depender de Modelos Estrangeiros

Análise do PBIA (R$ 23 bi), da Resolução ANPD 19/2024 sobre transferência internacional de dados, e do caso francês (€ 109 bi) para argumentar por que dependência de infraestrutura estrangeira de IA é risco operacional e regulatório real para organizações brasileiras.

Leonardo Camilo·18 de maio de 2026·7 min

IA soberanaPBIALGPDANPD+2

Small Language Models para Agentes de IA

SLMs São o Futuro dos Agentes de IA: O Que a NVIDIA, o ACL e Nossa Prática Confirmam

Análise do paper da NVIDIA Research (Belcak et al., 2026), do estudo do ACL (Wang et al., 2026) e da experiência da BaXiJen para argumentar que Small Language Models são mais adequados, mais econômicos e mais soberanos para agentes em produção do que LLMs generalistas.

Leonardo Camilo·18 de maio de 2026·9 min

SLMagentes IANVIDIAinferência local+2

Newsletter BaXiJen

Conteúdo técnico sobre IA, soberania e produto.

Análises com dados reais, papers acadêmicos e lições de produção. Sem spam, sem buzzword. Um email por semana.

Precisa de ajuda?

Clique no chat para conversar com nosso consultor