Blog

Pesquisa, análise e reflexão sobre IA soberana, agentes autônomos e tecnologia brasileira. Direto de quem constrói.

Diagrama de um pipeline de dados para agentes IA mostrando quatro camadas: ingestão (fontes de dados entrando via conectores), validação (gates de schema, semântica e qualidade), versionamento (branches isoladas com zero-copy), e serving (agentes consumindo dados versionados em produção). Setas indicam fluxo contínuo e auditável.Destaque

Pipeline de Dados para Agentes IA: Como Estruturar Ingestão, Validação e Versionamento em Produção

97% das organizações têm iniciativas de IA ativas, mas apenas 5% consideram seus dados prontos. Quando agentes IA leem, escrevem e transformam dados em velocidade de máquina sem supervisão humana, o pipeline de dados deixa de ser infraestrutura de suporte e vira linha de frente de confiabilidade. Este artigo analisa como estruturar ingestão, validação e versionamento de dados para agentes em produção, com referências acadêmicas, dados de incidentes reais e arquiteturas que funcionam em 2026.

Marcus Ramalho··18 min
pipeline de dadosagentes IAMLOpsLLMOps+7
Diagrama mostrando três fluxos de entrada (texto, imagem, áudio) convergindo para um motor de raciocínio central, com saídas para classificação, busca e geração. Cores da identidade BaXiJen em fundo escuro.Destaque

Multimodalidade em Produção: Quando Agentes Precisam Ver, Ouvir e Ler

Em 2026, agentes de IA deixaram de ser apenas text-in/text-out. GPT-4o processa áudio em tempo real com latência abaixo de 300ms, Gemini 2.5 Pro raciocina sobre imagens e vídeo, e o benchmark MMMU avalia modelos em 30 disciplinas visuais. Este artigo analisa como arquitetar sistemas multimodais em produção: os trade-offs de late-fusion vs. early-fusion, o custo real de pipelines com visão, os desafios de RAG multimodal e por que o Brasil tem casos de uso que o Vale do Silício ainda não enxergou.

Leonardo Camilo··16 min
multimodalidadeIA multimodalvisão computacionalRAG multimodal+8
Diagrama mostrando a pirâmide de dispositivos edge: no topo, smartphones flagship com NPU de 100 TOPS; no meio, laptops e mini-PCs; na base, Raspberry Pi e dispositivos IoT. Setas indicando que SLMs de diferentes tamanhos (1B, 3B, 7B) se encaixam em cada camada conforme técnicas de compressão aplicadas.Destaque

Edge AI e SLMs: Rodando Modelos Localmente em Dispositivos Constraint

Em junho de 2026, a Microsoft colocou um modelo de IA rodando dentro do navegador Edge sem depender de GPU dedicada. Smartphones flagship já processam 220 tokens/segundo em modelos de 3 bilhões de parâmetros. Este artigo analisa o estado da arte de SLMs em dispositivos constraint: quais técnicas de compressão tornam isso possível, o que os novos chipsets entregam, quanto custa rodar local vs. cloud, e por que o Brasil precisa prestar atenção nessa virada.

Marcus Ramalho··13 min
edge AISLMsmall language modelson-device AI+7
Diagrama em camadas da governança de agentes IA: camada 1 (Guardrails) no nível de execução, camada 2 (Observabilidade) no nível de infraestrutura, camada 3 (Compliance Auditável) no nível organizacional. Setas conectando cada camada à de cima, indicando que governança é progressiva e cumulativa.Destaque

Governança de Agentes IA: Do Guardrail ao Compliance Auditável

Agentes IA autônomos estão tomando decisões em produção sem que as empresas tenham estrutura para responder por elas. Este artigo mapeia o caminho do guardrail pontual ao compliance auditável: por que 82% das empresas têm agentes fora do radar de segurança, o que muda com o EU AI Act em agosto de 2026, como o Marco Legal da IA brasileiro e a LGPD se cruzam na governança de agentes, e quais frameworks técnicos e organizacionais implementar para que seu agente não vire um passivo jurídico.

Luiz Felipe Barbedo··17 min
governança IAagentes IAcomplianceauditabilidade+7
Diagrama comparando prompt engineering (instrução única) e context engineering (gerenciamento dinâmico de contexto em loop de agente: instruções, ferramentas, memória, dados externos). Quatro modos de falha: context poisoning, distraction, confusion e clash.Destaque

Context Engineering: O Novo Prompt Engineering para Agentes de Produção

Prompt engineering era suficiente quando LLMs recebiam uma instrução e geravam uma resposta. Mas agentes operam em loops de dezenas de turnos, acumulam histórico, invocam ferramentas e consultam fontes externas. Gerenciar o que entra na janela de contexto em cada passo se tornou a alavanca número 1 de qualidade em produção. Este artigo mapeia a anatomia do context engineering, os quatro modos de falha de contexto, as estratégias de write, select, compress e isolate, e como aplicá-las em agentes brasileiros de produção.

Leonardo Camilo··12 min
context engineeringprompt engineeringagentes IAprodução+6
Diagrama do ciclo do data flywheel: interação em produção gera sinais, sinais viram dados de treino, modelo melhora, ciclo composta. Comparado a um modelo estático que degrada ao longo do tempo.Destaque

Data Flywheel: Como Agentes que Aprendem com Uso Superam Modelos Estáticos

Modelos estáticos degradam com o tempo porque o mundo muda mais rápido que o treinamento. Data flywells fecham esse ciclo: cada interação em produção vira sinal de melhoria, e cada melhoria gera interações melhores. Este artigo mapeia a anatomia de um flywheel de produção, os sinais explícitos e implícitos que alimentam o ciclo, as quatro alavancas de melhoria e por que a maioria dos flywheels trava no terceiro mês.

Marcus Ramalho··14 min
data flywheelagentes IAfeedback loopprodução+6
Comparativo visual entre MMLU (conhecimento acadêmico em inglês) e benchmarks relevantes para agentes em português: PoETa v2, BFCL, ENEM, Capitu, mostrando as lacunas que MMLU não cobreDestaque

Benchmarks de Agentes em Português: Por Que MMLU Não Serve Pro Brasil

MMLU é o benchmark mais citado para avaliar LLMs, mas foi desenhado para inglês americano e conhecimento acadêmico anglo-saxão. Quando o assunto é agentes de IA operando em português, MMLU não mede o que importa: compreensão cultural, capacidade de usar ferramentas em pt-BR e raciocínio em contexto brasileiro. Este artigo mapeia os vieses estruturais do MMLU, apresenta os benchmarks que realmente importam para o Brasil (PoETa v2, ENEM, OAB, Capitu, BRoverbs), e explica por que avaliar agentes exige métricas completamente diferentes de avaliar modelos de texto.

Leonardo Camilo··13 min
benchmarksMMLUavaliaçãoagentes IA+7
Diagrama comparando RAG tradicional (embeddings em vetor) e knowledge graph (entidades e relações em grafo), mostrando como agentes raciocinam melhor com estruturaDestaque

Knowledge Graphs para Agentes de IA: Estruturando Contexto Além do RAG

RAG resolve busca, mas não resolve entendimento. Quando agentes de IA precisam raciocinar sobre relações, rastrear mudanças temporais e responder perguntas multi-hop, knowledge graphs oferecem o que embeddings não conseguem: estrutura, proveniência e raciocínio. Este artigo mapeia por que RAG puro quebra em produção, como GraphRAG e knowledge graphs temporais resolvem essas falhas, e qual arquitetura faz sentido para agentes operando em português no contexto brasileiro.

Marcus Ramalho··12 min
knowledge graphGraphRAGagentes IARAG+6
Diagrama de arquitetura data mesh para IA: múltiplos agentes acessando domínios de dados federados via backbone semântico e protocolos MCPDestaque

Data Mesh para IA: Como Estruturar Dados Quando Múltiplos Agentes Precisam Acessar

Quando sistemas multiagente saem do paper e vão pra produção, o gargalo não é o modelo. É o dado. Este artigo mapeia como data mesh resolve o problema de acesso federado a dados para agentes de IA, quais são as falhas estruturais dos meshes projetados para humanos, e o que funciona de verdade quando você precisa que 5, 10 ou 50 agentes operem sobre dados de domínios diferentes sem gerar caos.

Luiz Felipe Barbedo··11 min
data meshagentes IAdados federadosmultiagente+6
Diagrama de orquestração multiagente: padrões supervisor, hierárquico e peer-to-peer com agentes especializados coordenados por um orchestrator centralDestaque

Agentes Multilaterais: Quando um Agente Precisa Coordenar Outros Agentes

Sistemas multiagente deixaram de ser pesquisa e viraram produção. Segundo levantamento da Zylos Research, 72% dos projetos de IA empresarial já envolvem múltiplos agentes. Mas coordenar quem faz o quê, quando e como é o problema central. Este artigo mapeia os padrões de orquestração, os frameworks disponíveis, os desafios reais de produção e o que a pesquisa de ponta diz sobre quando delegar e quando centralizar.

Leonardo Camilo··12 min
agentes multiagenteorquestraçãoLLMprodução+6
Pipeline de red teaming para agentes IA: da modelagem de ameaças às camadas de cobertura, com ferramentas open-source e mapeamento OWASPDestaque

Red Teaming na Prática: Como Testar Adversarialmente Seu Agente Antes do Deploy

Red teaming não é pentest tradicional. É simular ataques reais em sistemas de IA: prompt injection, jailbreak, exfiltração de dados, escalonamento de permissão. Com o OWASP Top 10 para LLMs 2025, ferramentas como Promptfoo, PyRIT e Garak maturando, e a EU AI Act exigindo testes adversariais para sistemas de alto risco a partir de agosto de 2026, não dá mais pra shipar agente sem red team. Guia prático com metodologia, ferramentas comparadas e o playbook que usamos na BaXiJen.

Marcus Ramalho··16 min
red teamingsegurançaagentes IAOWASP+7
Mapa de oportunidades e barreiras da IA no setor público brasileiro após o Marco Legal: regulamentação, governança e mercadoDestaque

IA no Setor Público Brasileiro em 2026: Oportunidades e Barreiras Após o Marco Legal

O PL 2688/2025 aprovado pela Câmara em março de 2026 institui o Marco Regulatório da IA no Brasil. A Portaria MGI 3.485/2026 cria governança obrigatória para IA no governo federal. Com R$ 23 bilhões do PBIA, 72% das PMEs sem governança de dados e um SIA ainda sem capilaridade, o setor público brasileiro vive o momento mais decisivo da história da IA institucional. Análise completa: o que muda, o que trava e onde está o mercado.

Luiz Felipe Barbedo··13 min
IAsetor públicoMarco LegalPL 2688+7
Arquitetura MCP: cliente, servidor e protocolo resolvendo o problema N×M de integração entre agentes de IA e fontes de dadosDestaque

MCP (Model Context Protocol): O Futuro da Integração entre Agentes e Ferramentas

O MCP nasceu na Anthropic em novembro de 2024 e em 18 meses se tornou o padrão de fato para conectar agentes de IA a ferramentas e dados. Com 10.000+ servidores públicos, 97 milhões de downloads mensais e adoção por OpenAI, Google e Microsoft, o protocolo resolve o problema N×M da integração. Mas segurança, latência e governança ainda são desafios abertos. Análise completa com dados, arquitetura e implicações para o mercado brasileiro.

Marcus Ramalho··13 min
MCPModel Context Protocolagentes IAintegração+6
Arquitetura de 6 camadas de guardrails em produção: input validation, prompt hardening, retrieval rail, output filtering, tool-call gating e moderation APIDestaque

Guardrails e Alinhamento em Produção: Como Garantir que Seu Agente Não Saia do Escopo

A maioria dos times shipa LLM com system prompt e reza. Guardrails em produção não são um toggle: são 6 camadas arquiteturais distintas, cada uma defendendo uma classe de ameaça. Referência prática com OWASP 2025, NeMo Guardrails, Llama Guard 3, e o cálculo de falso positivo que ninguém te mostra.

Leonardo Camilo··13 min
guardrailsalinhamentoproduçãoNeMo Guardrails+6
Diagrama das 10 categorias de risco do OWASP Top 10 para Aplicações Agentivas com conexão para defesas e compliance LGPDDestaque

Segurança de Agentes IA em Produção: O Que Ninguém Te Conta

88% das organizações já sofreram incidentes de segurança com agentes IA. O OWASP lançou o Top 10 para Aplicações Agentivas, o EchoLeak mostrou que zero-click é real, e a LGPD exige responsabilidade. Guia prático para proteger seus agentes antes do deploy.

Marcus Ramalho··11 min
segurançaagentes IAOWASPred teaming+4
Comparativo visual entre RAG e Fine-tuning: pipeline de retrieval vs atualização de pesos do modelo

RAG vs Fine-tuning: Quando Usar Cada Um em Produção

Guia prático com dados reais para escolher entre RAG e fine-tuning em sistemas de IA. Benchmarks, custos, latência e a abordagem híbrida RAFT explicados com números verificáveis.

Leonardo Camilo··9 min
RAGfine-tuningLLMprodução+3
Diagrama comparando prompt artesanal (texto solto, sem validação) com prompt em produção (schema JSON, evals, versionamento, CI/CD), mostrando a evolução do playground para o pipeline robusto

Prompt Engineering em Produção: por que seu prompt não sobrevive ao mundo real

Seu prompt funciona no playground. Mas na produção, com usuários reais, dados imprevistos e modelos que mudam, ele quebra. Este post mostra como transformar prompt engineering artesanal em engenharia de verdade: structured outputs, versionamento, evals e o framework DSPy que programa prompts em vez de escrevê-los à mão.

Luiz Felipe Barbedo··10 min
prompt engineeringproduçãostructured outputsDSPy+5
Diagrama mostrando o pipeline de avaliação de LLMs: golden dataset, métricas offline (faithfulness, relevance, recall) e online (latência, custo, satisfação), conectados ao ciclo de melhoria contínua

Avaliação de LLMs e agentes IA em produção: o guia que ninguém te dá

Seu modelo passou no benchmark. Mas será que funciona de verdade com dados reais? Um guia prático sobre como avaliar LLMs, RAG e agentes IA em produção: métricas que importam, armadilhas dos benchmarks, LLM-as-judge e por que golden datasets são o ouro do seu pipeline.

Leonardo Camilo··10 min
avaliaçãoLLMagentes IARAGAS+7
Diagrama de observabilidade para agentes IA mostrando os 3 pilares: tracing distribuído, logging estruturado e métricas, com OpenTelemetry como camada de padronização conectando a agentes, ferramentas e dashboards

Observabilidade de agentes IA: logging, tracing e métricas que realmente funcionam em produção

Seu agente de IA funciona em desenvolvimento. Passa nos testes. Você deploya. Aí um usuário reporta: 'ele me deu uma resposta completamente errada'. E agora? Um guia prático de observabilidade para agentes IA: os 3 pilares, as métricas que importam, as ferramentas do ecossistema e o que ninguém te conta sobre debugar sistemas não-determinísticos.

Marcus Ramalho··8 min
observabilidadeagentes IAloggingtracing+9
Diagrama comparativo de modelos de pricing para SLM em produção: licença perpétua, assinatura por usuário, pay-per-token e modelo híbridoDestaque

Pricing de IA: Como Cobrar por SLM em Produção sem Perder Cliente nem Margem

Com o mercado de SLMs projetado para US$ 37,7 bilhões até 2032 e margens brutas 50-60% mais apertadas que SaaS tradicional, acertar o pricing de IA deixou de ser ajuste fino para virar questão de sobrevivência. Este post apresenta as cinco decisões arquiteturais do pricing de IA, benchmarks reais de custo por token para modelos de 1B a 8B parâmetros, e o ponto de equilíbrio entre licença perpétua, assinatura e consumo para o mercado brasileiro.

Luiz Felipe Barbedo··9 min
pricingIASLMmodelo de negócio+6
Diagrama go-to-market de IA para setor público brasileiroDestaque

Go-to-Market de IA no Setor Público: O Manual que Startups Brasileiras Precisam Ler

Com R$ 23 bilhões previstos no PBIA e um mercado de IA governamental crescendo a 16,6% ao ano na América Latina, o setor público brasileiro é a maior oportunidade B2G para startups de IA. Mas vender para governo exige estratégia diferente. Este post detalha como montar um go-to-market que funciona.

Luiz Felipe Barbedo··11 min
IAsetor públicogo-to-marketB2G+5
Mapa do Brasil estilizado com nós de IA conectados entre estados, representando o ecossistema de modelos open-source em português brasileiro: Sabiá, Tucano, Drummond, AMALIA e corpus CarolinaDestaque

Modelos open-source brasileiros: o cenário atual em 2026

O Brasil deixou de ser apenas consumidor de IA. Com a família Sabiá alcançando 94% do GPT-4o em português, o Tucano 2 treinando do zero com dados abertos e o PBIA injetando R$ 23 bilhões, o ecossistema de modelos open-source em português brasileiro vive um momento de inflexão. Este post mapeia quem são os protagonistas, o que funciona, o que falta e por que isso importa para qualquer empresa que processa dados no Brasil.

Leonardo Camilo··9 min
modelos open-sourceIA brasileiraSabiáMaritaca+6
Comparativo visual entre cloud e on-prem para IA: de um lado servidores em nuvem com ícones de escalabilidade e custo variável, do outro infraestrutura local com ícones de controle, soberania e latência baixaDestaque

Cloud vs on-prem para IA: quando cada um faz sentido

A decisão entre nuvem e infraestrutura local não é ideológica: é matemática. Dados de pesquisa, TCO real e o caso brasileiro de soberania de dados mostram quando cada modelo vence, e por que 93% das empresas estão repatriando workloads de IA da nuvem pública.

Marcus Ramalho··9 min
cloudon-premisesinfraestrutura IAsoberania de dados+6
Guia prático de compliance LGPD para startups de IA no BrasilDestaque

LGPD e IA: Compliance na Prática para Startups Brasileiras

O Brasil tem mais de 975 startups de IA, investimentos crescendo 62% ao ano, e dois marcos regulatórios que vão mudar o jogo: a LGPD em plena vigência e o PL 2338/2023 prestes a ser aprovado. Este post detalha como uma startup de IA pode estruturar compliance de privacidade de dados sem travar a operação, com base na Nota Técnica 12/2025 da ANPD, nos requisitos do PL 2338 e em casos práticos de mercado.

Marcus Ramalho··13 min
LGPDIAcompliancestartup+5
Mapa do mercado de IA B2B no Brasil: números, desafios e estratégias de vendaDestaque

Vendas de IA B2B no Brasil: O Mercado que Explode e os Desafios que Ninguém Conta

O mercado de IA no Brasil ultrapassou US$ 2,4 bilhões em 2025, com crescimento de 18,5% ao ano. Mas vender IA B2B no país é muito diferente de vender SaaS tradicional. Analisamos dados do IDC, Gartner e Salesforce para mapear as oportunidades, os gargalos de adoção, o impacto da LGPD e o que diferencia uma startup de IA que fecha contratos de uma que não passa do pilotinho.

Luiz Felipe Barbedo··12 min
B2BIAvendasmercado brasileiro+6
Comparativo de custo: fine-tuning on-premise vs cloud vs API para IA no BrasilDestaque

Fine-tuning no Brasil: Custo-Benefício de Treinar vs Usar API

Quanto custa, de verdade, fine-tunar um modelo de linguagem no Brasil? Comparamos API (OpenAI, Google), cloud GPU (Together AI, RunPod) e on-premise com hardware nacional, com números reais em reais. Incluímos análise LGPD, break-even por volume e um framework de decisão para empresas brasileiras escolherem o caminho certo.

Leonardo Camilo··11 min
fine-tuningSLMcustoAPI+6
Pipeline de RAG em produção: do chunking ao rerankingDestaque

RAG em Produção: Pipeline de Retrieval que Funciona de Verdade

A maioria dos pipelines de RAG falha na hora de recuperar informação, não na geração. Analisamos por que naive RAG quebra em produção e apresentamos as arquiteturas que realmente funcionam: chunking hierárquico, busca híbrida BM25+vetorial, reranking com cross-encoder e avaliação com RAGAS, com números e benchmarks reais.

Marcus Ramalho··12 min
RAGretrievalproduçãochunking+5
Da Caverna Digital à SoberaniaDestaque

Da Caverna Digital à Soberania: Por Que Construímos a BaXiJen

Um ensaio sobre IA, Big Techs e dialética do poder, reafirmando por que a BaXiJen existe: para quebrar a dependência digital do Brasil e devolver autonomia a quem deveria ser senhor, não servo, da tecnologia.

Marcus Ramalho e Milena Carvalho··8 min
soberania digitalBig TechsdialéticaHegel+3

Newsletter BaXiJen

Conteúdo técnico sobre IA, soberania e produto.

Análises com dados reais, papers acadêmicos e lições de produção. Sem spam, sem buzzword. Um email por semana.

Sem spam. Desinscreva a qualquer momento. Dados protegidos pela LGPD.

Precisa de ajuda?

Clique no chat para conversar com nosso consultor