Modulo 3.3: Memoria e Persistencia em Swarms

💾 O problema: LLMs sao stateless

Todo LLM tem uma limitacao fundamental: ele e stateless. Cada chamada de API e uma interacao independente — o modelo nao "lembra" do que aconteceu na chamada anterior. O que simula memoria e o contexto da conversa (o historico de mensagens enviado junto com cada request), mas isso tem limites severos: a janela de contexto e finita (128k-1M tokens dependendo do modelo), o custo cresce linearmente com o tamanho do contexto e informacoes antigas sao progressivamente "esquecidas" a medida que o contexto cresce.

Para um chatbot simples, isso nao e problema. Mas para um swarm em producao que trabalha em projetos ao longo de dias ou semanas, a falta de memoria e fatal. O orquestrador precisa lembrar do plano, das decisoes tomadas, dos resultados de tasks anteriores e do estado atual de cada agente. Sem memoria persistente, o swarm comeca cada sessao do zero, repetindo trabalho, contradizendo decisoes e perdendo contexto critico. Memoria e o que transforma um demo em ferramenta de producao.

💡 O Problema Concreto

• Janela de contexto finita: Mesmo com 1M tokens, um projeto real com centenas de arquivos e decisoes excede rapidamente o limite
• Custo crescente: Enviar todo o historico a cada chamada multiplica custos — 100k tokens de contexto a cada interacao nao e sustentavel
• Perda de sessao: Se o processo do swarm morre (crash, timeout, reinicio), todo o estado em memoria e perdido permanentemente
• Multiplos agentes: Em um swarm, cada agente tem seu proprio contexto — nao ha forma nativa de compartilhar "memorias" entre agentes diferentes

📊 Impacto real

Sem memoria: Swarm demora 3x mais em projetos longos porque repete analises e decisoes a cada sessao
Inconsistencia: Sem registro de decisoes, o agente pode escolher uma abordagem diferente a cada sessao, gerando codigo inconsistente
Custo desnecessario: Reconstruir contexto consome tokens que poderiam ser usados para trabalho real
Impossibilidade de auditoria: Sem logs de decisao, e impossivel saber por que o swarm tomou determinada decisao

📁 Memoria em disco: padrao .swarm/

A solucao mais pragmatica e elegante para memoria em swarms e o padrao .swarm/ — um diretorio persistente no projeto que armazena todo o estado do swarm em arquivos estruturados. Essa abordagem, usada pelo opencode-swarm, nao requer nenhuma infraestrutura extra: funciona com arquivos no disco local, e versionavel com Git e legivel por humanos. O diretorio tipicamente contem: plan.md (o plano atual com status de cada task), context.md (resumo do estado do projeto), evidence/ (resultados de testes e revisoes) e history/ (log de todas as acoes).

Cada vez que o swarm inicia uma sessao, ele le o .swarm/ para reconstruir o contexto. Em vez de enviar todo o historico de conversas, o orquestrador le o plan.md (que tem apenas as tasks e seus status) e o context.md (que tem um resumo conciso do projeto). Isso reduz drasticamente o contexto necessario — de milhares de mensagens para algumas centenas de tokens. E como manter um "caderno de notas" que o swarm consulta antes de comecar a trabalhar.

💡 Estrutura do .swarm/

• plan.md / plan.json: Lista de tasks com status (pending, in_progress, done, failed), responsavel, dependencias e criterios de aceitacao
• context.md: Resumo executivo do projeto — stack, decisoes-chave, estado atual, proximos passos. Atualizado a cada sessao
• evidence/: Resultados de revisoes (APPROVED/NEEDS_REVISION), outputs de testes, screenshots — provas de que o trabalho foi feito
• history/: Log cronologico de acoes — qual agente fez o que, quando, com qual resultado. Essencial para debugging

📊 Vantagens do .swarm/

Zero infraestrutura: Nao precisa de banco de dados, Redis ou servico externo — funciona com arquivos no disco
Versionavel: Todo o estado e versionado com Git — voce pode fazer checkout de qualquer ponto no tempo
Legivel por humanos: Arquivos Markdown e JSON que qualquer pessoa pode abrir e entender
Validacao com Zod: Schemas Zod garantem que plan.json mantém estrutura consistente — agentes nao corrompem o estado

⚡ Memoria efemera: Redis para estado de execucao

Enquanto o .swarm/ cuida da memoria persistente, Redis resolve o problema da memoria efemera — dados que precisam estar disponiveis rapidamente durante a execucao do swarm mas nao precisam sobreviver apos o processo terminar. Exemplos incluem: locks de arquivos (para evitar conflitos em escrita paralela), estado de tasks em execucao (para que o dashboard saiba o que esta acontecendo em tempo real), cache de resultados de API (para evitar chamadas duplicadas) e filas de mensagens entre agentes.

Redis e ideal para swarms porque e extremamente rapido (operacoes em microsegundos), suporta TTL (time-to-live — dados expiram automaticamente) e oferece pub/sub (agentes podem publicar e assinar eventos em tempo real). Um padrao comum e usar Redis como "quadro branco" compartilhado: o orquestrador escreve tarefas na fila, agentes pegam tarefas e atualizam status, e o dashboard le o estado em tempo real sem precisar consultar cada agente individualmente.

💡 Casos de Uso do Redis em Swarms

• File Locks: SET file:src/app.ts LOCKED EX 300 — lock com expiracao automatica de 5 minutos para evitar deadlocks
• Task Queue: LPUSH tasks task_json / RPOP tasks — fila FIFO de tarefas para agentes consumirem
• API Cache: Cache de resultados de ferramentas externas — se dois agentes precisam da mesma info, so chama API uma vez
• Pub/Sub Events: Agente publica "task_completed" → orquestrador recebe e decide proximo passo em tempo real

🧠 Memoria de longo prazo: Vector DB

A memoria de longo prazo vai alem do projeto atual — e o conhecimento acumulado que sobrevive entre projetos e sessoes. Enquanto .swarm/ armazena o estado de um projeto especifico, um Vector Database armazena embeddings (representacoes numericas de texto) que permitem busca por similaridade semantica. Isso significa que o swarm pode "lembrar" de solucoes que funcionaram em projetos anteriores, padroes de arquitetura recorrentes e preferencias do usuario.

Na pratica, o swarm gera embeddings de decisoes, snippets de codigo e resultados de revisoes, e os armazena em um Vector DB como ChromaDB (local, simples) ou Pinecone (cloud, escalavel). Quando um novo projeto comeca, o orquestrador pode buscar "projetos similares que usaram React + Prisma" e recuperar patterns que funcionaram. E como ter um colega experiente que lembra de tudo que a equipe ja fez.

💡 Componentes do Vector DB

• Embeddings: Texto convertido em vetores numericos (1536 dimensoes tipicamente) usando modelos como text-embedding-3-small
• Semantic Search: Busca por similaridade — "como implementamos autenticacao?" retorna snippets relevantes mesmo com palavras diferentes
• ChromaDB (local): Banco vetorial que roda localmente sem infraestrutura — ideal para projetos individuais e desenvolvimento
• Pinecone (cloud): Servico gerenciado que escala para milhoes de vetores — ideal para equipes e producao enterprise

📊 Exemplos praticos

Code patterns: "Como fizemos paginacao no projeto Y?" → Recupera implementacao completa com contexto
Decision recall: "Por que nao usamos MongoDB neste tipo de projeto?" → Recupera decisao com racional
Bug patterns: "Quais bugs comuns aparecem em integracao com Stripe?" → Recupera issues resolvidos anteriormente
User preferences: "Este usuario prefere TypeScript com Vitest" → Personaliza stack sem perguntar de novo

📊 Decision Trace: rastreabilidade

Em sistemas criticos, nao basta que o swarm produza resultado — e preciso rastrear como e por que cada decisao foi tomada. O Decision Trace e um log estruturado que registra, para cada acao significativa: qual agente executou, qual prompt foi enviado, qual resposta foi recebida, qual resultado foi produzido e como foi avaliado. Esse log e essencial para debugging ("por que o swarm escolheu essa abordagem?"), auditoria ("quem aprovou esse codigo?") e reproducibilidade ("consigo replicar o mesmo resultado?").

A coleta de evidencias vai alem de logs de texto. O evidence/ directory armazena resultados de testes (stdout/stderr), screenshots de UI, diffs de revisao (o que o reviewer encontrou), metricas de qualidade (complexity scores, coverage) e timestamps de cada operacao. Em ambientes enterprise com requisitos de compliance, o Decision Trace prova que o processo de desenvolvimento seguiu os controles necessarios — cada linha de codigo foi revisada, testada e aprovada por um agente com credenciais especificas.

💡 Componentes do Decision Trace

• Action Log: Timestamp + agente + acao + input + output para cada operacao significativa
• Evidence Collection: Artefatos que comprovam o resultado — test outputs, review diffs, build logs, screenshots
• Decision Rationale: Para decisoes de arquitetura, registrar alternativas consideradas e motivo da escolha
• Reproducibility Hash: Hash do prompt + modelo + temperatura para cada chamada — permite reproduzir resultados identicos

🔄 Progressao: RAG → Agentic RAG → Agent Memory

A evolucao da memoria em sistemas de IA segue uma progressao clara de tres estagios. O primeiro estagio e RAG basico (Retrieval-Augmented Generation): o sistema busca documentos relevantes em um banco vetorial e injeta no contexto do LLM antes de gerar a resposta. E eficaz mas passivo — o sistema so busca quando solicitado e nao decide o que lembrar ou esquecer. A maioria dos chatbots com base de conhecimento usa RAG basico.

O segundo estagio e Agentic RAG: o agente decide quando, o que e onde buscar. Em vez de uma busca fixa, o agente avalia se precisa de informacao adicional, formula a query otima, busca em multiplas fontes e avalia a relevancia dos resultados antes de usar. O terceiro estagio — Agent Memory — vai alem: o agente nao apenas busca, mas tambem decide o que lembrar. Apos cada projeto, o agente avalia quais decisoes e patterns foram uteis e os armazena proativamente. Ele tambem esquece informacoes obsoletas (versoes antigas de APIs, patterns deprecados). E memoria curada, nao acumulacao bruta.

💡 Os Tres Estagios

• RAG Basico: Busca passiva em documentos. O sistema recupera chunks relevantes e injeta no contexto. Funciona para FAQs e bases de conhecimento
• Agentic RAG: O agente controla a busca. Decide quando buscar, formula queries otimas, avalia resultados e faz buscas iterativas se necessario
• Agent Memory: O agente cura sua propria memoria. Armazena proativamente o que aprendeu, esquece o que ficou obsoleto, melhora com o tempo
• Memoria Episodica: Lembrar de "experiencias" — "da ultima vez que tentei essa abordagem, deu errado porque..." — muda o comportamento futuro

📊 Estado da arte em 2026

RAG Basico: Maduro e amplamente adotado — funciona bem para 80% dos casos de uso
Agentic RAG: Emergente — IBM, LangChain e CrewAI oferecem implementacoes de referencia
Agent Memory: Experimental — projetos como MemGPT e Letta exploram memoria curada por agentes
Proximo passo: Memoria compartilhada entre swarms de diferentes organizacoes via protocolos abertos (MCP + A2A)

📚 Resumo do Modulo

✓

LLMs sao stateless - Sem memoria explicita, cada interacao comeca do zero

✓

Padrao .swarm/ - Memoria em disco com plan.md, context.md, evidence/, history/

✓

Redis efemero - Locks, filas, cache e pub/sub para estado de execucao em tempo real

✓

Vector DB longo prazo - Embeddings e busca semantica para conhecimento entre projetos

✓

Decision Trace - Logs estruturados para debugging, auditoria e reproducibilidade

✓

RAG → Agent Memory - Evolucao de busca passiva para agentes que curam sua propria memoria

Proximo Modulo:

3.4 - Qualidade e Seguranca em Swarms

← Modulo 3.2 Modulo 3.4 →