Проблема: память агентов — чёрный ящик

Каждый production-агент использует память: хранит факты, ограничения, предпочтения пользователя. Агент извлекает их, выполняет задачи, вы итеративно улучшаете систему. Но есть разрыв в цикле: вы никогда не знаете, какие решения о памяти были удачными.

Помогло ли то ограничение на самом деле? Сократило ли извлечение предпочтения лишние токены? Привело ли сохранение старого факта сессии к молчаливому провалу задачи? Вы понятия не имеете. Агент постоянно принимает решения о памяти, и ни одно из них не оставляет следа, по которому можно учиться.

Я начал думать об этом иначе. Каждый раз, когда агент решает, что запомнить, — это решение. А решения можно рассматривать как действия в смысле reinforcement learning — с состояниями, наградами и измеримыми результатами.

Так родился memcell-rl.

Что такое memcell-rl

Каждая ячейка памяти в memcell-rl типизирована. Это не просто строка — у неё есть cell_type (constraint, preference, fact, episode), scope (global, session, task), оценка критичности (criticality) и уровень чувствительности (sensitivity). Эти метаданные используются политикой для принятия решений.

Когда ваш агент спрашивает «что мне сейчас запомнить?», система запускает политику, выбирает ячейки и — ключевой момент — логирует полный переход:

State: какие ячейки доступны, бюджет токенов, типы ячеек в контексте
Action: какие ячейки выбраны или подавлены
Reward: успешна ли задача? Была ли ошибка устаревшей памяти? Сколько токенов потрачено?
Next state: как выглядит память после

Со временем накапливается датасет. Вы можете экспортировать его и обучить политику, которая учится на реальных результатах, а не на правилах, написанных заранее.

Текущая политика: baseline_v0

baseline_v0 — rule-based. Жёсткое подавление для истёкших или удалённых ячеек. Карантинные проверки перед использованием чувствительных данных. Приоритетное соблюдение бюджета токенов. Это работает, но статично.

Интересный вопрос — к которому я иду — как выглядит обученная политика. Та, что обучена на реальных сессиях агента и знает из данных, какие решения о памяти ведут к лучшим результатам.

Репозиторий экспортирует завершённые переходы через /v1/rl/dataset. Формат чист, чтобы подключить DQN, поведенческое клонирование или что угодно. Это долгосрочная цель.

Запуск локально: без SaaS, без вендора

Всё на SQLite. API — обычный HTTP. Вы можете запустить в Docker-контейнере, на ноутбуке, внутри CI-окружения. Никакие данные не покидают вашу машину.

Тестовый набор включает 42 теста, покрывающих полное API: enforcement политики, вычисление награды, RL-переходы, экспорт датасета. Все проходят без API-ключа.

pytest tests/ -q
42 passed in 1.83s

Практический вывод: что делать прямо сейчас

Я ещё на раннем этапе. Самая сложная часть — не API, а правильная функция награды для решений о памяти и проверка, обобщается ли обученная политика на разные нагрузки агентов.

Если вы строите агентов с реальными требованиями к памяти и сталкивались с этой проблемой, я искренне хочу поговорить. Оставьте комментарий или откройте issue.

→ github.com/adu3110/memcell-rl

Управление памятью агентов с RL: memcell-rl

Проблема: память агентов — чёрный ящик

Что такое memcell-rl

Текущая политика: baseline_v0

Запуск локально: без SaaS, без вендора

Практический вывод: что делать прямо сейчас

Читать также

Многоагентные системы: когда и как делить задачи

Автоматический редтиминг AI-агентов: от 6/9 утечек к 0

LLM в обнаружении аномалий: 6 паттернов для Python-разработчика