Введение: почему агент «тупеет» с каждым шагом

Вы запускаете AI-агента — на 10-м шаге он блестящ: быстр, точен, помнит каждую деталь. Но к 80-му шагу он предлагает уже отвергнутое решение, «забывает» файлы, редактированные 20 шагов назад, и противоречит собственным прежним решениям. Знакомо? Это не баг модели, а естественное следствие переполнения контекстного окна. В этой статье мы разберём, как компактирование (compaction) — умное сжатие истории — возвращает агенту ясность мышления.

Что такое компактирование на самом деле

Компактирование — это сжатие с потерями смысла. Вы берёте длинную, разросшуюся историю и заменяете её кратким представлением, сохраняющим важное для следующего шага и отбрасывающим лишнее. «С потерями» — ключевой момент: если бы сжатие было без потерь, вы бы просто получили те же токены в другом шрифте. Компактирование работает именно потому, что выбрасывает информацию. Всё мастерство — в том, что именно выбрасывать.

Это не очистка (/clear), которая вызывает полную амнезию, и не обрезка (trimming) — механическое удаление старейших сообщений по жёсткому правилу. Очистка хороша при смене задачи, но катастрофична в середине. Обрезка дешева, но тупа: она не знает, что самое старое сообщение — это ключевое решение, от которого зависит вся задача. Компактирование — золотая середина: умнее обрезки, менее разрушительно, чем очистка.

Главные ошибки наивного компактирования

Попытка «просто подвести итог» разговора ведёт к нескольким типичным провалам:

Отравление (poisoning): галлюцинация просачивается в итог и становится опорным фактом. Модель строит на ошибке, как на истине.
Отвлечение (distraction): итог сохраняет столько лишнего, что просто воспроизводит исходный объём. Вы «сжали» 50К токенов до 48К.
Путаница (confusion): избыточные детали выживают и направляют модель на нерелевантную работу.
Конфликт (clash): итог и живые сообщения противоречат друг другу, и модель вынуждена судить между двумя версиями реальности.

Особенно опасна кумулятивная эрозия при повторном компактировании. Каждый проход теряет часть информации. Сжав сжатое пять раз, вы получаете испорченный телефон: конкретное указание «не трогать модуль auth» превращается в общую фразу. Это и есть реальная причина, по которой агенты «сходят с рельсов» после автоматического компактирования.

Анатомия хорошего компактирования

Правило, которое работает во всех серьёзных реализациях: сохраняйте решения и состояние, отбрасывайте процесс, который к ним привёл.

Пример из первой части: агент искал в базе данных и выяснил, что таблица пользователя называется documents_v2. Хорошее компактирование сохранит: «Таблица пользователя — documents_v2». Хорошее компактирование отбросит: 400 строк JSON, которые модель просмотрела, чтобы это выяснить. Факт долговечен и компактен; свидетельства факта огромны и теперь бесполезны — вы уже извлекли из них ценность. Хранить JSON — значит вечно платить аренду за информацию, которую вы уже обналичили.

Обобщая, вот чеклист для хорошей передачи контекста:

Сохранять

Что было решено и почему
Текущее состояние файлов/системы
Явные ограничения и предпочтения пользователя
Что сейчас в работе
Конкретные следующие шаги
Критические ссылки (имена таблиц, ID, пути)

Отбрасывать

Рассуждения, приведшие к решению
Промежуточные состояния, уже перезаписанные
Любезности, подтверждения, повторы
Завершённые и проверенные подзадачи (одна строка на каждую)
Сырой вывод инструментов, который вы уже переварили
Поиск, который привёл к ссылкам

Особое внимание — ограничениям пользователя. «Решили использовать PostgreSQL» выглядит как факт, который стоит сохранить. «Пользователь сказал никогда не трогать модуль auth» выглядит как старый шум разговора. Но именно второе, будучи потерянным, заставит агента уверенно сделать то, что ему запретили. Фиксируйте ограничения: они должны пережить каждое компактирование без изменений, никогда не перефразируйтесь.

Как это делают реальные инструменты

Два известных инструмента — Claude Code и Codex CLI — иллюстрируют разные подходы.

Claude Code

Делает ставку на автоматизацию. Есть ручная команда /compact, но основное поведение — авто-компактирование при заполнении примерно 95% контекстного окна. Оно суммирует всю траекторию и начинает с этого итога как с семени. Можно управлять (/compact "сфокусируйся на открытых TODO"). Сообщество отмечает, что 95% — слишком поздно: к этому моменту качество уже падает, и люди компактируют вручную задолго до срабатывания триггера.

Codex CLI (OpenAI)

Подход ближе к «передаче»: компактирование оформляется как контрольная точка, создающая итог для «другой LLM, которая продолжит задачу». Следующая модель должна развивать работу, а не переделывать. Триггер — порог токенов; последние сообщения пользователя сохраняются дословно вместе с итогом. Есть повторные попытки с экспоненциальной задержкой на случай сбоя вызова компактирования (а это LLM-вызов, и он может упасть).

Практические советы для вашей реализации

Срабатывайте раньше, чем думаете. 95% — это предостережение, не рекомендация. 85–90% позволяет компактировать, пока контекст ещё достаточно хорош для качественного суммирования.
Обрезайте перед суммированием. Дешёвый механический проход, удаляющий устаревший вывод инструментов, сэкономит дорогой LLM-вызов. Не тратьте суммирование на 400 строк JSON, которые можно просто удалить.
Последние шаги сохраняйте дословно. Компактируйте далёкое прошлое; сохраняйте настоящее. Модели нужна живая, неперефразированная нить того, что происходит прямо сейчас.
Фиксируйте ограничения и сообщайте пользователю о компактировании. Молчаливое изменение поведения в середине задачи выглядит как внезапное ухудшение; одна строка «история сжата для освобождения контекста» превращает загадку в понятный компромисс.

Стартовый промпт для компактирования

Создай итог передачи, чтобы сессия кодирования могла продолжиться в новом контексте.  
Итог будет ЕДИНСТВЕННОЙ доступной историей, поэтому сохрани:  

1. Завершённая работа — что сделано и проверено (одна строка на пункт)  
2. Текущее состояние — изменённые файлы и их статус  
3. В работе — что делается прямо сейчас  
4. Следующие шаги — конкретные действия  
5. Ограничения — предпочтения и требования пользователя, процитированные дословно  
6. Критические ссылки — имена таблиц, ID, пути к файлам, ключевые решения и почему  

Будь плотным. Отбрось рассуждения, сырой вывод инструментов и всё, что уже устарело.  
Не выдумывай и не предполагай ничего, чего нет в разговоре.

Последняя строка — «не выдумывай» — ваша дешёвая защита от отравления. Работа суммаризатора — сжатие, а не творчество. Как только он начинает заполнять пробелы, он фабрикует галлюцинацию, которую следующий шаг примет за истину.

Неудобная правда

Компактирование заставляет признать то, что остальной стек позволяет избегать: вы не можете сохранить всё, поэтому должны решить, что вашему агенту позволено забыть. Внешняя память и поиск позволяют уклониться — спрятать, потом достать. Но внутри одной длительной задачи, на конечном столе, уклоняться некуда. Что-то должно уйти — и компактирование выбирает, что выживет осознанно, вместо того чтобы позволить контекстному окну выбрать за вас, молча вытолкнув самое важное ограничение за край внимания.

Лучшее компактирование, как и лучшая инженерия, — это в основном вычитание. Сохранить documents_v2 и сжечь JSON; одна строка ограничения переживёт тысячу строк болтовни. Мантра из первой части становится острее: лучший токен — тот, который вам не пришлось отправлять. Компактирование — это способ узнать, какие это были токены, и решиться их удалить.

Практический вывод

Прямо сейчас откройте своего агента и проверьте, как он управляет контекстом. Если он использует авто-компактирование при 95% — настройте триггер раньше. Если он вообще не компактирует — добавьте хотя бы ручную команду с промптом выше. И главное: фиксируйте ограничения пользователя дословно — это единственное, что нельзя потерять.

Контекстная инженерия: как правильно компактировать историю AI-агента