На конференции AI Engineer в Сан-Франциско собрались ведущие инженеры, мейнтейнеры и компании. Среди десятков треков и тысяч разработчиков легко потеряться в шуме. Но если посмотреть, что действительно внедряется в продакшн, хаос складывается в чёткую картину: индустрия уходит от простых чат-интерфейсов и превращает большие языковые модели в центральные процессоры внутри сложной программной архитектуры — по сути, LLM Operating System. Я собрал шесть главных тем, которые реально обсуждают и применяют.

1. Переход к репозиторным Software Factories

Раньше AI в разработке ограничивался автодополнением строки кода. Теперь этот подход устаревает. В центре внимания — многоагентные системы, работающие на уровне целого репозитория. Их называют Software Factories.

Вместо того чтобы писать код рядом с AI-ассистентом, разработчики управляют роем агентов, которые автономно ревьюят пул-реквесты, запускают тесты, ловят краевые случаи и коммитят исправления. Например, Uber поделился опытом использования uReview — внутреннего движка ревью кода. Агенты проверяют PR, запускают локализованные тесты и фиксят баги до того, как код увидит человек.

Чтобы это работало надёжно, инженеры подключают компиляторы и линтеры напрямую в цикл обратной связи агента. Если сгенерированный код не компилируется, сырая ошибка подаётся обратно в промпт — модель читает свою ошибку, исправляет баг и перезапускает проверку.

2. Укрепление систем с Harness Engineering

На конференции многие осознали: «Все строят обвязку для агентов, но никто её так не называет». LLM по природе вероятностны, а инфраструктура требует предсказуемости. Чтобы это совместить, команды формализуют дисциплину Harness Engineering.

«Обвязка» (harness) — это строгое программное окружение вокруг модели, которое накладывает ограничения, управляет состоянием и предотвращает бесконечные циклы. Вот ключевые компоненты:

Надёжное выполнение (Durable Execution): сохранение состояния и повторы при сбоях. Используются Temporal или Inngest.
Структурированные выходы: принудительная валидация схемы с помощью Pydantic или Instructor.
Динамические защитные барьеры: санитизация ввода/вывода.

Представьте, что агент выполняет сложный многочасовой workflow и происходит сетевой таймаут. Обвязка сохраняет память и состояние — процесс возобновляется ровно с места сбоя без повторения дорогих API-вызовов.

3. Computer Use против кастомных API

Раньше интеграция означала написание коннекторов к API или парсинг эндпоинтов. Сейчас ключевой тренд — Computer Use: агенты, которые управляют софтом как человек: смотрят на экран, двигают мышь и набирают команды.

Благодаря улучшенным vision-language моделям (VLM) такие системы не требуют структурированных бэкенд-API. Они делают скриншоты GUI, анализируют расположение полей и кнопок, вычисляют точные пиксельные координаты и выполняют клики.

Это изменило локальные окружения разработчиков: инженеры строят изолированные песочницы и десктопные компаньоны вроде OpenClaw, которые дают фоновым агентам собственные виртуальные среды. Агенты могут поднимать локальные серверы и отлаживать файлы, не захватывая активный экран и клавиатуру разработчика.

4. Контекстная инженерия и Tokenmaxxing

Контекстные окна выросли до миллионов токенов, но сбрасывать весь код в промпт — дорогой и медленный антипаттерн. Время до первого токена и стоимость API — реальные узкие места. Поэтому разработчики фокусируются на Context Engineering: оптимизации контекстного окна как динамического кеша.

Стратегия обычно трёхуровневая:

Кеширование префиксов: Inference-движки (например, vLLM) кешируют KV-состояния статичных системных инструкций. Последующие запросы переиспользуют кеш, снижая задержку и стоимость.
Сжатие контекста: Промежуточные слои запускают семантические алгоритмы сжатия, отбрасывая нерелевантные токены и суммаризируя чат-логи.
Graph RAG и гибридный поиск: Вместо сырых блоков текста системы используют структурированные графы знаний, передавая в контекст только высокосигнальные данные.

5. Конец «вибовой» оценки

Если и есть чёткий операционный сдвиг, то это смерть vibe-based engineering. Просмотреть несколько ответов, решить, что они выглядят нормально, и запустить в продакшн — больше недопустимо.

Сообщество Evals сосредоточено на автоматизированных многошаговых симуляционных бенчмарках. Оценка агента теперь требует изолированной виртуальной среды: временной песочницы с мок-базами данных и сетевым доступом. Фреймворк проверяет не стиль ответа, а успешность выполнения задачи, количество шагов и отсутствие нарушений безопасности.

Инженеры также отказываются от «ловушки персоны» — промптов вроде «Ты — старший инженер». Исследования показали, что такой подход оценивает стилистическую атмосферу, а не технические способности, и часто вносит скрытые смещения. Новый стандарт — жёсткое, задачно-ориентированное тестирование.

6. Микро-песочницы для безопасности выполнения

Давать агенту права писать код, изменять файлы и запускать команды — серьёзный риск. Платформенные инженеры решают это через слой выполнения. Индустриальный стандарт — Micro-Sandboxes: лёгкие эфемерные микро-ВМ (например, от E2B или Docker), которые запускаются за миллисекунды, выполняют вычисления и сразу уничтожаются, предотвращая побег из контейнера.

Также активно внедряется маскировка учётных данных. Когда агенту нужен доступ к корпоративным базам, используются протоколы делегирования вроде AAuth: агент получает ограниченные полномочия на вызов инструмента, но никогда не видит сырые API-ключи, что нейтрализует утечки при инъекциях промптов.

Практический вывод

Легко прочитать эти темы, испытать FOMO и подумать, что вы уже отстаёте. Не поддавайтесь хайпу. Вам не нужно переписывать весь стек к понедельнику.

Реальный вывод из всей этой шумихи довольно обнадёживающий: AI становится обычной программной инфраструктурой. Разработчики, которые создадут полезные вещи в ближайшие годы, — не те, кто гоняется за каждой новой моделью или сложным multi-agent фреймворком. Они будут применять базовые, скучные инженерные принципы: делать входные данные предсказуемыми, тщательно тестировать код и обеспечивать безопасность окружения.

Если ищете, с чего начать, не усложняйте. Выберите один повторяющийся рабочий процесс. Оберните его в чистую защитную обвязку, напишите простой скрипт для оценки результатов и посмотрите, что получится. Вдохновение — это здорово, но прагматизм — то, что реально доставляется в продакшн.

6 реальных трендов AI-инженерии на 2025 год

1. Переход к репозиторным Software Factories

2. Укрепление систем с Harness Engineering

3. Computer Use против кастомных API

4. Контекстная инженерия и Tokenmaxxing

5. Конец «вибовой» оценки

6. Микро-песочницы для безопасности выполнения

Практический вывод

Читать также

Защита от промпт-инъекций: 7 практических методов

Свобода ПО в эпоху ИИ: почему open weights ≠ open source

AI-разработка: как не утонуть в хайпе и строить рабочие решения