Разбираем 6 ключевых трендов AI-инженерии с конференции: Software Factories, Harness Engineering, Computer Use, Context Engineering и другие. Узнайте, что реально внедряют.
На конференции AI Engineer в Сан-Франциско собрались ведущие инженеры, мейнтейнеры и компании. Среди десятков треков и тысяч разработчиков легко потеряться в шуме. Но если посмотреть, что действительно внедряется в продакшн, хаос складывается в чёткую картину: индустрия уходит от простых чат-интерфейсов и превращает большие языковые модели в центральные процессоры внутри сложной программной архитектуры — по сути, LLM Operating System. Я собрал шесть главных тем, которые реально обсуждают и применяют.
Раньше AI в разработке ограничивался автодополнением строки кода. Теперь этот подход устаревает. В центре внимания — многоагентные системы, работающие на уровне целого репозитория. Их называют Software Factories.
Вместо того чтобы писать код рядом с AI-ассистентом, разработчики управляют роем агентов, которые автономно ревьюят пул-реквесты, запускают тесты, ловят краевые случаи и коммитят исправления. Например, Uber поделился опытом использования uReview — внутреннего движка ревью кода. Агенты проверяют PR, запускают локализованные тесты и фиксят баги до того, как код увидит человек.
Чтобы это работало надёжно, инженеры подключают компиляторы и линтеры напрямую в цикл обратной связи агента. Если сгенерированный код не компилируется, сырая ошибка подаётся обратно в промпт — модель читает свою ошибку, исправляет баг и перезапускает проверку.
На конференции многие осознали: «Все строят обвязку для агентов, но никто её так не называет». LLM по природе вероятностны, а инфраструктура требует предсказуемости. Чтобы это совместить, команды формализуют дисциплину Harness Engineering.
«Обвязка» (harness) — это строгое программное окружение вокруг модели, которое накладывает ограничения, управляет состоянием и предотвращает бесконечные циклы. Вот ключевые компоненты:
Представьте, что агент выполняет сложный многочасовой workflow и происходит сетевой таймаут. Обвязка сохраняет память и состояние — процесс возобновляется ровно с места сбоя без повторения дорогих API-вызовов.
Раньше интеграция означала написание коннекторов к API или парсинг эндпоинтов. Сейчас ключевой тренд — Computer Use: агенты, которые управляют софтом как человек: смотрят на экран, двигают мышь и набирают команды.
Благодаря улучшенным vision-language моделям (VLM) такие системы не требуют структурированных бэкенд-API. Они делают скриншоты GUI, анализируют расположение полей и кнопок, вычисляют точные пиксельные координаты и выполняют клики.
Это изменило локальные окружения разработчиков: инженеры строят изолированные песочницы и десктопные компаньоны вроде OpenClaw, которые дают фоновым агентам собственные виртуальные среды. Агенты могут поднимать локальные серверы и отлаживать файлы, не захватывая активный экран и клавиатуру разработчика.
Контекстные окна выросли до миллионов токенов, но сбрасывать весь код в промпт — дорогой и медленный антипаттерн. Время до первого токена и стоимость API — реальные узкие места. Поэтому разработчики фокусируются на Context Engineering: оптимизации контекстного окна как динамического кеша.
Стратегия обычно трёхуровневая:
Если и есть чёткий операционный сдвиг, то это смерть vibe-based engineering. Просмотреть несколько ответов, решить, что они выглядят нормально, и запустить в продакшн — больше недопустимо.
Сообщество Evals сосредоточено на автоматизированных многошаговых симуляционных бенчмарках. Оценка агента теперь требует изолированной виртуальной среды: временной песочницы с мок-базами данных и сетевым доступом. Фреймворк проверяет не стиль ответа, а успешность выполнения задачи, количество шагов и отсутствие нарушений безопасности.
Инженеры также отказываются от «ловушки персоны» — промптов вроде «Ты — старший инженер». Исследования показали, что такой подход оценивает стилистическую атмосферу, а не технические способности, и часто вносит скрытые смещения. Новый стандарт — жёсткое, задачно-ориентированное тестирование.
Давать агенту права писать код, изменять файлы и запускать команды — серьёзный риск. Платформенные инженеры решают это через слой выполнения. Индустриальный стандарт — Micro-Sandboxes: лёгкие эфемерные микро-ВМ (например, от E2B или Docker), которые запускаются за миллисекунды, выполняют вычисления и сразу уничтожаются, предотвращая побег из контейнера.
Также активно внедряется маскировка учётных данных. Когда агенту нужен доступ к корпоративным базам, используются протоколы делегирования вроде AAuth: агент получает ограниченные полномочия на вызов инструмента, но никогда не видит сырые API-ключи, что нейтрализует утечки при инъекциях промптов.
Легко прочитать эти темы, испытать FOMO и подумать, что вы уже отстаёте. Не поддавайтесь хайпу. Вам не нужно переписывать весь стек к понедельнику.
Реальный вывод из всей этой шумихи довольно обнадёживающий: AI становится обычной программной инфраструктурой. Разработчики, которые создадут полезные вещи в ближайшие годы, — не те, кто гоняется за каждой новой моделью или сложным multi-agent фреймворком. Они будут применять базовые, скучные инженерные принципы: делать входные данные предсказуемыми, тщательно тестировать код и обеспечивать безопасность окружения.
Если ищете, с чего начать, не усложняйте. Выберите один повторяющийся рабочий процесс. Оберните его в чистую защитную обвязку, напишите простой скрипт для оценки результатов и посмотрите, что получится. Вдохновение — это здорово, но прагматизм — то, что реально доставляется в продакшн.
Хочешь закрепить знания на практике?
Решай задачи на Algolit — интерактивная платформа для обучения
Начать бесплатно →