Alex ChernyshAlex ChernyshAgentic behaviorist · Тель-Авив
СтатьиАссистент
Назад к статьям

Статья

Как строить агентные AI-системы, которые держатся в проде

Практический разбор: контракты инструментов, работа с контекстом, точки согласования, evals и телеметрия.

2 марта 2026 г.·4 мин чтения
Agents
На странице(10)
Сначала сценарииИнструменты — это контрактыПоиск — это контроль, не вкусСогласование на дорогой границеКонтекст вместо сентиментальной памятиEvals как операционная системаТелеметрия объясняет решения, а не ошибкиАрхитектура, которая держитсяЧто ещё почитатьИсточники и ссылки

Дёргать инструменты перестало впечатлять ещё в середине 2024-го. Вопрос теперь другой: делает ли это система предсказуемо, оставляет ли след и умеет ли вовремя остановиться.

Главный ориентир

Начинайте с самого узкого контура, который реально закрывает задачу. Разделение Anthropic по-прежнему рабочее. Сценарий, если последовательность шагов известна. Агент, если системе и правда приходится подстраиваться по ходу.

Базовая позиция для продакшена

Стройте узкий цикл, который сохраняет источники, точки согласования и покрытие evals. Больше автономии имеет смысл только когда строгая версия упёрлась.

Что обычно держится

  • сценарии до автономии
  • инструменты как контракты, а не как магия
  • согласование с человеком на дорогой границе
  • работа с контекстом, а не сентиментальная память
  • оценивать трассы и поведение, а не финальную прозу
Узкий цикл по умолчанию
Рабочая схема чаще оказывается уже и строже, чем первая версия архитектуры.
Точки контроля

Сначала сценарии

Самый быстрый путь к хрупкой системе — начать со свободно блуждающего планировщика, потому что это выглядит современно. Команды это знают. И всё равно начинают.

Если шаги задачи в целом известны, сценарий даёт почти бесплатно три вещи. Проще разбор сбоев. Понятнее затраты и задержка. Меньше масштаб поломки, когда модель ошиблась с трактовкой. Автономный агент имеет смысл только после того, как сценарная версия уже стала тесной. До этого лишняя автономия — просто лишняя поверхность.

Инструменты — это контракты

Web search, file search, connectors, shell, computer use. Обычные точки исполнения. Относиться к ним надо как к любой другой интеграции.

Контракт, на который можно опереться: узкая входная схема, понятные режимы отказа, явные права, детерминированная обработка результата. Контракт ценен тем, что срезает число способов ошибиться. Способность LLM позвать инструмент ещё не делает инструмент безопасным.

Поиск — это контроль, не вкус

Удивительно много сбоев агентных систем оказываются промахами поиска в костюме рассуждения.

Рабочий шаблон. Поднимать только то, что нужно текущему шагу. Отсекать шум до генерации. Не терять идентичность документов по дороге. Разрешать системе отказаться, если опора слаба. В агентном цикле один плохой шаг поиска заражает всё, что идёт следом.

Согласование на дорогой границе

Точки согласования нужны не везде. Они нужны там, где система пересекает границу, за которую потом придётся отвечать человеку.

Типичные места:

  • отправка, удаление, публикация
  • изменение финансового или юридического состояния
  • код или инфра с реальными внешними изменениями
  • уверенный ответ в домене с высокой ценой ошибки

Остальное автоматизируется, логируется и, где можно, делается обратимым.

Контекст вместо сентиментальной памяти

Команды часто говорят про память, хотя нужна им связность работы. Связность собирается из трёх вещей. Состояние текущего запуска. Устойчивые настройки, которые правда стоит переиспользовать. Артефакты, которые поднимаются по запросу: квитанции, сводки, прошлые результаты.

Главная задача — решить, какой контекст живёт в контуре постоянно, что поднимается по требованию, что истекает по TTL, что обязано оставаться проверяемым. Накопить больше текста — не задача.

Бесформенный кусок прошлого диалога, который нельзя разобрать, почистить или восстановить из исходников, через квартал превращается в мифологию.

Evals как операционная система

Когда система живёт в несколько шагов, трогает инструменты и ветвится под неопределённостью, evals — это слой, на котором держится сон.

Набор, на котором я сплю спокойно: проверка успеха по задаче, корректность вызовов инструментов, опора на источники, корректные отказы и эскалации, бюджеты по задержке и стоимости, оценка трассы там, где путь важнее финала. Агент без evals — сценарий, который вы решили не измерять.

Телеметрия объясняет решения, а не ошибки

Логов об ошибках хватает у всех. Гораздо реже логируют ответ на более важный вопрос: почему система решила, что ей это можно.

Минимально нужны: какой инструмент был выбран, с какими аргументами, какие документы поднимались, какие правила сработали, где включилась ветка согласования, какой получился финальный формат и степень уверенности. Без этого разбор инцидента через неделю превращается в догадки с логами по краям.

Архитектура, которая держится

Самые живучие агентные системы редко выглядят как автономные цифровые операторы. Чаще это дисциплинированные контуры с короткими циклами, понятной опорой на источники и жёсткими границами. На этом держится доверие.

Что бы я правил завтра утром

  • сузил контракты инструментов, прежде чем трогать планировщик
  • поставил точки согласования там, где риск или стоимость становятся долговременными
  • добавил квитанции для каждого внешнего действия
  • сделал загрузку контекста явной, а не надеялся на фоновую память
  • собрал маленький набор evals вокруг реальных сценариев поломки
По теме

Что ещё почитать

  • Как устроить evals для LLM-систем в проде
  • Безопасность LLM-продукта без театра
Источники

Источники и ссылки

  • OpenAI: Agents guide
  • OpenAI: Agent evals
  • OpenAI: Trace grading
  • Anthropic: Building effective agents
  • Anthropic: Effective context engineering for AI agents

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

Ещё по теме Agents

Часть публичных заметок про AI-системы с опорой на источники: поиск, evals и поставку под реальными ограничениями.

  • →Я запустил 12 ИИ-агентов на 47 часов. Вот что выжило.29 мар. 2026 г.·6 мин чтения
  • →Как строить юридические QA-системы, которым можно доверять10 мар. 2026 г.·21 мин чтения
  • →Ищешь работу? Налей себе. Поищем за тебя.23 апр. 2026 г.·3 мин чтения
На странице
  • 01Сначала сценарии
  • 02Инструменты — это контракты
  • 03Поиск — это контроль, не вкус
  • 04Согласование на дорогой границе
  • 05Контекст вместо сентиментальной памяти
  • 06Evals как операционная система
  • 07Телеметрия объясняет решения, а не ошибки
  • 08Архитектура, которая держится
  • 09Что ещё почитать
  • 10Источники и ссылки