Дёргать инструменты перестало впечатлять ещё в середине 2024-го. Вопрос теперь другой: делает ли это система предсказуемо, оставляет ли след и умеет ли вовремя остановиться.
Сначала сценарии
Самый быстрый путь к хрупкой системе — начать со свободно блуждающего планировщика, потому что это выглядит современно. Команды это знают. И всё равно начинают.
Если шаги задачи в целом известны, сценарий даёт почти бесплатно три вещи. Проще разбор сбоев. Понятнее затраты и задержка. Меньше масштаб поломки, когда модель ошиблась с трактовкой. Автономный агент имеет смысл только после того, как сценарная версия уже стала тесной. До этого лишняя автономия — просто лишняя поверхность.
Инструменты — это контракты
Web search, file search, connectors, shell, computer use. Обычные точки исполнения. Относиться к ним надо как к любой другой интеграции.
Контракт, на который можно опереться: узкая входная схема, понятные режимы отказа, явные права, детерминированная обработка результата. Контракт ценен тем, что срезает число способов ошибиться. Способность LLM позвать инструмент ещё не делает инструмент безопасным.
Поиск — это контроль, не вкус
Удивительно много сбоев агентных систем оказываются промахами поиска в костюме рассуждения.
Рабочий шаблон. Поднимать только то, что нужно текущему шагу. Отсекать шум до генерации. Не терять идентичность документов по дороге. Разрешать системе отказаться, если опора слаба. В агентном цикле один плохой шаг поиска заражает всё, что идёт следом.
Согласование на дорогой границе
Точки согласования нужны не везде. Они нужны там, где система пересекает границу, за которую потом придётся отвечать человеку.
Типичные места:
- отправка, удаление, публикация
- изменение финансового или юридического состояния
- код или инфра с реальными внешними изменениями
- уверенный ответ в домене с высокой ценой ошибки
Остальное автоматизируется, логируется и, где можно, делается обратимым.
Контекст вместо сентиментальной памяти
Команды часто говорят про память, хотя нужна им связность работы. Связность собирается из трёх вещей. Состояние текущего запуска. Устойчивые настройки, которые правда стоит переиспользовать. Артефакты, которые поднимаются по запросу: квитанции, сводки, прошлые результаты.
Главная задача — решить, какой контекст живёт в контуре постоянно, что поднимается по требованию, что истекает по TTL, что обязано оставаться проверяемым. Накопить больше текста — не задача.
Бесформенный кусок прошлого диалога, который нельзя разобрать, почистить или восстановить из исходников, через квартал превращается в мифологию.
Evals как операционная система
Когда система живёт в несколько шагов, трогает инструменты и ветвится под неопределённостью, evals — это слой, на котором держится сон.
Набор, на котором я сплю спокойно: проверка успеха по задаче, корректность вызовов инструментов, опора на источники, корректные отказы и эскалации, бюджеты по задержке и стоимости, оценка трассы там, где путь важнее финала. Агент без evals — сценарий, который вы решили не измерять.
Телеметрия объясняет решения, а не ошибки
Логов об ошибках хватает у всех. Гораздо реже логируют ответ на более важный вопрос: почему система решила, что ей это можно.
Минимально нужны: какой инструмент был выбран, с какими аргументами, какие документы поднимались, какие правила сработали, где включилась ветка согласования, какой получился финальный формат и степень уверенности. Без этого разбор инцидента через неделю превращается в догадки с логами по краям.
Архитектура, которая держится
Самые живучие агентные системы редко выглядят как автономные цифровые операторы. Чаще это дисциплинированные контуры с короткими циклами, понятной опорой на источники и жёсткими границами. На этом держится доверие.