AI-системы, которые не разваливаются в проде.

Forward-deployed работа: retrieval, evals, агентная инфра. Доступен по делу.

Как на самом деле выглядит работа

Что на самом деле делает forward-deployed AI-инженер?

Forward-deployed значит, что я работаю внутри вашего репозитория и вашего стека, а не в стороннем Slack-канале. Я пишу и довожу до прода код, который закрывает разрыв между рабочим демо и системой, которую можно оставить включённой. Обычно это retrieval grounding, покрытие evals, границы инструментов и путь отката. Артефакт работы - коммиты и runbook, а не слайды.

Когда нужна мульти-агентная оркестрация, а когда это лишнее?

Нужна, когда задача проходит через несколько инструментальных поверхностей, не помещается в один контекст модели или требует подписанного аудита по каждому шагу. Лишняя, когда один правильно настроенный агент с жёсткими границами инструментов уже справляется. Bernstein сделан под первый случай. Если ваш workflow - это один промпт и один инструмент, вам нужен не оркестратор, а нормальные evals.

Почему retrieval grounding падает в проде, даже если на демо всё красиво?

Демо-запросы дружелюбные, а реальный трафик нет. Поисковик молча возвращает правдоподобный, но неверный контекст, модель пишет уверенный текст вокруг него, и ничто в стеке этого не ловит. Что обычно чиню: гибридный retrieval, форма ответа со ссылками на страницы и eval-набор с состязательными запросами, которые фиксируют реальные сбои, а не те, что воображает фреймворк.

Когда оркестрация агентов on-prem действительно нужна?

Когда нагрузка касается регулируемых данных, изолированной сети или LLM-шлюза на стороне клиента, мимо которого вы пройти не можете. Bernstein держит состояние в файлах, расписание детерминированное, доступы scoped по агенту - всё внутри вашего периметра. Никаких неавторизованных исходящих вызовов. Тот же оркестратор работает на ноутбуке, в CI и на закрытой VM - обычно именно это хочет увидеть compliance.

Как выглядит eval-driven delivery на практике?

Каждое изменение приезжает с gold-набором входов, детерминированным судьёй и fail-closed гейтом в CI. Новые сбои фиксируются как eval-кейсы до того, как уезжает фикс, чтобы регрессия не вернулась незаметно. Оркестратор записывает каждый шаг агента, и когда метрика проседает, можно проиграть тот самый прогон. Без релизов на ощущениях.

Заметки

все заметки

кручусь как белка в колесе, но если у вас что-то прикольное - alex at this website dot com

ghxrss