Alex ChernyshAlex ChernyshAgentic behaviorist · Тель-Авив
СтатьиАссистент
Назад к статьям

Статья

Безопасность LLM-продукта без театра

Практический разбор: prompt injection, лишняя автономия, опасные ответы, evals и внятные границы для LLM-продукта.

9 марта 2026 г.·5 мин чтения
DesignSafetySecurity
На странице(11)
Безопасность — это поведение продуктаPrompt injection — обычная часть модели угрозЛишняя агентность — баг дизайнаВалидация ответа: внешние системы буквальныКуда какую проверку кластьКритический путьМониторинг и разборEvals делают safety труднее подделатьМониторинг должен объяснять решенияЗрелый защитный контур трезвЧто я бы сделал первымЧто ещё почитатьИсточники и ссылки

Большинство LLM-продуктов ломается вовсе не оттого, что про безопасность забыли произнести вслух. Просто разговор о ней так и остался слайдом, пока система жила своей жизнью.

Рабочее правило

Безопасность становится настоящей в момент, когда меняет, что системе позволено делать, что она обязана записывать и от чего должна отказываться. До этого — церемония с лишними митингами.

Минимальный набор защитных мер

  • считать prompt injection ожидаемым входом, а не редкой диверсией
  • ограничивать права инструментов и точки согласования
  • валидировать ответы до того, как они попадут во внешние системы
  • гонять evals и red-team сценарии на действительно рискованных вещах
  • сохранять достаточно телеметрии, чтобы потом можно было объяснить действия системы
Слои защиты
Здоровый подход многослоен. Что модель видит. Что ей разрешено делать. Что может выйти наружу. Что уйдёт на разбор позже.

Безопасность — это поведение продукта

Одни услышат слово safety и потянутся за папками с правилами. Другие услышат и подумают про цензуру. Ни то, ни другое здесь не работа.

В продуктовых терминах список длиннее и должен быть длиннее. Что системе позволено видеть. Что ей позволено делать. Что ей позволено утверждать. От чего обязана отказаться. Как ошибки наблюдаются и локализуются. Каждый пункт — место, где надо что-то конкретное написать.

Хорошая работа по безопасности в коде выглядит скучно. Узкие права. Понятные точки согласования. Безопасные значения по умолчанию. Трассируемые действия. Релизные гейты вокруг редкого действия, которое умеет дорого сломать. В этой скуке весь смысл.

Prompt injection — обычная часть модели угроз

OWASP по-прежнему открывает свой LLM-список с prompt injection. Так и должно быть. Слишком многие системы доверяют тексту, который читает модель, больше, чем стоило бы.

Правило короткое.

Недоверенный контент не имеет права переопределять инструкции системы или её права.

Подгруженные документы, письма, веб-страницы, любой внешний источник. В чувствительных сценариях по умолчанию — враждебны. Модель имеет право прочитать документ. Документ не имеет права переписывать политику.

Лишняя агентность — баг дизайна

OWASP теперь называет excessive agency прямо. Давно пора.

Дело никогда не было в самой агентности. Дело в широких правах рядом с расплывчатыми границами и слабым контролем. Эта тройка ломает даже там, где с моделью всё в порядке.

Здоровый контур уже. Узкие права у инструментов. Типизированные контракты. Явные согласования для необратимых действий. Обратимые операции, где такой выбор есть. Телеметрия на каждое внешнее действие.

Если система умеет отправлять письма, покупать, удалять, деплоить или менять записи, модель прав — это инфраструктура продукта. Не приписка к промпту.

Валидация ответа: внешние системы буквальны

Опасный ответ — не только грубый или токсичный текст. Это и кривой JSON, ушедший в рабочий контур. Совет по коду или SQL, попавший в путь исполнения без проверок. Уверенное юридическое или медицинское утверждение без основания. Ссылка или команда, получившая слишком много доверия из-за интерфейса.

Поэтому категории OWASP про insecure output handling и sensitive information disclosure остаются практичными. Ответ — место, где расплывчатая модель встречается с буквальной системой. У этой встречи должен быть надзиратель.

Куда какую проверку класть

Не вся защита должна жить на критическом пути.

Критический путь

Здесь то, что предотвращает немедленный вред. Границы прав. Проверка схемы ответа. Согласование для опасных действий. Жёсткие блоки на известные запрещённые паттерны.

Мониторинг и разбор

Сюда — то, что медленнее или шумнее. Глубокий red-team анализ. Трендовый мониторинг. Judge-модельные оценки. Широкий разбор аномалий.

Команды часто соединяют это наоборот. Либо забивают критический путь дорогими проверками, либо оставляют опасное поведение тихо ждать постмортема.

Evals делают safety труднее подделать

История про безопасность должна выдерживать встречу с настоящим набором evals.

Полезные кейсы. Попытки prompt injection. Сценарии необоснованных утверждений. Опасные предложения вызова инструментов. Попытки вытащить чувствительные данные. Отказные сценарии по правилам. Границы эскалации.

Свежие тексты Anthropic про evals для агентов возвращаются к одной дисциплине. Описать задачу, описать грейдинг, мерить регулярно. Безопасность сильно улучшается в момент, когда перестаёт звучать как ритуал и начинает выглядеть как дизайн проверок.

Мониторинг должен объяснять решения

Панель, которая сообщает, что случилось что-то плохое, лучше, чем ничего. Панель, которая объясняет почему — то, что хочется иметь в два часа ночи.

Что хочется видеть про реальный инцидент. Какой запрос вызвал поведение. Какой контекст был у модели. Какой инструмент система пыталась вызвать. Какое правило или точка согласования сработали. Что в итоге увидел пользователь или внешняя система.

Без этого разбор превращается в археологию с худшим настроением.

Зрелый защитный контур трезв

Системы, которым я доверяю, не выглядят параноидально. Выглядят дисциплинированно.

Они не обещают невозможного. Не рассказывают, что модель теперь «безопасна» в каком-то мистическом смысле. Просто уменьшают число способов, которыми система умеет дорого сломаться. Это и есть большая часть работы.

Что я бы сделал первым

Если бы пришлось ужесточать LLM-продукт в этом месяце, порядок такой.

  1. расписать реальные внешние эффекты и утечки данных
  2. сузить права инструментов и точки согласования
  3. добавить safety evals на главные рискованные сценарии
  4. поставить валидацию ответа перед буквальными внешними системами
  5. дотянуть телеметрию до уровня, где разбор инцидентов перестаёт быть гаданием

Церемония подождёт. Контроль — нет.

По теме

Что ещё почитать

  • Как уменьшать галлюцинации в LLM-системах
  • Как строить агентные AI-системы, которые держатся в проде
Источники

Источники и ссылки

  • OWASP Top 10 for LLM Applications
  • NIST AI Risk Management Framework
  • Anthropic: Demystifying evals for AI agents

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

Ещё по теме Design

Часть публичных заметок про AI-системы с опорой на источники: поиск, evals и поставку под реальными ограничениями.

  • →Ищешь работу? Налей себе. Поищем за тебя.23 апр. 2026 г.·3 мин чтения
  • →Интерфейсы для серьёзных продуктов6 мар. 2026 г.·5 мин чтения
  • →Как уменьшать галлюцинации в LLM-системах18 февр. 2026 г.·5 мин чтения
На странице
  • 01Безопасность — это поведение продукта
  • 02Prompt injection — обычная часть модели угроз
  • 03Лишняя агентность — баг дизайна
  • 04Валидация ответа: внешние системы буквальны
  • 05Куда какую проверку класть
  • Критический путь
  • Мониторинг и разбор
  • 06Evals делают safety труднее подделать
  • 07Мониторинг должен объяснять решения
  • 08Зрелый защитный контур трезв
  • 09Что я бы сделал первым
  • 10Что ещё почитать
  • 11Источники и ссылки