Статья

Безопасность LLM-продукта без театра

Практический разбор: prompt injection, лишняя автономия, опасные ответы, evals и внятные границы для LLM-продукта.

9 марта 2026 г.5 мин чтения

На странице(11)

Большинство LLM-продуктов ломается вовсе не оттого, что про безопасность забыли произнести вслух. Просто разговор о ней так и остался слайдом, пока система жила своей жизнью.

Слои защиты

Здоровый подход многослоен. Что модель видит. Что ей разрешено делать. Что может выйти наружу. Что уйдёт на разбор позже.

Безопасность — это поведение продукта

Одни услышат слово safety и потянутся за папками с правилами. Другие услышат и подумают про цензуру. Ни то, ни другое здесь не работа.

В продуктовых терминах список длиннее и должен быть длиннее. Что системе позволено видеть. Что ей позволено делать. Что ей позволено утверждать. От чего обязана отказаться. Как ошибки наблюдаются и локализуются. Каждый пункт — место, где надо что-то конкретное написать.

Хорошая работа по безопасности в коде выглядит скучно. Узкие права. Понятные точки согласования. Безопасные значения по умолчанию. Трассируемые действия. Релизные гейты вокруг редкого действия, которое умеет дорого сломать. В этой скуке весь смысл.

Prompt injection — обычная часть модели угроз

OWASP по-прежнему открывает свой LLM-список с prompt injection. Так и должно быть. Слишком многие системы доверяют тексту, который читает модель, больше, чем стоило бы.

Правило короткое.

Недоверенный контент не имеет права переопределять инструкции системы или её права.

Подгруженные документы, письма, веб-страницы, любой внешний источник. В чувствительных сценариях по умолчанию — враждебны. Модель имеет право прочитать документ. Документ не имеет права переписывать политику.

Лишняя агентность — баг дизайна

OWASP теперь называет excessive agency прямо. Давно пора.

Дело никогда не было в самой агентности. Дело в широких правах рядом с расплывчатыми границами и слабым контролем. Эта тройка ломает даже там, где с моделью всё в порядке.

Здоровый контур уже. Узкие права у инструментов. Типизированные контракты. Явные согласования для необратимых действий. Обратимые операции, где такой выбор есть. Телеметрия на каждое внешнее действие.

Если система умеет отправлять письма, покупать, удалять, деплоить или менять записи, модель прав — это инфраструктура продукта. Не приписка к промпту.

Валидация ответа: внешние системы буквальны

Опасный ответ — не только грубый или токсичный текст. Это и кривой JSON, ушедший в рабочий контур. Совет по коду или SQL, попавший в путь исполнения без проверок. Уверенное юридическое или медицинское утверждение без основания. Ссылка или команда, получившая слишком много доверия из-за интерфейса.

Поэтому категории OWASP про insecure output handling и sensitive information disclosure остаются практичными. Ответ — место, где расплывчатая модель встречается с буквальной системой. У этой встречи должен быть надзиратель.

Куда какую проверку класть

Не вся защита должна жить на критическом пути.

Критический путь

Здесь то, что предотвращает немедленный вред. Границы прав. Проверка схемы ответа. Согласование для опасных действий. Жёсткие блоки на известные запрещённые паттерны.

Мониторинг и разбор

Сюда — то, что медленнее или шумнее. Глубокий red-team анализ. Трендовый мониторинг. Judge-модельные оценки. Широкий разбор аномалий.

Команды часто соединяют это наоборот. Либо забивают критический путь дорогими проверками, либо оставляют опасное поведение тихо ждать постмортема.

Evals делают safety труднее подделать

История про безопасность должна выдерживать встречу с настоящим набором evals.

Полезные кейсы. Попытки prompt injection. Сценарии необоснованных утверждений. Опасные предложения вызова инструментов. Попытки вытащить чувствительные данные. Отказные сценарии по правилам. Границы эскалации.

Свежие тексты Anthropic про evals для агентов возвращаются к одной дисциплине. Описать задачу, описать грейдинг, мерить регулярно. Безопасность сильно улучшается в момент, когда перестаёт звучать как ритуал и начинает выглядеть как дизайн проверок.

Мониторинг должен объяснять решения

Панель, которая сообщает, что случилось что-то плохое, лучше, чем ничего. Панель, которая объясняет почему — то, что хочется иметь в два часа ночи.

Что хочется видеть про реальный инцидент. Какой запрос вызвал поведение. Какой контекст был у модели. Какой инструмент система пыталась вызвать. Какое правило или точка согласования сработали. Что в итоге увидел пользователь или внешняя система.

Без этого разбор превращается в археологию с худшим настроением.

Зрелый защитный контур трезв

Системы, которым я доверяю, не выглядят параноидально. Выглядят дисциплинированно.

Они не обещают невозможного. Не рассказывают, что модель теперь «безопасна» в каком-то мистическом смысле. Просто уменьшают число способов, которыми система умеет дорого сломаться. Это и есть большая часть работы.

Что я бы сделал первым

Если бы пришлось ужесточать LLM-продукт в этом месяце, порядок такой.

расписать реальные внешние эффекты и утечки данных
сузить права инструментов и точки согласования
добавить safety evals на главные рискованные сценарии
поставить валидацию ответа перед буквальными внешними системами
дотянуть телеметрию до уровня, где разбор инцидентов перестаёт быть гаданием

Церемония подождёт. Контроль — нет.