Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

בטיחות למוצרי LLM בלי תיאטרון

מדריך מעשי לבטיחות במוצרי LLM: prompt injection, אוטונומיה עודפת, פלט מסוכן, evals וגבולות מפוכחים.

9 במרץ 2026·3 דק׳ קריאה
DesignSafetySecurity
בעמוד הזה(7)
Safety הוא מושג מוצרי, לא רק term של securityPrompt injection היא לא באג מוזרExcessive agency יקרה יותר משנראיתevals הם חלק ממסלול הבטיחותמה שייך ל-critical path ומה לאהממשק עצמו יכול להיות בעיית safetyהמינימום שאני רוצה לראות

רוב מוצרי ה-LLM לא נכשלים כי אף אחד לא הזכיר safety. הם נכשלים כי ה-safety נשארה על שקף בזמן שהמערכת האמיתית המשיכה לזוז סביבה.

עיקרון עבודה

Safety טוב לא נראה כמו טקס. הוא נראה כמו גבולות כתובים, review במקומות שצריך, ו-evals שתופסים את המחיר לפני שהמשתמשים משלמים אותו.

Safety הוא מושג מוצרי, לא רק term של security

במוצרי LLM יש סוגי נזק שונים. תשובה מסוכנת או לא נתמכת. prompt injection. גישה לכלים מעבר למה שהתכוונתם. leakage של מידע שאסור לחשוף. UI שמשדר certainty שאין לה כיסוי.

מי שמנסה לפתור הכול עם שכבה אחת של moderation מקבל גם false comfort וגם false negatives.

Prompt injection היא לא באג מוזר

ברגע שהמערכת צורכת טקסט חיצוני — מסמכים, מיילים, web content, shared notes — prompt injection הופכת למסלול כשל רגיל.

מה שעוזר. הפרדה בין instructions ל-data, צמצום scope של כל tool, allowlists מפורשות, review על צעדים ששונים state, traces שאפשר לקרוא אחר כך.

מה שלא עוזר מספיק. לקוות שהמודל "יבין" מה זדוני, להעמיס עוד warning text בתוך הפרומפט.

Excessive agency יקרה יותר משנראית

מערכות LLM לא צריכות הרבה אוטונומיה כדי להגיע לאזור מסוכן. לפעמים tool אחד לא תחום מספיק כדי לקבל incident מביך.

להפריד בין read, suggest, act. בכל מעבר מ-suggest ל-act לעצור ולשאול אם יש gate אמיתי או רק ניסוח מרגיע.

evals הם חלק ממסלול הבטיחות

בטיחות בלי evals נשארת בעיקר הצהרה ערכית.

לבדוק במפורש unsupported claims, refusal quality, prompt injection cases, tool misuse, format failures בדומיינים רגישים, escalation behavior.

OWASP ו-NIST עוזרים לחשוב על מחלקות הסיכון. ברמת המוצר ה-evals הקטנים שאתם באמת מריצים חשובים יותר מהמסגרת היפה על הקיר.

מה שייך ל-critical path ומה לא

לא כל check חייב להיות על המסלול הסינכרוני. טעות נפוצה.

ב-critical path. gates לכלי מסוכן, בדיקות policy קשיחות, validation של format כשיש לזה מחיר, abstain או escalate כשאין מספיק בסיס.

ב-monitoring בדיעבד. drift, עלייה איטית ב-latency, ירידה באיכות trace, pattern חדש של שימוש שצריך להכניס ל-evals.

הממשק עצמו יכול להיות בעיית safety

UI חלש מגדיל סיכון גם אם ה-backend מתאמץ. תשובה זורמת מדי בלי סימון מגבלות. טעויות שנראות כמו certainty. state loading שמרגיש כמו אמת מוגמרת. streaming מוקדם מדי במשטחים רגישים.

UI טוב לבטיחות הוא לרוב UI שמודה בגבולותיו.

המינימום שאני רוצה לראות

Minimum viable safety posture

  • גבולות tool מפורשים
  • review אנושי על צעדים יקרים או בלתי הפיכים
  • refusal path ברור
  • evals על מחלקות הכשל האמיתיות
  • traces מספיק טובים כדי להבין incident אחד מקצה לקצה

בטיחות במוצרי LLM לא צריכה להיראות חגיגית. שתשתלב בתוך delivery, approvals ו-observability עד שהיא מפסיקה להרגיש כמו שכבה נפרדת. שם בדרך כלל מתחיל מוצר שאפשר לסמוך עליו קצת יותר.

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על Design

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →איך מצמצמים hallucinations בלי לעבוד על עצמנו18 בפבר׳ 2026·3 דק׳ קריאה
  • →מחפשים עבודה? תלגמו לאט. אנחנו נחפש בשבילכם.23 באפר׳ 2026·4 דק׳ קריאה
  • →עיצוב ממשקים למוצרים רציניים6 במרץ 2026·3 דק׳ קריאה
בעמוד הזה
  • 01Safety הוא מושג מוצרי, לא רק term של security
  • 02Prompt injection היא לא באג מוזר
  • 03Excessive agency יקרה יותר משנראית
  • 04evals הם חלק ממסלול הבטיחות
  • 05מה שייך ל-critical path ומה לא
  • 06הממשק עצמו יכול להיות בעיית safety
  • 07המינימום שאני רוצה לראות