Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

איך מריצים LLM evals בפרודקשן

איך להפעיל LLM evals בפרודקשן עם gold sets, graders, בדיקות trace, סיגנלים תפעוליים ושערי ריליז.

3 בפברואר 2026·5 דק׳ קריאה
EvalsReliability
בעמוד הזה(11)
evals הם לא תחביב benchmarkלהתחיל מסט קטן שאפשר לסמוך עליוTrusted setMonitoring setלדרג את מה שבאמת נכשלLLM judges בטווח צרסיגנלים תפעוליים שייכים לשיחת ה-evalsשערי ריליז משעממיםincidents נכנסים מהר ל-suiteלתוכנית ה-evals צריך ownerגרסה ראשונה קטנהקריאה קשורהמקורות והמשך קריאה

השאלה המועילה הפסיקה להיות אם המודל נראה טוב בדמו. השאלה המועילה היא אם המערכת שורדת שינוי פרומפט, החלפת מודל ויום שלישי גרוע בלי להידרדר בשקט.

ברירת מחדל לפרודקשן

להתייחס ל-evals כחלק ממערכת ההפעלה. אם שינוי מספיק חשוב כדי לשחרר אותו, הוא מספיק חשוב כדי למדוד אותו.

חבילת evals מינימלית

  • סט קטן ואמין לשערים קשיחים
  • סט רגרסיה רחב יותר לזיהוי drift
  • graders לפי משימה, לא ציון איכות כללי אחד
  • latency, cost, abstention ו-escalation ליד איכות התשובה
לולאת evals
הדפוס הבריא פשוט: מגדירים הצלחה, מודדים, משחררים בזהירות, ואז מחזירים כשלי פרודקשן בחזרה לסט.

evals הם לא תחביב benchmark

יש עדיין צוותים שמדברים על evals כאילו זאת הרגלת מחקר אופציונלית. זה היה נסבל כשהמערכת הייתה פרומפט אחד ומודל אחד.

זה לא נסבל כשיש במוצר retrieval, כלים, policies, פורמטים שונים של תשובה, כמה מחלקות כשל, ואנשים שישימו לב כשהכול נשבר.

ההכוונה הנוכחית של OpenAI ברורה. evals הם הדרך להבין מערכות לא-דטרמיניסטיות בפרודקשן. Anthropic אומרים כמעט אותו דבר מזווית אחרת. ברגע שהמערכת פועלת בכמה צעדים, צריך דרך מסודרת להגדיר הצלחה. אחרת כל רגרסיה הופכת לאנקדוטה.

להתחיל מסט קטן שאפשר לסמוך עליו

הדאטהסט הכי שימושי ל-evals בדרך כלל קטן יותר ממה שנדמה, ובדוק יותר ממה שנוח לצוות.

אני אוהב להפריד בין שני סוגי נתונים:

Trusted set

זה הסט שאיתו מוכנים לקבל החלטות ריליז.

הוא צריך להיות:

  • audited ביד
  • מייצג עבודה אמיתית
  • קטן מספיק כדי לתחזק אותו
  • ברור מספיק כדי שבני אדם ו-graders יסכימו בדרך כלל

Monitoring set

הסט הזה רחב ורועש יותר, וקרוב יותר לתנועה אמיתית.

הוא טוב ל:

  • זיהוי drift
  • מציאת מחלקות כשל חדשות
  • תפיסת side effects של פרומפטים או routing
  • הערכת מה באמת השתנה בשטח

לא בהכרח מספיק נקי כדי לעצור ריליזים לבדו.

לדרג את מה שבאמת נכשל

ציון אחד מסודר. גם לעיתים קרובות לא מועיל.

עדיף graders לפי משימה.

במערכת RAG או legal QA, למשל, אני רוצה סיגנלים נפרדים עבור:

  • נכונות התשובה
  • איכות התמיכה
  • שלמות provenance או ציטוט
  • abstention
  • עמידה בפורמט
  • latency

ב-agent, גם OpenAI וגם Anthropic מצביעים על אותו כיוון: אם הכשל קורה באמצע ה-trace, לא מספיק לדרג רק את התשובה הסופית.

צריך לשאול:

  • האם נבחר הכלי הנכון?
  • האם הופעלו יותר מדי כלים?
  • האם נחצה גבול approval בצורה שגויה?
  • האם נשלפו ראיות נכונות אבל נעשה בהן שימוש שגוי?

LLM judges בטווח צר

judge models מועילים כשיש משימה פתוחה ורובריקה שאפשר לכתוב באופן ברור.

הם חלשים יותר כאשר הרובריקה עמומה, הפורמט היה אמור להיות דטרמיניסטי מלכתחילה, או עובדה אחת בתוך פרוזה טובה מספיקה כדי להטעות את המערכת.

הכלל המעשי. בדיקות קוד כשאפשר. model grading כשצריך. השכבה השנייה מכוונת מול הראשונה ומול בדיקה אנושית תקופתית.

סיגנלים תפעוליים שייכים לשיחת ה-evals

הרבה צוותים מודדים איכות תשובה ואז מוסיפים תפעול אחר כך. זה נראה מסודר על שקף. במערכת אמיתית זאת חלוקה מזויפת.

שינוי מודל ששומר לכאורה על איכות התשובה אבל מכפיל latency, מוריד abstention או מגדיל tool churn, שינה את המוצר.

לכן חבילת ה-production evals עוקבת גם אחרי TTFT, end-to-end latency, עלות טוקנים, שיעור refusal, שיעור escalation, מספר קריאות לכלים, אורך trace, שיעור retry.

לא צריך לסגוד לכל metric. צריך לדעת מה השתנה.

שערי ריליז משעממים

שער ריליז טוב ברור, לא מרשים פילוסופית.

בפועל:

  1. כישלון קשיח אם trusted-set accuracy יורד מתחת לסף
  2. כישלון קשיח אם פורמט נשבר
  3. כישלון קשיח אם מקרי refusal רגישים הידרדרו
  4. אזהרה אם latency או cost חצו את התקציב
  5. בדיקה ידנית של trace deltas כשהתנהגות ה-agent זזה מהותית

מספיק כדי לשמור על יושר בלי להקים דת סביב דשבורדים.

incidents נכנסים מהר ל-suite

הדרך המהירה ביותר לבנות תוכנית evals מיושנת היא להתייחס לדאטהסט כמו למוזיאון.

הלולאה הבריאה. משתמש או monitoring מוצאים כשל. הכשל הופך למקרה eval. המערכת המתוקנת חייבת לעבור אותו מאז והלאה.

שם נמצא הערך המצטבר. harness טוב נהיה שווה יותר עם כל באג מביך שהוא סופג.

לתוכנית ה-evals צריך owner

דשבורד משותף הוא לא בעלות. מישהו צריך להחליט אילו evals אמינים מספיק כדי לעצור ריליז, איזה כשל הוא אות ואיזה רעש, מתי משימה חדשה נכנסת ל-suite, מי מאשר שינוי ברובריקה.

גרסה ראשונה קטנה

אם הייתי צריך להעמיד evals למערכת פרודקשן מחר בבוקר:

  1. אוסף 30–50 דוגמאות trusted
  2. מפריד לפי מחלקות כשל
  3. מגדיר grader מבוסס קוד או מודל לכל מחלקה
  4. עוקב אחרי latency ו-refusal ליד האיכות
  5. עוצר ריליזים על הסט הקטן לפני שמנסים להרתיח את האוקיינוס

המערכת הראשונה לא צריכה להיות מרשימה. צריכה לתפוס את הכשלים שאתם באמת משחררים.

קריאה קשורה

קריאה קשורה

  • לבנות מערכות agentic שמחזיקות מעמד
  • פרומפטים כהנדסה, לא כקסם
מקורות

מקורות והמשך קריאה

  • OpenAI: Evaluation best practices
  • OpenAI: Agent evals
  • OpenAI: Trace grading
  • Anthropic: Demystifying evals for AI agents

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על Evals

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →איך בונים מערכות Legal Answering שאפשר לסמוך עליהן10 במרץ 2026·19 דק׳ קריאה
  • →איך מצמצמים hallucinations בלי לעבוד על עצמנו18 בפבר׳ 2026·3 דק׳ קריאה
  • →פרוגנוזה ללא נבואה: דיסציפלינה בטקסט פשוט2 במאי 2026·10 דק׳ קריאה
בעמוד הזה
  • 01evals הם לא תחביב benchmark
  • 02להתחיל מסט קטן שאפשר לסמוך עליו
  • Trusted set
  • Monitoring set
  • 03לדרג את מה שבאמת נכשל
  • 04LLM judges בטווח צר
  • 05סיגנלים תפעוליים שייכים לשיחת ה-evals
  • 06שערי ריליז משעממים
  • 07incidents נכנסים מהר ל-suite
  • 08לתוכנית ה-evals צריך owner
  • 09גרסה ראשונה קטנה
  • 10קריאה קשורה
  • 11מקורות והמשך קריאה