Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

לבנות מערכות Agentic שמחזיקות מעמד

עקרונות מעשיים לחוזי כלים, הנדסת הקשר, evals, אישורים וטלמטריה במערכות agentic.

2 במרץ 2026·4 דק׳ קריאה
Agents
בעמוד הזה(10)
קודם workflowsכלים כחוזיםretrieval כשליטה, לא טעםאישור על הקצה היקרContext engineering, לא memory סנטימנטליevals כמערכת הפעלהטלמטריה מסבירה החלטות, לא שגיאותהדפוס שמחזיקקריאה קשורהמקורות והמשך קריאה

לקרוא לכלים הפסיק להרשים אי שם באמצע 2024. השאלה האמיתית עכשיו היא אם המערכת עושה את זה באופן צפוי, משאירה ראיות ויודעת לעצור.

North star

מתחילים מהלולאה הקטנה ביותר שפותרת את המשימה האמיתית. אם רצף הפעולות ידוע, workflow כמעט תמיד עדיף על agent אוטונומי למחצה.

ברירת המחדל לפרודקשן

לבנות לולאה צרה ששומרת על ראיות, אישורים וכיסוי evals. אוטונומיה נוספת משתלמת רק אחרי שהגרסה הצרה כבר הפכה לצוואר בקבוק.

מה מחזיק מעמד

  • workflows לפני אוטונומיה
  • כלים כחוזים, לא כתכונות אופי
  • אישור אנושי על הקצה היקר
  • context מהונדס במקום memory סנטימנטלי
  • למדוד traces ותוצאות, לא ניסוח סופי
הלולאה הקטנה
ברוב המקרים הדפוס הבריא צר יותר מהטיוטה הראשונה של הארכיטקטורה.

קודם workflows

הדרך הכי מהירה לבנות מערכת שבירה היא להתחיל מ-planner משוטט רק כי זה מרגיש מתקדם. צוותים יודעים את זה. בכל זאת מתחילים ככה.

אם הרצף ידוע ברובו, workflow נותן כמעט בחינם דיבאג נקי, latency ועלות שאפשר להסביר, ושטח כשל קטן יותר כשהמודל טועה. Agent אוטונומי שווה רק אחרי שהגרסה מבוססת ה-workflow כבר נוקשה מדי באמת. לפני זה אוטונומיה היא עוד שטח פנים שאפשר לקלקל.

כלים כחוזים

תיעוד ה-Agents של OpenAI עובד כי הוא לא מרומנטז את הכלים. web search, file search, connectors, computer use, shell. כל אלה משטחי ביצוע רגילים. רף האיכות זהה לכל אינטגרציה אחרת.

חוזה שאני סומך עליו: סכמת קלט צרה, מצבי כשל ברורים, הרשאות מפורשות, עיבוד המשך דטרמיניסטי. החוזה הוא מה שסוגר דרכים להיות חכם ברגע הלא נכון. עצם היכולת של מודל לקרוא לכלי לא הופכת אותו לבטוח לקריאה.

retrieval כשליטה, לא טעם

הרבה כשלים של agents הם כשלים של retrieval בתחפושת של reasoning.

מערכות עם עוגן במקורות עובדות טוב יותר כשמתייחסים ל-retrieval כשכבת שליטה: מביאים רק את מה שהשלב הנוכחי צריך, מבצעים rerank או סינון לפני generation, שומרים על זהות המסמך לאורך כל הריצה, מאפשרים abstain כשהתמיכה דקה. ב-loop agentic retrieval חלש בתחילת הריצה מרעיל את כל מה שבא אחריו.

אישור על הקצה היקר

שערי אישור לא צריכים להיות בכל מקום. הם צריכים להופיע איפה שהמערכת חוצה גבול שמישהו ייאלץ להתעסק איתו אחר כך.

הרשימה הכנה:

  • לשלוח, למחוק, לפרסם
  • לשנות מצב פיננסי או משפטי
  • לגעת בקוד או תשתית עם side effects אמיתיים
  • לענות בביטחון בתחום רגיש

את כל השאר עדיף לאוטומט, ללוג, ולשמור הפיך ככל האפשר.

Context engineering, לא memory סנטימנטלי

צוותים רבים אומרים שהם צריכים memory כשבפועל צריכים thread יציב של state וראיות. זה מגיע ממצב הריצה הנוכחי, מהעדפות מתמשכות ששווה למחזר, ומ-artifacts שאפשר לשלוף לפי הצורך (receipts, סיכומים, פלטים קודמים).

המשימה לא לצבור עוד טקסט. אלא להחליט איזה context חי בלולאה כל הזמן, מה נשלף לפי דרישה, מה פג ב-TTL, מה חייב להישאר inspectable.

Blob של שיחה קודמת שאי אפשר לבדוק הופך תוך רבעון למיתולוגיה. אם אי אפשר לבדוק, לפוג או לשחזר אותו מהמקור, הוא כבר מיתולוגיה.

evals כמערכת הפעלה

כשמערכת חיה בכמה צעדים, נוגעת בכלים ומסתעפת תחת אי-ודאות, evals הם השכבה שמאפשרת לישון.

החבילה שאני סומך עליה: בדיקות הצלחה למשימה, נכונות קריאות כלים, grounding במקורות, refusals ו-escalations, תקציבי latency ועלות, trace grading כשהאמצע חשוב כמו הסוף. Agent בלי evals הוא workflow שבחרתם לא למדוד.

טלמטריה מסבירה החלטות, לא שגיאות

לוגים של כשלים יש לכולם. פחות מאוד צוותים לוגים את התשובה לשאלה החשובה יותר: למה המערכת חשבה שמותר לה.

מינימום: הכלי שנבחר, הארגומנטים, המסמכים שנשלפו, אירועי policy או guardrails, בקשות לאישור אנושי, צורת התשובה ו-posture. בלי זה דיבאג של incident שבוע אחרי הופך לניחושים עם לוגים בקצוות.

ה-trace שאני רוצה מאפשר למהנדס אחר לענות על שאלה אחת פשוטה:

למה המערכת חשבה שמותר לה לעשות את זה?

הדפוס שמחזיק

צנוע, פחות או יותר בסדר הזה: מסווגים את המשימה, טוענים רק context רלוונטי, בוחרים מתוך סט כלים תחום, מבצעים עם receipts, מריצים checks, עונים, נמנעים או מסלימים.

זאת רוב הסיבה שזה עובד.

בדיקה למחר בבוקר

  • לצמצם חוזי כלים לפני שנוגעים ב-planner
  • להוסיף גבולות approval במקום שבו עלות או סיכון נעשים עמידים
  • ללוג receipts לכל פעולה חיצונית
  • להפוך טעינת context למפורשת במקום להסתמך על memory סביבתי
  • לבנות חבילת evals קטנה סביב מחלקות הכשל האמיתיות
קריאה קשורה

קריאה קשורה

  • איך מריצים LLM evals בפרודקשן
  • בטיחות למוצרי LLM בלי תיאטרון
מקורות

מקורות והמשך קריאה

  • OpenAI: Agents guide
  • OpenAI: Agent evals
  • OpenAI: Trace grading
  • Anthropic: Building effective agents
  • Anthropic: Effective context engineering for AI agents

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על Agents

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →הרצתי 12 סוכני AI במשך 47 שעות. הנה מה ששרד.29 במרץ 2026·6 דק׳ קריאה
  • →איך בונים מערכות Legal Answering שאפשר לסמוך עליהן10 במרץ 2026·19 דק׳ קריאה
  • →מחפשים עבודה? תלגמו לאט. אנחנו נחפש בשבילכם.23 באפר׳ 2026·4 דק׳ קריאה
בעמוד הזה
  • 01קודם workflows
  • 02כלים כחוזים
  • 03retrieval כשליטה, לא טעם
  • 04אישור על הקצה היקר
  • 05Context engineering, לא memory סנטימנטלי
  • 06evals כמערכת הפעלה
  • 07טלמטריה מסבירה החלטות, לא שגיאות
  • 08הדפוס שמחזיק
  • 09קריאה קשורה
  • 10מקורות והמשך קריאה