Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

פרוגנוזה ללא נבואה: דיסציפלינה בטקסט פשוט

למה אני משאיר את העתיד לאסטרולוגיה ופונה למחלקות-ייחוס, פרה-מורטמים ויומני קליברציה. אי-ודאות מדויקת בטקסט פשוט.

2 במאי 2026·10 דק׳ קריאה
Delivery
בעמוד הזה(9)
אשליית ההערכות הנקודתיותמחלקת-ייחוס לפני סיפורפרה-מורטמים ו-falsifiersהימנעות היא פיצ'רקליברציה היא הרגלדיסציפלינת תרחישים בטקסט פשוטנסה על משהו קטןקריאה קשורהקישורים נוספים

אני טלה אש נשלט בידי מאדים, ואפילו אני לא אעמיד פנים שאפשר לקרוא את העתיד מתוך מפה. ניבוי הוא תיאטרון. אי-ודאות מקליברטת היא הנדסה. ההבדל מתגלה כשאפשר לחזור לפרוגנוזה בת חצי שנה ולתת לה ציון. לא משנה אם השאלה דיפלוי, ראיון, מעבר דירה או שיחה קשה עם עמית.

המסגרת של הפוסט

ניבוי מדויק נשאיר לאסטרולוגיה. זו לא הערה צינית כלפיה, חלוקת אחריות. המשימה כאן צרה יותר. נהלים מבוססי-טקסט שלוקחים עולם מבולגן, מעגנים אותו ב-base rates, יוצרים תרחישים מתחרים עם הסתברויות מפורשות, ושומרים את התוצאה בצורה שאפשר לתת לה ציון אחר כך. אותה משמעת. מיגרציה של בקאנד, סקירה רבעונית, בקשת ויזה, חבר ששתק. משטח אחר.

איך נראית פרוגנוזה ממושמעת

  • ניבוי הוא תיאטרון, אי-ודאות מקליברטת היא הנדסה
  • כל פרוגנוזה מתחילה ממחלקת-ייחוס, לא מסיפור
  • פרה-מורטם הוא השיפור הזול ביותר באיכות החלטות שאני מכיר
  • הימנעות ממענה היא פיצ'ר, conformal prediction sets זה השם הפורמלי
  • פרוגנוזה לא הסתיימה ללא falsifier ו-leading indicator
  • תעד כל פרוגנוזה, הלוג הוא הבוחן הכי הוגן שיש
לולאת פרוגנוזה מינימלית
חמישה צעדים שהופכים שאלה למשהו שאפשר לתת לו ציון בעוד חצי שנה.

אשליית ההערכות הנקודתיות

הטעות הנפוצה ביותר היא לא הטיה. היא הדיוק המזויף של התשובה.

מהנדסת בכירה אומרת "אני בטוחה ב-70% שזה ישוחרר עד סוף Q2". המספר נשמע ממושמע. אין מאחוריו היסטוריית ציונים. אותה מהנדסת אמרה "70%" גם ברבעון הקודם, וגם לפניו, ושלוש פעמים מתוך ארבע התוצאה נחתה במגירות שונות. ה-"70%" הוא תחושה שמתחפשת להסתברות.

אותה מלכודת חיה הרחק מחלון הדיפלוי. חבר "די בטוח" שהשגרה החדשה של השינה תחזיק מעמד את השבוע. בן דוד "בטוח למדי" שהוויזה תאושר בזמן. מייסד "בטוח ב-70%" שהסבב ייסגר בעוד שישה שבועות. מאחורי אף אחד מהמספרים האלה אין יומן פרוגנוזה.

הסתברויות נקודתיות ללא יומן פרוגנוזה הן תיאטרון. הן לובשות תחפושת של דיוק (נקודה עשרונית, סימן אחוז) והקליברציה שהיתה הופכת אותן באמת מדויקות איננה.

אותה מלכודת חיה גם נמוך יותר ב-AI stack. retrieval מחזיר score: 0.83, והצוות מתייחס אליו כאל אמת. מודל מחזיר confidence: 0.91, והצוות בונה approval flow מעליו. אף אחד מהמספרים האלה לא מקליברט מול תוצאות אמיתיות. צורות-שטח של הרגל שעדיין לא קיים.

הפתרון הוא לא "להפסיק להשתמש במספרים". הפתרון הוא טווחים, לא נקודות, עד שיש לך יומן קליברציה שמרוויח את הדיוק. "20–35%" זו פרוגנוזה שאפשר להגן עליה. "27%" בלי לוג זו תחפושת.

מחלקת-ייחוס לפני סיפור

הטעות השנייה בשכיחות היא להתחיל מ-inside view. הסיפור של הפרויקט, של הקשר, של הדיפלוי.

Reference-class forecasting הוא התרופה. המסגרת המקורית הגיעה מ-Kahneman ו-Lovallo, ויושמה בצורה הכי אגרסיבית על ידי Bent Flyvbjerg בפרויקטי תשתית גדולים: insiders באופן עקבי הפריזו בהערכת ההצלחה, ו-base rates חיצוניים סיפרו סיפור שקט יותר ומדויק יותר.

הנוהל קצר.

  1. נקוב בשתיים-עד-ארבע מחלקות שאליהן המקרה שייך. לא מטפוריות. נצפות, עם תוצאות שאפשר לספור. "השקות consumer-SaaS של מייסד יחיד ללא paid acquisition". "שכירת עובד חיצוני ראשון דרך הפניה בחברה של עד 30 איש". "חברים ששתקו עשרה ימים אחרי שיחה מתוחה". "פרויקטי רומן עצמאיים שעברו מראשי-פרקים לטיוטה גמורה תוך שנים-עשר חודשים".
  2. הערך את הסיכויים האפריוריים של התוצאה הנחקרת מתוך ה-base rates האלה. השתמש בטווחים.
  3. התאם במידה (לכל היותר 30–40 נקודות אחוז) ורק אם ה-case-specific evidence שלך גם חזקה וגם מבדילה.
  4. אם אין מחלקת-ייחוס מתאימה, רמת הביטחון יורדת אוטומטית.

הדיסציפלינה היא לא במתמטיקה. בסדר. הפריור נכתב לפני הסיפור. ברגע שהסיפור נכנס לראש, כל מחלקת-ייחוס תתחיל להראות "שונה במקרה שלנו", וה-outside view ירציונליז את עצמו החוצה. עשיתי את זה לעצמי על מעבר דירה, על ראיון, על השאלה אם ההורים באמת יבואו באביב. כתיבת הפריור לפני הנרטיב היא הדבר היחיד שעצר את זה אצלי.

זו אותה דיסציפלינה שהופכת eval suites לשימושיים במערכות LLM. קודם בוחרים את reference set, אחר כך מסתכלים על המערכת. לא הפוך.

פרה-מורטמים ו-falsifiers

פרה-מורטם הוא השיפור הזול ביותר באיכות החלטות שהפעלתי אי פעם. הטכניקה משויכת למאמר של Gary Klein ב-HBR משנת 2007. הדיסציפלינה ותיקה יותר. היפוך מכוון של תנוחת ה-kickoff הרגילה. עובדת על מעבר דירה, על שיחה קשה עם עמית, על השאלה אם למתוח את כרית הביטחון על שכירות חדשה.

הנוהל בטקסט פשוט:

1. הסצנה: עברו שישה חודשים, הפרויקט נכשל.
2. כל משתתף כותב לבד את הסיבה הספציפית והחזקה ביותר שבגללה הוא נכשל.
3. קוראים את התשובות בקול. עושים clustering.
4. כל cluster הופך ל-falsifier או mitigation בתוכנית הפעילה.

מתחברים שני אפקטים. הראשון. השאלה "למה זה נכשל" יוצרת השערות יותר כנות מאשר "מה יכול להשתבש", כי הכישלון בציר הזמן המדומיין הוא כבר עובדה. אף אחד לא מתווכח אם זה יכול לקרות, רק איך. השני. סיבות הכישלון ששרדו את ה-clustering הופכות ל-falsifiers: תצפיות שאם יקרו, אומרות שהתוכנית שבורה. falsifiers הופכים סיכון מעורפל ל-leading indicator שאפשר באמת לעקוב אחריו.

זה משתלב עם איך שאני מנהל feature flags ו-staged rollouts במערכות אגנטיות. תנאי הכיבוי של ה-flag נכתבים בדרך כלל ברישול. הם צריכים להיכתב כ-falsifiers. "אם שיעור הרגרסיה עובר 4% בשתי קבוצות שבועיות עוקבות, ה-rollout נכשל ואנחנו עושים revert". את המשפט הזה אפשר לחזות. את "נשמור עין על רגרסיות" לא. אותה צורה עובדת מחוץ לקוד. "אם ביום השלישי של האנטיביוטיקה תופיע בחילה, אני חוזר לרופא" הוא falsifier. "אראה איך אני מרגיש" אינו.

הימנעות היא פיצ'ר

הטעות השלישית היא לענות כשהתשובה הכנה היא "עוד לא יודע, והנה מה שיפתור את זה".

ברוב הארגונים וברוב השיחות האישיות הימנעות נחשבת מצב כשל. בפרוגנוזה ממושמעת היא פיצ'ר. שתי סיבות.

קליברציה. forecaster שנמנע ממענה במקרים שבאמת אינם מוגדרים מספיק מקבל ציוני Brier טובים יותר ממי שעונה על הכל ב-50% מתחת לכתפיים.

איכות החלטות. השאלה "איזו ראיה תפתור את זה?" ממסגרת מחדש את המצב מ-"מה אני חושב?" ל-"במה כדאי לי להסתכל הלאה?". זו השאלה שמזיזה פרויקטים קדימה. וזו שמורידה בשקט את רוב הוויכוחים המשפחתיים על עתיד היפותטי.

האנלוג הטכני ששווה להכיר הוא conformal prediction, מתואר נגיש בtutorial של Angelopoulos ו-Bates משנת 2021. הפלט אינו תווית בודדת עם confidence. קבוצה של תוויות שמבטיחה להכיל את האמת בלפחות (1 − α) מהמקרים. כשבקבוצה איבר אחד, יש לך פרוגנוזה בטוחה. כשיש שישה, המודל אומר ביושר "לא אבדיל בין אלה ללא ראיה נוספת". גודל הקבוצה הוא אות ההימנעות.

לא צריך תשתית של conformal כדי להחיל את העיקרון. העיקרון: גודל התשובה צריך להתאים לגודל אי-הודאות. פרוגנוזה קצרה בשורה אחת למקרה בטוח. שתיים-שלושה ענפים למקרה ידוע חלקית. "אני נמנע כי X, Y, Z יפתרו את זה" מפורש למקרה לא מוגדר. הרעיון הזה יושב לצד הגישה שלי לבטיחות מוצר ללא תיאטרון. סירוב לענות הוא לפעמים התשובה החזקה ביותר שיש למערכת.

קליברציה היא הרגל

פרוגנוזה לא נגמרת עד שמקבלת ציון.

המדד שאני חוזר אליו הוא Brier score, מסוכם בדף ה-Wikipedia. נמוך זה טוב. אפס מושלם. תכונה נוחה: הציון מתפרק לקליברציה ול-resolution. אפשר לטעות כי ההסתברויות לא מתאימות לתדירויות שנצפו, או כי הפרוגנוזות לא מבדילות בין סביר ללא-סביר. שתי תרופות שונות.

בפועל אין צורך בתשתית כדי לעקוב אחר קליברציה. טבלת markdown של ארבע עמודות מספיקה:

| תאריך       | שאלה                                | פרוגנוזה    | תוצאה   | הערה                |
|------------|-------------------------------------|-------------|---------|----------------------|
| 2026-03-01 | מועמד X יקבל את ההצעה עד 03-15?     | 35-50%      | כן      | קיבל ב-03-09         |
| 2026-03-04 | הדיפלוי ב-03-08 יעבור נקי?          | 60-75%      | לא      | DB pool התרוקן       |
| 2026-03-09 | חבר יענה תוך 48 שעות?               | 40-55%      | לא      | ענה ביום החמישי      |
| 2026-03-12 | בעל הבית יחדש באותם תנאים?          | 55-70%      | כן      | העלאה מינורית בלבד   |

חודשיים של רשומות, ואתה מתחיל לראות הטיות שיטתיות. ביטחון יתר בנושא ש"אתה יודע". חוסר ביטחון בנושא שאתה חושש ממנו. הערכות נקודתיות שמסתירות טווח רחב. טווחים שמסתירים מחלקת-ייחוס חסרה. אותן הטיות שצצות מול דיפלוי צצות מול בעלי בית, חברים, והשאלה אם ההופעה של הלהקה תכסה את עלות הכניסה.

אני שומר את הלוג כקובץ חי. רשומה חדשה לוקחת פחות מדקה. הדיסציפלינה לא בכתיבה. היא בקריאה החוזרת, פעם בחודש, ביום ראשון רגוע, כשהתחזיות של החודש הקודם מונחות ליד התוצאות שלו.

אם זה נשמע משעמם, האלטרנטיבה היא גרסה שלך שלעולם לא תדע אם הפרוגנוזות שלה צודקות. סופר-פרוגנוסטים ציבוריים שתועדו בGood Judgment Project מציגים מעל הממוצע באינטליגנציה גמישה ובפתיחות מחשבתית פעילה. המנבא היחיד החזק ביותר לכניסה ל-2% העליונים היה עדכון מתמיד של ההערכות, חזק בערך פי שלושה מ-IQ. הם סופרים את התוצאות.

דיסציפלינת תרחישים בטקסט פשוט

הסיפור היחיד הוא ה-default היקר ביותר בפרוגנוזה לא פורמלית. "אני חושב שייעלמו מאיתנו". "אני חושב שהסבב ייסגר בעוד שישה שבועות". "אני חושב שהשביתה תסתיים עד יום שישי". סיפור-מניע-מוסתר אחד מחליף את העבודה של יצירת השערות מתחרות.

הפתרון הוא טבלת תרחישים, נכתבת פעם אחת, עם שלושה-עד-חמישה ענפים שמתחרים באמת:

תרחישטווח הסתברותראיה חזקה בעדראיה חזקה נגדleading indicator
המשך status quo30–45%היסטוריית חוסר פעולהשינוי תמריצים אחרוןאין החלטה ב-14 הימים הבאים
שיפור זהיר25–35%מחוות נראות לעין השבוע שעברהיסטוריית רגרסיותבקשה אחת מהותית נענתה
הסלמה או קרע10–20%דפוס של אולטימטומיםטון רגוע יותר לאחרונהפעולה חד-צדדית מהצד השני
ריחוק אסטרטגי10–20%משאבים מוגבלים בבירורתלות בחוט הזהירידה ב-engagement, לא בקשר
זעזוע חיצוני5–10%שלושה מתחרים זזיםהמגזר שקט בכללצד שלישי הופך את השאלה ללא רלוונטית

אותה צורה משרתת לוח זמנים של רגולטור, חיפוש עבודה, משטר רפואי חדש או השאלה אם שרשור משפחתי שקט יתעורר מעצמו. משנים שורות. העמודות נשארות.

שני כללים מצדיקים את הטבלה.

טווחי הסתברות, לא מספרים בודדים, אלא אם יש יומן פרוגנוזה. סכום אמצעי הטווחים צריך להגיע לסביבות 100%. בדיוק 100 לא יצא (אלו טווחים), אבל אם העמודה מסתכמת ב-50%, הלא-שלם הוא בסט התרחישים, לא בחשבון.

falsifier אחד לכל שורה. תרחיש ללא falsifier הוא משאלה או פחד, לא תרחיש. עמודת ה-leading indicator עושה את העבודה. היא מציינת איזו תצפית, אם תיראה בשבוע הבא, תזיז את הסתברות הענף למעלה או למטה.

תופעת לוואי נחמדה של טקסט פשוט. אפשר להדביק את הטבלה לתוך thread, להעביר אותה לעמית, להזין למודל לדעה שנייה. בלי שלב ייצוא. אותה דיסציפלינה טקסטואלית שהופכת spec-driven development לעמיד בפני החלפות הקשר, הופכת גם את טבלאות התרחישים לעמידות.

נסה על משהו קטן

כל הדיסציפלינה הזו מתפרקת אם משתמשים בה רק לשאלות גדולות ונדירות. לא נצברים נתוני קליברציה. השריר לא מתפתח. לא לומדים אילו הטיות שייכות לך.

התחל ממשהו קטן מספיק כדי לתת לו ציון תוך שבועיים. סקירה רבעונית, מכתב הצעה, טיסת המשך, הופעה במוצאי שבת שצריכה לכסות את עלות הכניסה. כל דבר שתוצאתו תנחת לפני שתשכח שעשית פרוגנוזה.

מתחיל לשבוע אחד

  • בחר שלוש שאלות שאתה באמת לא יודע את התשובה עליהן
  • כתוב את הפרוגנוזה כטווח הסתברות, לא נקודה
  • נקוב במחלקת-הייחוס לכל אחת
  • כתוב falsifier ו-leading indicator לכל אחת
  • תעד בטבלה של ארבע עמודות שאתה יכול לקרוא מחדש
  • תן ציון כשהתוצאות נוחתות

אם שתיים מתוך שלוש פספסו בגדול אחרי שבועיים, השיעור בפער, לא במבוכה. קרא מחדש את הרשומות המקוריות. איזה צעד דילגת? התחלת מסיפור במקום ממחלקת-ייחוס? נתת הערכה נקודתית במקום טווח? שכחת את ה-falsifier?

העתיד נשאר לא חזוי. וזה בסדר. המשימה לא נבואה. לבנות ממשק רגוע יותר וקצת יותר ישר אל עולם מבולגן, ולהשאיר מספיק עקבות-ראיה כדי שהגרסה הבאה שלך תוכל לתת ציון לפרוגנוזות של השנה הזו וללמוד ממשהו.

קריאה קשורה

קריאה קשורה

  • Building agentic AI systems that hold up
  • LLM evals in production
  • Hallucination prevention in LLM products
  • Product safety without theatre
  • Spec-driven development
  • איך להגיע למצב ירוק עם AI בלי להרוס את הקוד
  • Building legal answering systems
קישורים נוספים

קישורים נוספים

  • Gary Klein, "Performing a Project Premortem" (HBR, 2007)
  • Reference-class forecasting (Kahneman, Lovallo, Flyvbjerg)
  • Angelopoulos & Bates, "A Gentle Introduction to Conformal Prediction" (arXiv 2021)
  • Brier score — מבוא לקליברציה
  • The Good Judgment Project — מחקר סופר-פרוגנוסטים

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על Delivery

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →רוב הכשלים ב-RAG מתחילים במסמכים12 בפבר׳ 2026·2 דק׳ קריאה
  • →איך מריצים LLM evals בפרודקשן3 בפבר׳ 2026·5 דק׳ קריאה
בעמוד הזה
  • 01אשליית ההערכות הנקודתיות1 min
  • 02מחלקת-ייחוס לפני סיפור1 min
  • 03פרה-מורטמים ו-falsifiers1 min
  • 04הימנעות היא פיצ'ר1 min
  • 05קליברציה היא הרגל1 min
  • 06דיסציפלינת תרחישים בטקסט פשוט1 min
  • 07נסה על משהו קטן1 min
  • 08קריאה קשורה
  • 09קישורים נוספים