אני טלה אש נשלט בידי מאדים, ואפילו אני לא אעמיד פנים שאפשר לקרוא את העתיד מתוך מפה. ניבוי הוא תיאטרון. אי-ודאות מקליברטת היא הנדסה. ההבדל מתגלה כשאפשר לחזור לפרוגנוזה בת חצי שנה ולתת לה ציון. לא משנה אם השאלה דיפלוי, ראיון, מעבר דירה או שיחה קשה עם עמית.
אשליית ההערכות הנקודתיות
הטעות הנפוצה ביותר היא לא הטיה. היא הדיוק המזויף של התשובה.
מהנדסת בכירה אומרת "אני בטוחה ב-70% שזה ישוחרר עד סוף Q2". המספר נשמע ממושמע. אין מאחוריו היסטוריית ציונים. אותה מהנדסת אמרה "70%" גם ברבעון הקודם, וגם לפניו, ושלוש פעמים מתוך ארבע התוצאה נחתה במגירות שונות. ה-"70%" הוא תחושה שמתחפשת להסתברות.
אותה מלכודת חיה הרחק מחלון הדיפלוי. חבר "די בטוח" שהשגרה החדשה של השינה תחזיק מעמד את השבוע. בן דוד "בטוח למדי" שהוויזה תאושר בזמן. מייסד "בטוח ב-70%" שהסבב ייסגר בעוד שישה שבועות. מאחורי אף אחד מהמספרים האלה אין יומן פרוגנוזה.
הסתברויות נקודתיות ללא יומן פרוגנוזה הן תיאטרון. הן לובשות תחפושת של דיוק (נקודה עשרונית, סימן אחוז) והקליברציה שהיתה הופכת אותן באמת מדויקות איננה.
אותה מלכודת חיה גם נמוך יותר ב-AI stack. retrieval מחזיר score: 0.83, והצוות מתייחס אליו כאל אמת. מודל מחזיר confidence: 0.91, והצוות בונה approval flow מעליו. אף אחד מהמספרים האלה לא מקליברט מול תוצאות אמיתיות. צורות-שטח של הרגל שעדיין לא קיים.
הפתרון הוא לא "להפסיק להשתמש במספרים". הפתרון הוא טווחים, לא נקודות, עד שיש לך יומן קליברציה שמרוויח את הדיוק. "20–35%" זו פרוגנוזה שאפשר להגן עליה. "27%" בלי לוג זו תחפושת.
מחלקת-ייחוס לפני סיפור
הטעות השנייה בשכיחות היא להתחיל מ-inside view. הסיפור של הפרויקט, של הקשר, של הדיפלוי.
Reference-class forecasting הוא התרופה. המסגרת המקורית הגיעה מ-Kahneman ו-Lovallo, ויושמה בצורה הכי אגרסיבית על ידי Bent Flyvbjerg בפרויקטי תשתית גדולים: insiders באופן עקבי הפריזו בהערכת ההצלחה, ו-base rates חיצוניים סיפרו סיפור שקט יותר ומדויק יותר.
הנוהל קצר.
- נקוב בשתיים-עד-ארבע מחלקות שאליהן המקרה שייך. לא מטפוריות. נצפות, עם תוצאות שאפשר לספור. "השקות consumer-SaaS של מייסד יחיד ללא paid acquisition". "שכירת עובד חיצוני ראשון דרך הפניה בחברה של עד 30 איש". "חברים ששתקו עשרה ימים אחרי שיחה מתוחה". "פרויקטי רומן עצמאיים שעברו מראשי-פרקים לטיוטה גמורה תוך שנים-עשר חודשים".
- הערך את הסיכויים האפריוריים של התוצאה הנחקרת מתוך ה-base rates האלה. השתמש בטווחים.
- התאם במידה (לכל היותר 30–40 נקודות אחוז) ורק אם ה-case-specific evidence שלך גם חזקה וגם מבדילה.
- אם אין מחלקת-ייחוס מתאימה, רמת הביטחון יורדת אוטומטית.
הדיסציפלינה היא לא במתמטיקה. בסדר. הפריור נכתב לפני הסיפור. ברגע שהסיפור נכנס לראש, כל מחלקת-ייחוס תתחיל להראות "שונה במקרה שלנו", וה-outside view ירציונליז את עצמו החוצה. עשיתי את זה לעצמי על מעבר דירה, על ראיון, על השאלה אם ההורים באמת יבואו באביב. כתיבת הפריור לפני הנרטיב היא הדבר היחיד שעצר את זה אצלי.
זו אותה דיסציפלינה שהופכת eval suites לשימושיים במערכות LLM. קודם בוחרים את reference set, אחר כך מסתכלים על המערכת. לא הפוך.
פרה-מורטמים ו-falsifiers
פרה-מורטם הוא השיפור הזול ביותר באיכות החלטות שהפעלתי אי פעם. הטכניקה משויכת למאמר של Gary Klein ב-HBR משנת 2007. הדיסציפלינה ותיקה יותר. היפוך מכוון של תנוחת ה-kickoff הרגילה. עובדת על מעבר דירה, על שיחה קשה עם עמית, על השאלה אם למתוח את כרית הביטחון על שכירות חדשה.
הנוהל בטקסט פשוט:
1. הסצנה: עברו שישה חודשים, הפרויקט נכשל.
2. כל משתתף כותב לבד את הסיבה הספציפית והחזקה ביותר שבגללה הוא נכשל.
3. קוראים את התשובות בקול. עושים clustering.
4. כל cluster הופך ל-falsifier או mitigation בתוכנית הפעילה.מתחברים שני אפקטים. הראשון. השאלה "למה זה נכשל" יוצרת השערות יותר כנות מאשר "מה יכול להשתבש", כי הכישלון בציר הזמן המדומיין הוא כבר עובדה. אף אחד לא מתווכח אם זה יכול לקרות, רק איך. השני. סיבות הכישלון ששרדו את ה-clustering הופכות ל-falsifiers: תצפיות שאם יקרו, אומרות שהתוכנית שבורה. falsifiers הופכים סיכון מעורפל ל-leading indicator שאפשר באמת לעקוב אחריו.
זה משתלב עם איך שאני מנהל feature flags ו-staged rollouts במערכות אגנטיות. תנאי הכיבוי של ה-flag נכתבים בדרך כלל ברישול. הם צריכים להיכתב כ-falsifiers. "אם שיעור הרגרסיה עובר 4% בשתי קבוצות שבועיות עוקבות, ה-rollout נכשל ואנחנו עושים revert". את המשפט הזה אפשר לחזות. את "נשמור עין על רגרסיות" לא. אותה צורה עובדת מחוץ לקוד. "אם ביום השלישי של האנטיביוטיקה תופיע בחילה, אני חוזר לרופא" הוא falsifier. "אראה איך אני מרגיש" אינו.
הימנעות היא פיצ'ר
הטעות השלישית היא לענות כשהתשובה הכנה היא "עוד לא יודע, והנה מה שיפתור את זה".
ברוב הארגונים וברוב השיחות האישיות הימנעות נחשבת מצב כשל. בפרוגנוזה ממושמעת היא פיצ'ר. שתי סיבות.
קליברציה. forecaster שנמנע ממענה במקרים שבאמת אינם מוגדרים מספיק מקבל ציוני Brier טובים יותר ממי שעונה על הכל ב-50% מתחת לכתפיים.
איכות החלטות. השאלה "איזו ראיה תפתור את זה?" ממסגרת מחדש את המצב מ-"מה אני חושב?" ל-"במה כדאי לי להסתכל הלאה?". זו השאלה שמזיזה פרויקטים קדימה. וזו שמורידה בשקט את רוב הוויכוחים המשפחתיים על עתיד היפותטי.
האנלוג הטכני ששווה להכיר הוא conformal prediction, מתואר נגיש בtutorial של Angelopoulos ו-Bates משנת 2021. הפלט אינו תווית בודדת עם confidence. קבוצה של תוויות שמבטיחה להכיל את האמת בלפחות (1 − α) מהמקרים. כשבקבוצה איבר אחד, יש לך פרוגנוזה בטוחה. כשיש שישה, המודל אומר ביושר "לא אבדיל בין אלה ללא ראיה נוספת". גודל הקבוצה הוא אות ההימנעות.
לא צריך תשתית של conformal כדי להחיל את העיקרון. העיקרון: גודל התשובה צריך להתאים לגודל אי-הודאות. פרוגנוזה קצרה בשורה אחת למקרה בטוח. שתיים-שלושה ענפים למקרה ידוע חלקית. "אני נמנע כי X, Y, Z יפתרו את זה" מפורש למקרה לא מוגדר. הרעיון הזה יושב לצד הגישה שלי לבטיחות מוצר ללא תיאטרון. סירוב לענות הוא לפעמים התשובה החזקה ביותר שיש למערכת.
קליברציה היא הרגל
פרוגנוזה לא נגמרת עד שמקבלת ציון.
המדד שאני חוזר אליו הוא Brier score, מסוכם בדף ה-Wikipedia. נמוך זה טוב. אפס מושלם. תכונה נוחה: הציון מתפרק לקליברציה ול-resolution. אפשר לטעות כי ההסתברויות לא מתאימות לתדירויות שנצפו, או כי הפרוגנוזות לא מבדילות בין סביר ללא-סביר. שתי תרופות שונות.
בפועל אין צורך בתשתית כדי לעקוב אחר קליברציה. טבלת markdown של ארבע עמודות מספיקה:
| תאריך | שאלה | פרוגנוזה | תוצאה | הערה |
|------------|-------------------------------------|-------------|---------|----------------------|
| 2026-03-01 | מועמד X יקבל את ההצעה עד 03-15? | 35-50% | כן | קיבל ב-03-09 |
| 2026-03-04 | הדיפלוי ב-03-08 יעבור נקי? | 60-75% | לא | DB pool התרוקן |
| 2026-03-09 | חבר יענה תוך 48 שעות? | 40-55% | לא | ענה ביום החמישי |
| 2026-03-12 | בעל הבית יחדש באותם תנאים? | 55-70% | כן | העלאה מינורית בלבד |חודשיים של רשומות, ואתה מתחיל לראות הטיות שיטתיות. ביטחון יתר בנושא ש"אתה יודע". חוסר ביטחון בנושא שאתה חושש ממנו. הערכות נקודתיות שמסתירות טווח רחב. טווחים שמסתירים מחלקת-ייחוס חסרה. אותן הטיות שצצות מול דיפלוי צצות מול בעלי בית, חברים, והשאלה אם ההופעה של הלהקה תכסה את עלות הכניסה.
אני שומר את הלוג כקובץ חי. רשומה חדשה לוקחת פחות מדקה. הדיסציפלינה לא בכתיבה. היא בקריאה החוזרת, פעם בחודש, ביום ראשון רגוע, כשהתחזיות של החודש הקודם מונחות ליד התוצאות שלו.
אם זה נשמע משעמם, האלטרנטיבה היא גרסה שלך שלעולם לא תדע אם הפרוגנוזות שלה צודקות. סופר-פרוגנוסטים ציבוריים שתועדו בGood Judgment Project מציגים מעל הממוצע באינטליגנציה גמישה ובפתיחות מחשבתית פעילה. המנבא היחיד החזק ביותר לכניסה ל-2% העליונים היה עדכון מתמיד של ההערכות, חזק בערך פי שלושה מ-IQ. הם סופרים את התוצאות.
דיסציפלינת תרחישים בטקסט פשוט
הסיפור היחיד הוא ה-default היקר ביותר בפרוגנוזה לא פורמלית. "אני חושב שייעלמו מאיתנו". "אני חושב שהסבב ייסגר בעוד שישה שבועות". "אני חושב שהשביתה תסתיים עד יום שישי". סיפור-מניע-מוסתר אחד מחליף את העבודה של יצירת השערות מתחרות.
הפתרון הוא טבלת תרחישים, נכתבת פעם אחת, עם שלושה-עד-חמישה ענפים שמתחרים באמת:
| תרחיש | טווח הסתברות | ראיה חזקה בעד | ראיה חזקה נגד | leading indicator |
|---|---|---|---|---|
| המשך status quo | 30–45% | היסטוריית חוסר פעולה | שינוי תמריצים אחרון | אין החלטה ב-14 הימים הבאים |
| שיפור זהיר | 25–35% | מחוות נראות לעין השבוע שעבר | היסטוריית רגרסיות | בקשה אחת מהותית נענתה |
| הסלמה או קרע | 10–20% | דפוס של אולטימטומים | טון רגוע יותר לאחרונה | פעולה חד-צדדית מהצד השני |
| ריחוק אסטרטגי | 10–20% | משאבים מוגבלים בבירור | תלות בחוט הזה | ירידה ב-engagement, לא בקשר |
| זעזוע חיצוני | 5–10% | שלושה מתחרים זזים | המגזר שקט בכלל | צד שלישי הופך את השאלה ללא רלוונטית |
אותה צורה משרתת לוח זמנים של רגולטור, חיפוש עבודה, משטר רפואי חדש או השאלה אם שרשור משפחתי שקט יתעורר מעצמו. משנים שורות. העמודות נשארות.
שני כללים מצדיקים את הטבלה.
טווחי הסתברות, לא מספרים בודדים, אלא אם יש יומן פרוגנוזה. סכום אמצעי הטווחים צריך להגיע לסביבות 100%. בדיוק 100 לא יצא (אלו טווחים), אבל אם העמודה מסתכמת ב-50%, הלא-שלם הוא בסט התרחישים, לא בחשבון.
falsifier אחד לכל שורה. תרחיש ללא falsifier הוא משאלה או פחד, לא תרחיש. עמודת ה-leading indicator עושה את העבודה. היא מציינת איזו תצפית, אם תיראה בשבוע הבא, תזיז את הסתברות הענף למעלה או למטה.
תופעת לוואי נחמדה של טקסט פשוט. אפשר להדביק את הטבלה לתוך thread, להעביר אותה לעמית, להזין למודל לדעה שנייה. בלי שלב ייצוא. אותה דיסציפלינה טקסטואלית שהופכת spec-driven development לעמיד בפני החלפות הקשר, הופכת גם את טבלאות התרחישים לעמידות.
נסה על משהו קטן
כל הדיסציפלינה הזו מתפרקת אם משתמשים בה רק לשאלות גדולות ונדירות. לא נצברים נתוני קליברציה. השריר לא מתפתח. לא לומדים אילו הטיות שייכות לך.
התחל ממשהו קטן מספיק כדי לתת לו ציון תוך שבועיים. סקירה רבעונית, מכתב הצעה, טיסת המשך, הופעה במוצאי שבת שצריכה לכסות את עלות הכניסה. כל דבר שתוצאתו תנחת לפני שתשכח שעשית פרוגנוזה.
אם שתיים מתוך שלוש פספסו בגדול אחרי שבועיים, השיעור בפער, לא במבוכה. קרא מחדש את הרשומות המקוריות. איזה צעד דילגת? התחלת מסיפור במקום ממחלקת-ייחוס? נתת הערכה נקודתית במקום טווח? שכחת את ה-falsifier?
העתיד נשאר לא חזוי. וזה בסדר. המשימה לא נבואה. לבנות ממשק רגוע יותר וקצת יותר ישר אל עולם מבולגן, ולהשאיר מספיק עקבות-ראיה כדי שהגרסה הבאה שלך תוכל לתת ציון לפרוגנוזות של השנה הזו וללמוד ממשהו.
קריאה קשורה
- Building agentic AI systems that hold up
- LLM evals in production
- Hallucination prevention in LLM products
- Product safety without theatre
- Spec-driven development
- איך להגיע למצב ירוק עם AI בלי להרוס את הקוד
- Building legal answering systems