Alex Chernysh
AI systems / retrieval / evals / architecture
לדבר על מערכת
מערכותכתיבהעוזר
חזרה לכתיבה

הערה

איך בונים מערכות Legal QA שאפשר לסמוך עליהן

Blueprint מעשי ל-Legal QA, שנשען בין היתר על עבודה סביב Agentic RAG Legal Challenge: זהות מסמכים, hybrid retrieval, תשובות מובְנות, grounding ברמת עמוד, טלמטריה ו-evals.

10 במרץ 20264 דק׳ קריאהמאת Alex Chernysh
RAGLegalReliability
לקפוץ לחלק
1. מסמך הוא לא רק טקסט2. retrieval חייב להישאר צר3. הפורמט צריך לעזור לחשוף uncertainty4. abstention הוא חלק מהאיכות5. page-level grounding משנה הכול6. evals למערכת משפטית חייבים להיות נפרדים7. telemetry חשובה גם לצוות המשפטי8. מה לא לעשותסיכום

צריך קודם מעבר קצר?

הדרך המהירה ביותר לשחרר אסיסטנט משפטי מסוכן היא ללטש fluency לפני evidence. במערכות legal answering העבודה האמיתית איננה לגרום למודל להישמע משכנע. המודל בדרך כלל כבר יודע לעשות את זה. העבודה היא לוודא שהתשובה נשענת על המסמך הנכון, העמוד הנכון ו-סט העובדות הקטן ביותר שאפשר להגן עליו.

Challenge context

הטקסט הזה נשען בחלקו על עבודה סביב Agentic RAG Legal Challenge, שבו מערכות Legal QA נבחנות כ-pipeline מלא ולא כ-prompt מוצלח אחד.

ברירת מחדל בטוחה

במערכת משפטית, provenance קודם לניסוח. אם אי אפשר להראות מאיפה הטענה באה, אין סיבה לתת לה לצאת כאילו היא ידועה.

מה חייב להיות במערכת כזאת

  • זהות מסמך ברורה ולא קורפוס אנונימי
  • retrieval היברידי עם rerank
  • תשובה מובנית עם הבחנה בין עובדות, מסקנות וגבולות אי-ידיעה
  • grounding ברמת עמוד או קטע, לא “המסמך בערך אמר”
  • evals ל-support, abstention ו-format

1. מסמך הוא לא רק טקסט

הרבה מערכות משפטיות מתחילות מקובצי PDF שנדחפו לקורפוס. זה מספיק לדמו. זה חלש מדי לרגע שבו מישהו באמת נשען על התשובה.

במערכת רצינית, למסמך צריך להיות:

  • מזהה יציב
  • סוג מסמך
  • מקור
  • תאריך או גרסה
  • חלוקה לעמודים או סעיפים
  • אפשרות לחזור למקור המקורי

בלי זה, גם retrieval טוב יחסית יישאר עמום.

2. retrieval חייב להישאר צר

ב-domain משפטי הבעיה היא לא רק למצוא משהו רלוונטי. הבעיה היא להישאר צמוד למשהו שאפשר להגן עליו.

בפועל זה אומר:

  • candidate set קטן
  • hybrid retrieval במקום reliance על embedding בלבד
  • reranking לפני generation
  • שמירה על זהות עמוד או סעיף לאורך כל הזרם
  • מסלול abstain כשהתמיכה חלקית

כשמעמיסים יותר מדי context, המודל לא נעשה אחראי יותר. הוא פשוט מקבל יותר דרכים לטעות בביטחון.

3. הפורמט צריך לעזור לחשוף uncertainty

תשובה משפטית טובה לא נשמעת רק בטוחה. היא גם חושפת את גבולות הוודאות שלה.

אני מעדיף תשובות שמחלקות את הפלט ל:

  • answer
  • supporting sources
  • gaps or ambiguity
  • next review step אם צריך

זה נשמע פחות זוהר מתשובה זורמת אחת. גם טוב. משטח משפטי לא נמדד לפי flow, אלא לפי האופן שבו הוא מחזיק כשהשאלה קשה או חלקית.

4. abstention הוא חלק מהאיכות

במערכת משפטית refusal טוב הוא לא fallback מביך. הוא חלק מהדיוק.

צריך לסרב או להסלים כש:

  • המקורות סותרים
  • אין מספיק תמיכה
  • השאלה דורשת inference שחורגת מהחומר הזמין
  • הפלט עלול להישמע קונקרטי יותר ממה שמותר

הרבה צוותים עדיין מנסים להקטין refusal rate כאילו זה KPI טוב. במשטח משפטי זה לעיתים סימן בדיוק הפוך.

5. page-level grounding משנה הכול

Grounding ברמת מסמך שלם לא מספיק. הוא משאיר יותר מדי מקום לניחוש.

Page-level או fragment-level grounding עושה שלושה דברים:

  • מצמצם את טווח הטענה
  • מקל על review אנושי
  • הופך evals להרבה יותר ברורים

השאלה השימושית היא לא “האם התשובה נשענה על המסמך”. השאלה היא “האם אפשר להצביע על המקום שבו המסמך באמת תומך בטענה הזאת”.

6. evals למערכת משפטית חייבים להיות נפרדים

ציון כללי של “איכות תשובה” לא מאוד מועיל כאן. צריך לפחות שכבות נפרדות עבור:

  • factual support
  • provenance completeness
  • abstention quality
  • format compliance
  • trace quality אם יש routing או multi-step flow

OpenAI ו-Anthropic שניהם דוחפים לכיוון של trace-aware evals במערכות מרובות שלבים. במשטח משפטי זה חשוב במיוחד, כי לפעמים הכשל קורה ב-retrieval או ב-routing הרבה לפני שהמודל ניסח את המשפט האחרון.

7. telemetry חשובה גם לצוות המשפטי

Telemetry לא נועדה רק למהנדסים.

אם יש מערכת משפטית חיה, צריך לדעת:

  • אילו מסמכים עלו הכי הרבה
  • איפה retrieval פספס
  • מתי abstention עלה או ירד
  • מתי prompt או policy change שינו את ההתנהגות
  • באילו מקרים review אנושי תיקן את המערכת

אחרת הדיון על איכות נשאר תיאורטי.

8. מה לא לעשות

  • לא להסתמך על ציטוט ברמת מסמך בלבד
  • לא להציג answer confidence בלי provenance ברור
  • לא ללטש prompt בזמן שהקורפוס עדיין רופף
  • לא להסתיר ambiguity בטון יותר אלגנטי
  • לא לחשוב שיותר context פותר חוסר משמעת ב-retrieval

סיכום

מערכת legal answering שאפשר לסמוך עליה לא בנויה קודם כול מניסוח יפה. היא בנויה ממבנה מקור ברור, retrieval צר, תשובה שיודעת להיעצר, וטלמטריה שמסבירה מה קרה.

רק אחר כך יש טעם לדאוג אם המשפט האחרון נשמע חכם.

קריאה נוספת

חלק מההערות הציבוריות על מערכות AI עם grounding, retrieval, evals ומשלוח תחת מגבלות אמיתיות.

לבנות מערכות Agentic שמחזיקות מעמדאילו query transformation techniques באמת עוזרים ל-RAG?איך מצמצמים hallucinations בלי לעבוד על עצמנו
בעמוד הזה
1. מסמך הוא לא רק טקסט2. retrieval חייב להישאר צר3. הפורמט צריך לעזור לחשוף uncertainty4. abstention הוא חלק מהאיכות5. page-level grounding משנה הכול6. evals למערכת משפטית חייבים להיות נפרדים7. telemetry חשובה גם לצוות המשפטי8. מה לא לעשותסיכום