Alex Chernysh
AI systems / retrieval / evals / architecture
לדבר על מערכת
מערכותכתיבהעוזר
חזרה לכתיבה

הערה

רוב הכשלים ב-RAG מתחילים במסמכים

Chunking, כותרות, metadata, מבנה parent-child, reranking ו-QA לקורפוס במערכות RAG.

12 בפברואר 20263 דק׳ קריאהמאת Alex Chernysh
RAGRetrievalGrounding
לקפוץ לחלק
1. מסמך הוא יחידת מוצר2. Chunking חלש יוצר retrieval חלש3. Titles ומטא-דאטה עושים הרבה יותר ממה שנדמה4. Parent-child structure5. Sentence-window retrieval ו-reranking6. QA לקורפוס הוא לא nice-to-have7. איך נראה קורפוס טובסיכום

צריך קודם מעבר קצר?

כשמערכת RAG נכשלת, המודל בדרך כלל מקבל את האשמה. למסמכים הייתה בדרך כלל מקדמה על הכישלון.

הנחת עבודה

אם הקורפוס לא שמיש, שאר המערכת רק תמצא דרכים יותר אלגנטיות להיכשל. Retrieval טוב מתחיל הרבה לפני ה-embedding.

1. מסמך הוא יחידת מוצר

מסמכים במערכת RAG הם לא רק חומר גלם. הם חלק מהמוצר.

לכן לכל מסמך צריך להיות לפחות:

  • זהות ברורה
  • כותרת שימושית
  • מקור
  • תאריך או גרסה
  • מבנה שאפשר לנווט בו
  • חלוקה שאפשר להסביר

בלי זה, גם embedding טוב נשאר עם חומר קלט חלש.

2. Chunking חלש יוצר retrieval חלש

Chunking בגודל קבוע בלבד נשמע פשוט. הוא גם נוטה לשבור בדיוק את הדברים שצריך להשאיר יחד:

  • כותרת והגוף שמתחתיה
  • סעיף והחריג שלו
  • טבלה והטקסט שמסביר אותה
  • הגדרה והמקרה שאליו היא חלה

Chunk טוב לא מוגדר רק לפי אורך. הוא מוגדר לפי שלמות הרעיון שהמשתמש יצטרך להחזיר אחר כך.

3. Titles ומטא-דאטה עושים הרבה יותר ממה שנדמה

Titles טובים ומטא-דאטה סבירים מקטינים צורך ב-query gymnastics.

הם עוזרים ל:

  • retrieval הראשוני
  • reranking
  • סינון לפי סוג מקור
  • page-level grounding
  • review אנושי מאוחר יותר

כשהכותרות חלשות, המערכת מתחילה לפצות עם שכבות אחרות: rewrite, fusion, עוד context. זה כמעט תמיד יקר יותר מלתקן את הכותרות עצמן.

4. Parent-child structure

הרבה קורפוסים מרוויחים ממבנה parent-child:

  • parent בשביל יחידת המשמעות הגדולה
  • child בשביל retrieval מדויק יותר

היתרון הוא שאפשר:

  • למצוא קטע קטן ומדויק
  • ועדיין להחזיר מספיק הקשר מה-parent
  • בלי להעמיס context לא רלוונטי

זה דפוס טוב במיוחד במסמכים ארוכים, פוליסות, חוזים ורגולציה.

5. Sentence-window retrieval ו-reranking

לפעמים ה-problem הוא לא למצוא את האזור הנכון, אלא להביא חלון מספיק מדויק סביבו.

בדיוק שם sentence-window retrieval או reranking טובים יכולים לעזור.

אבל צריך לזכור: אלה שכבות polishing. הן לא תחליף לקורפוס מסודר.

6. QA לקורפוס הוא לא nice-to-have

קורפוס צריך לעבור QA בדיוק כמו קוד.

אני מחפש לפחות:

  • כפילויות
  • מקורות מיושנים
  • OCR שבור
  • titles גנריים מדי
  • metadata חסר
  • page mapping לא אמין
  • chunk boundaries שעושות נזק למשמעות

אם לא עושים את זה, הרבה “בעיות RAG” הן פשוט data hygiene עם marketing יפה יותר.

7. איך נראה קורפוס טוב

קורפוס טוב לא רק מאפשר retrieval. הוא הופך אותו לפחות דרמטי.

בפועל זה אומר:

  • מסמכים עם זהות
  • titles שאפשר לעבוד איתם
  • chunks שמכבדים מבנה
  • metadata שאפשר לסנן עליו
  • page-level traceability
  • stale content שמסומן או נזרק

כשהיסודות האלה תקינים, גם שאר המערכת נהיית רגועה יותר.

סיכום

ברוב מערכות RAG הבעיה המעניינת פחות היא המודל. הבעיה המעניינת יותר היא אם הקורפוס נותן בכלל הזדמנות סבירה להצליח.

אם לא, כדאי להתחיל שם. זה פחות זוהר, וגם הרבה יותר יעיל.

קריאה נוספת

חלק מההערות הציבוריות על מערכות AI עם grounding, retrieval, evals ומשלוח תחת מגבלות אמיתיות.

אילו query transformation techniques באמת עוזרים ל-RAG?איך בונים מערכות Legal QA שאפשר לסמוך עליהןאיך מצמצמים hallucinations בלי לעבוד על עצמנו
בעמוד הזה
1. מסמך הוא יחידת מוצר2. Chunking חלש יוצר retrieval חלש3. Titles ומטא-דאטה עושים הרבה יותר ממה שנדמה4. Parent-child structure5. Sentence-window retrieval ו-reranking6. QA לקורפוס הוא לא nice-to-have7. איך נראה קורפוס טובסיכום