כשמערכת RAG נכשלת, המודל בדרך כלל מקבל את האשמה. למסמכים הייתה בדרך כלל מקדמה על הכישלון.
מסמך הוא יחידת מוצר
מסמכים במערכת RAG הם לא רק חומר גלם. חלק מהמוצר.
לכל מסמך צריך זהות ברורה, כותרת שימושית, מקור, תאריך או גרסה, מבנה שאפשר לנווט בו, חלוקה שאפשר להסביר. בלי זה גם embedding טוב נשאר עם חומר קלט חלש.
Chunking חלש יוצר retrieval חלש
Chunking בגודל קבוע נשמע פשוט. נוטה לשבור בדיוק את הדברים שצריך להשאיר יחד. כותרת והגוף שמתחתיה. סעיף והחריג שלו. טבלה והטקסט שמסביר אותה. הגדרה והמקרה שאליו היא חלה.
Chunk טוב לא מוגדר רק לפי אורך. מוגדר לפי שלמות הרעיון שהמשתמש יצטרך להחזיר אחר כך.
Titles ומטא-דאטה עושים יותר ממה שנדמה
Titles טובים ומטא-דאטה סבירים מקטינים צורך ב-query gymnastics. עוזרים ל-retrieval הראשוני, reranking, סינון לפי סוג מקור, page-level grounding, review אנושי.
כשהכותרות חלשות, המערכת מפצה עם שכבות אחרות. rewrite, fusion, עוד context. כמעט תמיד יקר יותר מלתקן את הכותרות עצמן.
Parent-child structure
הרבה קורפוסים מרוויחים ממבנה parent-child. parent בשביל יחידת המשמעות הגדולה, child בשביל retrieval מדויק יותר.
אפשר למצוא קטע קטן ומדויק ועדיין להחזיר מספיק הקשר מה-parent בלי להעמיס context לא רלוונטי. דפוס טוב במסמכים ארוכים, פוליסות, חוזים ורגולציה.
Sentence-window retrieval ו-reranking
לפעמים הבעיה היא לא למצוא את האזור הנכון, אלא להביא חלון מספיק מדויק סביבו. שם sentence-window retrieval או reranking יכולים לעזור.
צריך לזכור. אלה שכבות polishing. לא תחליף לקורפוס מסודר.
QA לקורפוס הוא לא nice-to-have
קורפוס צריך לעבור QA כמו קוד.
לפחות: כפילויות, מקורות מיושנים, OCR שבור, titles גנריים מדי, metadata חסר, page mapping לא אמין, chunk boundaries שעושות נזק למשמעות.
בלי זה הרבה "בעיות RAG" הן data hygiene עם marketing יפה יותר.
איך נראה קורפוס טוב
קורפוס טוב לא רק מאפשר retrieval. הופך אותו לפחות דרמטי.
מסמכים עם זהות. titles שאפשר לעבוד איתם. chunks שמכבדים מבנה. metadata שאפשר לסנן עליו. page-level traceability. stale content שמסומן או נזרק.
כשהיסודות תקינים, שאר המערכת נהיית רגועה יותר.
ברוב מערכות RAG הבעיה המעניינת פחות היא המודל. המעניינת יותר היא אם הקורפוס נותן בכלל הזדמנות להצליח. אם לא, כדאי להתחיל שם. פחות זוהר, הרבה יותר יעיל.