Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

רוב הכשלים ב-RAG מתחילים במסמכים

Chunking, כותרות, metadata, מבנה parent-child, reranking ו-QA לקורפוס במערכות RAG.

12 בפברואר 2026·2 דק׳ קריאה
RAGRetrievalGrounding
בעמוד הזה(7)
מסמך הוא יחידת מוצרChunking חלש יוצר retrieval חלשTitles ומטא-דאטה עושים יותר ממה שנדמהParent-child structureSentence-window retrieval ו-rerankingQA לקורפוס הוא לא nice-to-haveאיך נראה קורפוס טוב

כשמערכת RAG נכשלת, המודל בדרך כלל מקבל את האשמה. למסמכים הייתה בדרך כלל מקדמה על הכישלון.

הנחת עבודה

אם הקורפוס לא שמיש, שאר המערכת רק תמצא דרכים יותר אלגנטיות להיכשל. Retrieval טוב מתחיל הרבה לפני ה-embedding.

מסמך הוא יחידת מוצר

מסמכים במערכת RAG הם לא רק חומר גלם. חלק מהמוצר.

לכל מסמך צריך זהות ברורה, כותרת שימושית, מקור, תאריך או גרסה, מבנה שאפשר לנווט בו, חלוקה שאפשר להסביר. בלי זה גם embedding טוב נשאר עם חומר קלט חלש.

Chunking חלש יוצר retrieval חלש

Chunking בגודל קבוע נשמע פשוט. נוטה לשבור בדיוק את הדברים שצריך להשאיר יחד. כותרת והגוף שמתחתיה. סעיף והחריג שלו. טבלה והטקסט שמסביר אותה. הגדרה והמקרה שאליו היא חלה.

Chunk טוב לא מוגדר רק לפי אורך. מוגדר לפי שלמות הרעיון שהמשתמש יצטרך להחזיר אחר כך.

Titles ומטא-דאטה עושים יותר ממה שנדמה

Titles טובים ומטא-דאטה סבירים מקטינים צורך ב-query gymnastics. עוזרים ל-retrieval הראשוני, reranking, סינון לפי סוג מקור, page-level grounding, review אנושי.

כשהכותרות חלשות, המערכת מפצה עם שכבות אחרות. rewrite, fusion, עוד context. כמעט תמיד יקר יותר מלתקן את הכותרות עצמן.

Parent-child structure

הרבה קורפוסים מרוויחים ממבנה parent-child. parent בשביל יחידת המשמעות הגדולה, child בשביל retrieval מדויק יותר.

אפשר למצוא קטע קטן ומדויק ועדיין להחזיר מספיק הקשר מה-parent בלי להעמיס context לא רלוונטי. דפוס טוב במסמכים ארוכים, פוליסות, חוזים ורגולציה.

Sentence-window retrieval ו-reranking

לפעמים הבעיה היא לא למצוא את האזור הנכון, אלא להביא חלון מספיק מדויק סביבו. שם sentence-window retrieval או reranking יכולים לעזור.

צריך לזכור. אלה שכבות polishing. לא תחליף לקורפוס מסודר.

QA לקורפוס הוא לא nice-to-have

קורפוס צריך לעבור QA כמו קוד.

לפחות: כפילויות, מקורות מיושנים, OCR שבור, titles גנריים מדי, metadata חסר, page mapping לא אמין, chunk boundaries שעושות נזק למשמעות.

בלי זה הרבה "בעיות RAG" הן data hygiene עם marketing יפה יותר.

איך נראה קורפוס טוב

קורפוס טוב לא רק מאפשר retrieval. הופך אותו לפחות דרמטי.

מסמכים עם זהות. titles שאפשר לעבוד איתם. chunks שמכבדים מבנה. metadata שאפשר לסנן עליו. page-level traceability. stale content שמסומן או נזרק.

כשהיסודות תקינים, שאר המערכת נהיית רגועה יותר.

ברוב מערכות RAG הבעיה המעניינת פחות היא המודל. המעניינת יותר היא אם הקורפוס נותן בכלל הזדמנות להצליח. אם לא, כדאי להתחיל שם. פחות זוהר, הרבה יותר יעיל.

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על RAG

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →אילו query transformation techniques באמת עוזרים ל-RAG?24 בפבר׳ 2026·3 דק׳ קריאה
  • →פרוגנוזה ללא נבואה: דיסציפלינה בטקסט פשוט2 במאי 2026·10 דק׳ קריאה
  • →איך בונים מערכות Legal Answering שאפשר לסמוך עליהן10 במרץ 2026·19 דק׳ קריאה
בעמוד הזה
  • 01מסמך הוא יחידת מוצר
  • 02Chunking חלש יוצר retrieval חלש
  • 03Titles ומטא-דאטה עושים יותר ממה שנדמה
  • 04Parent-child structure
  • 05Sentence-window retrieval ו-reranking
  • 06QA לקורפוס הוא לא nice-to-have
  • 07איך נראה קורפוס טוב