Alex ChernyshAlex ChernyshAgentic behaviorist · תל אביב
כתיבהעוזר
חזרה לכתיבה

הערה

הרצתי 12 סוכני AI במשך 47 שעות. הנה מה ששרד.

אורקסטרטור דטרמיניסטי בקוד פתוח לסוכני קידוד CLI מקבילים. מריץ Claude Code, Codex CLI, Gemini CLI במקביל — אפס טוקני קואורדינציה, 37 מתאמים, אימות janitor, בידוד git worktree.

29 במרץ 2026·6 דק׳ קריאה
Agents
בעמוד הזה(7)
התקרה של סוכן יחידמה באמת נשברפקודה אחתארכיטקטורהלערבב כל סוכן, כל מודלמספריםשלוש פקודות

עדכון — מאי 2026

מאז הפרסום, Bernstein גדל ל-37 מתאמי סוכנים, הרצה בענן על Cloudflare ואתר ייעודי. הפוסט הזה נשאר כסיפור ההתחלה — לעדכונים, עברו ל-bernstein.run ולבלוג הפרויקט.

שנים עשר סוכני קידוד. codebase אחד. ארבעים ושבע שעות. 737 tickets נסגרו, 826 commits נחתו. כל מה שיכול היה להישבר, נשבר. האורקסטרטור שכתבתי כדי שאוכל ללכת לישון עכשיו בקוד פתוח.

מה Bernstein עושה

  • תזמון דטרמיניסטי, אפס טוקני LLM על קואורדינציה
  • בלי נעילת ספק: עובד עם Claude Code, Codex CLI, Gemini CLI, Qwen, Aider, או כל CLI agent
  • סוכנים קצרי חיים (דקות למשימה, בלי context drift)
  • אימות מובנה: janitor מריץ את ה-test suite לפני commit
  • אבולוציה עצמית: מנתח מטריקות ומציע שינויים
דשבורד TUI
דשבורד TUI של Bernstein עם סוכנים מקבילים
ניהול משימות בטרמינל — סטטוס, סוכנים, התקדמות, עלויות.
דשבורד אינטרנט
דשבורד אינטרנט של Bernstein
ניטור בזמן אמת בדפדפן — סוכנים, עלויות, תור מיזוגים, לוג פעילות.

התקרה של סוכן יחיד

ההבטחה של קידוד בעזרת AI נשמעת פשוט. prompt, קוד, review, סיום. בפועל התקרה נמוכה מהדמו.

מלווים סוכן אחד, חלון context אחד, משימה אחת. אחרי שעה המודל סוטה. ממציא חתימות פונקציות. שוכח אילוצים. מסבירים מחדש. הוא סוטה שוב. תשע משימות אחרות יושבות.

ואז יש את הנעילה. כל פריימוורק multi-agent שניסיתי (CrewAI, Microsoft Agent Framework, ex-AG2) קושר את ה-orchestration ל-API של ספק אחד. LangGraph דומה. לערבב מודל זול ל-boilerplate עם חזק לארכיטקטורה? אין מזל.

הפער בין "AI כותב קוד" לבין "AI שולח קוד מטוסט עם git history נקי" הוא החלק שאף אחד לא מדגים.

מה באמת נשבר

הפניתי 12 סוכנים ל-backlog אמיתי כדי לראות מה יקרה.

המספרים

  • 12 סוכנים על laptop אחד, 47 שעות רצוף
  • 737 tickets נסגרו (15.7 לשעה)
  • 826 commits נחתו
  • מיקס מודלים בהרצה אחת

מה נשבר. merge conflicts כששני סוכנים ערכו אותו קובץ. התנגשויות פורטים מ-dev servers במקביל. סוכן אחד שרף 40$ בלולאת retry. סוכנים דרסו אחד את העבודה של השני כי לא היה file locking. סוכנים ארוכי חיים סטו עד שהפלט שלהם סתר את הקוד שהם עצמם כתבו קודם. בערך בשעה ה-30 ספרתי 30 תהליכי claude יתומים בשעה אחת. בלגן אמיתי.

כל החלטת תכנון ב-Bernstein היא תיקון ישיר של משהו שנכשל בהרצה הזו. הרשימה למעלה היא הגרסה של ה-README שנשארה כצלקות.

הכלי

פקודה אחת

pipx install bernstein
bernstein -g "Add JWT auth with refresh tokens, tests, and API docs"

Bernstein מפרק את המטרה למשימות, מקצה כל אחת לסוכן עם המודל והתפקיד הנכונים, מריץ אותן ב-git worktrees מבודדים, מוודא שטסטים עוברים, ועושה commit למה ששורד. חוזרים לקוד עובד או לדוח של מה שנכשל.

ארכיטקטורה

האנלוגיה הקרובה היא מה ש-Kubernetes עשה לקונטיינרים, אבל ל-CLI coding agents. מצהירים על מטרה. ה-control plane מפרק אותה למשימות. סוכנים קצרי חיים מבצעים אותן ב-worktrees מבודדים כמו pods. Janitor מאמת לפני שמשהו נוחת.

האורקסטרטור הוא Python דטרמיניסטי. אפס טוקנים על קואורדינציה. אין LLM שמחליט מה הלאה. אין אי-דטרמיניזם בתזמון. אין רקורסיה של agent-מנהל-agents. רק פירוק המטרה ההתחלתי נוגע ב-LLM. אחר כך זה קוד.

איך מטרה הופכת לקוד
רק הפירוק ועבודת הסוכנים מערבים קריאות LLM. השאר דטרמיניסטי.

סוכנים קצרי חיים. נולדים, עובדים דקות, יוצאים. בלי context drift. אם משימה נכשלת, retry עם סוכן טרי. הקודם כבר לא קיים.

State בקבצים. הכול חי ב-.sdd/, קבצים רגילים בריפו. אפשר לבדוק, לעשות diff, לגרס. שום דבר לא מסתתר בזיכרון.

Janitor. כל תוצאה עוברת אימות. טסטים עוברים, קבצים קיימים, אין רגרסיות. סוכנים לא מאשרים את עצמם.

API פתוח. שרת HTTP מקומי על פורט 8052. כל CI pipeline, Slack bot או cron job יכול ליצור משימות. Bernstein מתאים ל-workflow שלך. לא בונים מחדש סביבו.

בלי נעילה

לערבב כל סוכן, כל מודל

Bernstein מריץ כל CLI agent שמותקן אצלך. Claude Code על ארכיטקטורה, Codex על טסטים, Gemini על docs, באותה הרצה. הוספת סוכן חדש היא adapter של 50 שורות Python.

BernsteinCrewAIAG2 / Agent Framework1LangGraph
תזמוןקוד דטרמיניסטימבוסס LLMמבוסס LLMגרף
חיי סוכןקצרים (דקות)ארוכיםארוכיםארוכים
אימותjanitor מובנהידניידניידני
סוכני CLIכל agent מותקןAPI בלבדAPI בלבדAPI בלבד
נעילה למודלאיןרכהרכהרכה

כש-Claude Code מוציא גרסה חדשה, השיפור מגיע בחינם. סוכן CLI חדש צץ, הוא מצטרף ל-pool. שכבת ה-orchestration לא יודעת איזה סוכן עושה את העבודה.

מספרים

מספרים

תפוקה x1.78 מול baseline של סוכן יחיד על אותן משימות. לא 10x שיווקי. מספר נמדד עם overhead של קואורדינציה בפנים.

23% עלות נמוכה יותר. חלונות context קצרים מבזבזים פחות input tokens. מיקס מודלים מנתב משימות זולות למודלים זולים.

4,250+ טסטים ב-codebase של Bernstein עצמו. כל משימה שסוכן מסיים עוברת אימות מול ה-suite.

Budget caps. --budget 5.00 מתריע ב-80%, alert ב-95%, עצירה קשה ב-100%. תשתית נושאת עומס, לא תיאטרון בטיחות.

אבולוציה עצמית. bernstein --evolve מנתח מטריקות ומציע שינויים ל-prompts ולחוקי ניתוב. Risk-gated. L0 מיושם אוטומטית. L3 דורש אישור. Circuit breaker עוצר על רגרסיה בטסטים.

מתי אבולוציה עצמית הגיונית

שימושי אחרי כמה מאות משימות שהושלמו — מספיק סיגנל כדי לזהות איזה מודלים עובדים לאיזה סוגי משימות. בפרויקט חדש עם עשר משימות, אין מספיק נתונים.

התחלה

שלוש פקודות

pipx install bernstein
cd your-project && bernstein init
bernstein -g "Your goal here"

ל-CI, יש GitHub Action:

- uses: chernistry/bernstein-action@v1
  with:
    goal: "Fix all failing tests and update snapshots"
    budget: "5.00"

הכלי בשלבים מוקדמים, יש קצוות חדים. אם נתקלתם במשהו, פתחו issue. הבעיה המעניינת היא לגרום להרבה סוכנים לא לדרוך אחד על השני, לא להפוך סוכן אחד לחכם יותר.

GitHubתיעודעמוד מוצרGitHub ActionProduct Hunt
Featured onBernstein - Spawn parallel AI agents. Ship tested code. | Product Hunt

Footnotes

  1. AutoGen נכנס למצב תחזוקה והוחלף ב-Microsoft Agent Framework (אפריל 2026). ↩

✓ Reading complete

Alex ChernyshAlex ChernyshApplied AI Systems & Platform Engineer

עוד על Agents

חלק מהערות ציבוריות על מערכות AI עם grounding, retrieval, evals ועל איך שולחים את זה תחת מגבלות אמיתיות.

  • →לבנות מערכות Agentic שמחזיקות מעמד2 במרץ 2026·4 דק׳ קריאה
  • →RightLayout: שחררתי כלי AI ל-Mac, ואז העברתי אותו לקהילה8 במאי 2026·6 דק׳ קריאה
  • →מחפשים עבודה? תלגמו לאט. אנחנו נחפש בשבילכם.23 באפר׳ 2026·4 דק׳ קריאה
בעמוד הזה
  • 01התקרה של סוכן יחיד
  • 02מה באמת נשבר1 min
  • 03פקודה אחת
  • 04ארכיטקטורה1 min
  • 05לערבב כל סוכן, כל מודל1 min
  • 06מספרים1 min
  • 07שלוש פקודות1 min