הערה

הרצתי 12 סוכני AI במשך 47 שעות. הנה מה ששרד.

אורקסטרטור דטרמיניסטי בקוד פתוח לסוכני קידוד CLI מקבילים. מריץ Claude Code, Codex CLI, Gemini CLI במקביל — אפס טוקני קואורדינציה, 37 מתאמים, אימות janitor, בידוד git worktree.

29 במרץ 20266 דק׳ קריאה

Agents

בעמוד הזה(7)

שנים עשר סוכני קידוד. codebase אחד. ארבעים ושבע שעות. 737 tickets נסגרו, 826 commits נחתו. כל מה שיכול היה להישבר, נשבר. האורקסטרטור שכתבתי כדי שאוכל ללכת לישון עכשיו בקוד פתוח.

דשבורד TUI של Bernstein עם סוכנים מקבילים — דשבורד TUI

דשבורד אינטרנט של Bernstein — דשבורד אינטרנט

התקרה של סוכן יחיד

ההבטחה של קידוד בעזרת AI נשמעת פשוט. prompt, קוד, review, סיום. בפועל התקרה נמוכה מהדמו.

מלווים סוכן אחד, חלון context אחד, משימה אחת. אחרי שעה המודל סוטה. ממציא חתימות פונקציות. שוכח אילוצים. מסבירים מחדש. הוא סוטה שוב. תשע משימות אחרות יושבות.

ואז יש את הנעילה. כל פריימוורק multi-agent שניסיתי (CrewAI, Microsoft Agent Framework, ex-AG2) קושר את ה-orchestration ל-API של ספק אחד. LangGraph דומה. לערבב מודל זול ל-boilerplate עם חזק לארכיטקטורה? אין מזל.

הפער בין "AI כותב קוד" לבין "AI שולח קוד מטוסט עם git history נקי" הוא החלק שאף אחד לא מדגים.

מה באמת נשבר

הפניתי 12 סוכנים ל-backlog אמיתי כדי לראות מה יקרה.

מה נשבר. merge conflicts כששני סוכנים ערכו אותו קובץ. התנגשויות פורטים מ-dev servers במקביל. סוכן אחד שרף 40$ בלולאת retry. סוכנים דרסו אחד את העבודה של השני כי לא היה file locking. סוכנים ארוכי חיים סטו עד שהפלט שלהם סתר את הקוד שהם עצמם כתבו קודם. בערך בשעה ה-30 ספרתי 30 תהליכי claude יתומים בשעה אחת. בלגן אמיתי.

כל החלטת תכנון ב-Bernstein היא תיקון ישיר של משהו שנכשל בהרצה הזו. הרשימה למעלה היא הגרסה של ה-README שנשארה כצלקות.

פקודה אחת

pipx install bernstein
bernstein -g "Add JWT auth with refresh tokens, tests, and API docs"

Bernstein מפרק את המטרה למשימות, מקצה כל אחת לסוכן עם המודל והתפקיד הנכונים, מריץ אותן ב-git worktrees מבודדים, מוודא שטסטים עוברים, ועושה commit למה ששורד. חוזרים לקוד עובד או לדוח של מה שנכשל.

ארכיטקטורה

האנלוגיה הקרובה היא מה ש-Kubernetes עשה לקונטיינרים, אבל ל-CLI coding agents. מצהירים על מטרה. ה-control plane מפרק אותה למשימות. סוכנים קצרי חיים מבצעים אותן ב-worktrees מבודדים כמו pods. Janitor מאמת לפני שמשהו נוחת.

האורקסטרטור הוא Python דטרמיניסטי. אפס טוקנים על קואורדינציה. אין LLM שמחליט מה הלאה. אין אי-דטרמיניזם בתזמון. אין רקורסיה של agent-מנהל-agents. רק פירוק המטרה ההתחלתי נוגע ב-LLM. אחר כך זה קוד.

איך מטרה הופכת לקוד

רק הפירוק ועבודת הסוכנים מערבים קריאות LLM. השאר דטרמיניסטי.

סוכנים קצרי חיים. נולדים, עובדים דקות, יוצאים. בלי context drift. אם משימה נכשלת, retry עם סוכן טרי. הקודם כבר לא קיים.

State בקבצים. הכול חי ב-.sdd/, קבצים רגילים בריפו. אפשר לבדוק, לעשות diff, לגרס. שום דבר לא מסתתר בזיכרון.

Janitor. כל תוצאה עוברת אימות. טסטים עוברים, קבצים קיימים, אין רגרסיות. סוכנים לא מאשרים את עצמם.

API פתוח. שרת HTTP מקומי על פורט 8052. כל CI pipeline, Slack bot או cron job יכול ליצור משימות. Bernstein מתאים ל-workflow שלך. לא בונים מחדש סביבו.

לערבב כל סוכן, כל מודל

Bernstein מריץ כל CLI agent שמותקן אצלך. Claude Code על ארכיטקטורה, Codex על טסטים, Gemini על docs, באותה הרצה. הוספת סוכן חדש היא adapter של 50 שורות Python.

	Bernstein	CrewAI	AG2 / Agent Framework¹	LangGraph
תזמון	קוד דטרמיניסטי	מבוסס LLM	מבוסס LLM	גרף
חיי סוכן	קצרים (דקות)	ארוכים	ארוכים	ארוכים
אימות	janitor מובנה	ידני	ידני	ידני
סוכני CLI	כל agent מותקן	API בלבד	API בלבד	API בלבד
נעילה למודל	אין	רכה	רכה	רכה

כש-Claude Code מוציא גרסה חדשה, השיפור מגיע בחינם. סוכן CLI חדש צץ, הוא מצטרף ל-pool. שכבת ה-orchestration לא יודעת איזה סוכן עושה את העבודה.

מספרים

תפוקה x1.78 מול baseline של סוכן יחיד על אותן משימות. לא 10x שיווקי. מספר נמדד עם overhead של קואורדינציה בפנים.

23% עלות נמוכה יותר. חלונות context קצרים מבזבזים פחות input tokens. מיקס מודלים מנתב משימות זולות למודלים זולים.

4,250+ טסטים ב-codebase של Bernstein עצמו. כל משימה שסוכן מסיים עוברת אימות מול ה-suite.

Budget caps. --budget 5.00 מתריע ב-80%, alert ב-95%, עצירה קשה ב-100%. תשתית נושאת עומס, לא תיאטרון בטיחות.

אבולוציה עצמית. bernstein --evolve מנתח מטריקות ומציע שינויים ל-prompts ולחוקי ניתוב. Risk-gated. L0 מיושם אוטומטית. L3 דורש אישור. Circuit breaker עוצר על רגרסיה בטסטים.

שלוש פקודות

pipx install bernstein
cd your-project && bernstein init
bernstein -g "Your goal here"

ל-CI, יש GitHub Action:

- uses: chernistry/bernstein-action@v1
  with:
    goal: "Fix all failing tests and update snapshots"
    budget: "5.00"

הכלי בשלבים מוקדמים, יש קצוות חדים. אם נתקלתם במשהו, פתחו issue. הבעיה המעניינת היא לגרום להרבה סוכנים לא לדרוך אחד על השני, לא להפוך סוכן אחד לחכם יותר.

GitHub תיעוד עמוד מוצר GitHub Action Product Hunt

Featured on

Footnotes

AutoGen נכנס למצב תחזוקה והוחלף ב-Microsoft Agent Framework (אפריל 2026). ↩