top of page
חיפוש

מה זה Mixture of Experts? ולמה Llama 4 הוא הדוגמה המושלמת להסביר את זה

  • תמונת הסופר/ת: Avi Zukarel
    Avi Zukarel
  • 7 באפר׳
  • זמן קריאה 3 דקות

הגרסה החדשה של מודל הבינה המלאכותית מבית Meta, שנקראת Llama 4, אולי לא שוברת את חוקי המשחק – אבל היא בהחלט עוזרת ליותר אנשים להבין אותם.

עם ההשקה הזו, מצטרפת Meta לחברות כמו Google ו-OpenAI שכבר אימצו את ארכיטקטורת Mixture of Experts / MoE – גישה מתקדמת לבניית מודלים גדולים וחכמים יותר. הרעיון עצמו אולי לא חדש, אבל Llama 4 מציעה הצצה פתוחה וברורה לאיך זה עובד באמת, ונותנת לנו את ההזדמנות הזו להסביר את המושג בצורה פשוטה, נגישה ומובנת.

אז מה זה בעצם MoE? למה זה חשוב? ומה הופך את Llama 4 לשונה מהגרסאות הקודמות? בואו נצלול פנימה.


A glowing llama silhouette with radiant beams emerges from a pool in a desert oasis, flanked by palm trees, evoking a mystical aura.

מה זה Mixture of Experts?

אפשר לחשוב על MoE כמערכת חלוקת משימות חכמה בתוך מודל של בינה מלאכותית. במקום להפעיל את כל המוח של המודל בכל פעם שהוא מקבל שאלה, הוא מפעיל רק חלק קטן – כמה "מומחים" רלוונטיים – מה שהופך אותו למהיר ויעיל יותר.

דמיינו את זה ככה:

תחשבו על Llama 4 כצוות של מומחים:

  • מומחה אחד מבין בשיווק

  • אחר מתמחה בקוד וכתיבה בפייתון

  • מישהי אחרת מצוינת בכתיבה יצירתית

  • ויש גם מומחה להיסטוריה או לפיזיקה

כשאתם שואלים את Llama 4 שאלה – למשל: "הסבר את חוקי ניוטון בקוד פייתון" – הוא לא מפעיל את כל הצוות. במקום זה, ה-gating network (מערכת מיון חכמה) בוחרת את המומחים המתאימים ביותר לביצוע המשימה.

התוצאה? תשובות מהירות, מדויקות – ועם הרבה פחות עומס חישובי.


איך נוצרים המומחים האלה?

והנה ההפתעה: המפתחים לא מגדירים מראש מי יתמחה במה.

במקום זה:

  • כל המומחים מתחילים כ"עמוד חלק" (randomly initialized)

  • במהלך האימון, ה-gating network מחליטה איזה מומחה יטפל בכל מילה או משפט

  • עם הזמן, כל מומחה "מבין לבד" במה הוא טוב – ממש כמו עובדים בצוות שמגלים לבד את תחומי החוזקה שלהם

זה בדיוק מה שהופך את MoE לכל כך גמיש ועוצמתי.


מה עושה ה-Gating Network?

ה-gating network היא המחליטה. דמיינו אותה כמו קבלה בבית חולים:

  • מגיע מטופל (input)

  • הפקיד בודק במה מדובר, ומפנה לרופא המתאים (המומחה)

  • רק אותו רופא (או שניים) מטפלים במקרה

מבחינה טכנית:

  • שכבת הגייטינג נותנת ציון לכל מומחה בהתאם לקלט

  • היא בוחרת את ה-top-k מומחים (בדרך כלל 1 או 2)

  • רק הם מופעלים, והתוצאה המשולבת נשלחת הלאה

יש גם מנגנון שנקרא load balancing שמוודא שכל המומחים יקבלו עבודה – כדי שלא רק מומחה אחד יעבוד וכל השאר יישארו מובטלים


Smiling person wearing sunglasses, colorful background with text "YES!" and "EASY-TO-USE VIDEO MAKER," set against a blue sky.
Ad

איך המומחים מתמחים?

דוגמה:

  • טקסט כמו def function() מפעיל שוב ושוב את Expert 3 → עם הזמן הוא נהיה מומחה לקוד

  • טקסט כמו "Napoleon invaded..." מפעיל את Expert 7 → הוא לומד היסטוריה

גם אם לא הגדירו את המומחים מראש – הם מתפתחים לבד, לפי הדפוסים שהמודל קולט לאורך מיליארדי טוקנים.


מה Llama 4 מוסיפה לשיחה על MoE?

אמנם MoE קיים כבר במודלים כמו GShard ו-PaLM של Google, וגם כנראה ב-GPT-4, אבל Meta מביאה את הגישה הזו לעולם הקוד הפתוח עם שדרוגים משמעותיים:

  • תמיכה מולטימודלית (Multimodal) מובנית: מבינה טקסט, תמונות ווידאו

  • חלון הקשר עצום: עד 10 מיליון טוקנים בגרסת Llama 4 Scout

  • ניהול חכם של מומחים דרך MoE

  • גישה פתוחה לציבור תחת רישיון קוד פתוח של Meta

אתם יכולים לחשוב על  GPT-4o כמו iPhone – יציב ומתקדם אבל בסביבה סגורה בעוד ש Llama 4 הוא כמו Android: גמיש, פתוח ומזמין חדשנות.


השוואה: Llama 3 מול Llama 4

פיצ'ר

Llama 3

Llama 4 (Maverick & Scout)

ארכיטקטורה

Transformer סטנדרטי

Mixture of Experts (MoE)

תמיכה מולטימודלית

טקסט בלבד

טקסט, תמונות ווידאו

חלון הקשר

עד 128,000 טוקנים

עד 10 מיליון טוקנים

שימוש במומחים

כל הפרמטרים פעילים

רק המומחים הרלוונטיים מופעלים

התמחות

כללי

התמחות אוטומטית לפי אימון

קוד פתוח

פתוח חלקית

פתוח לחלוטין וזמין למפתחים

לסיכום

כאמור Llama 4 לא המציאה את MoE – אבל היא עוזרת להבין אותו טוב יותר.

באמצעות פתיחת המודל לקהילה, בשילוב יכולות מולטימודל חזקות וניהול מומחים חכם, Meta מאפשרת לקהילת ה-AI להיכנס לעומק, ללמוד, ולפתח כלים מתקדמים – עם פחות מגבלות, יותר שליטה, וחשיפה לטכנולוגיה שמעצבת את העתיד.


למפתחים, חוקרים או סקרנים: אם רציתם להבין איך מודלים כאלה עובדים "מתחת למכסה המנוע" – Llama 4 היא בדיוק הדוגמה ללמוד ממנה.




 
 
 

Comments


bottom of page