פריצת דרך בחישוב מבוזר: מחקר חדש משחרר את מודלי השפה מהמגבלות הפיזיות
במשך שנים, הארכיטקטורה של הפעלת מודלי שפה גדולים (LLMs) כמו GPT ו-Claude הייתה לכודה בתוך קופסה פיזית מגבילה. הצורך בתקשורת נתונים מהירה במיוחד (RDMA) בין רכיבי החומרה אילץ את כל שלבי ההסקה – הן שלב ה'פרפייל' (Prefill) שבו המודל מעבד את השאלה, והן שלב ה'דיקוד' (Decode) שבו הוא מייצר את התשובה המילה-במילה – להתבצע באותו מרכז נתונים, ולעיתים קרובות באותו ארון שרתים. מגבלה זו יצרה צוואר בקבוק קריטי, הגבילה את יכולת ההרחבה והעלתה את עלויות התפעול באופן דרמטי. כעת, צוות חוקרים מ-Moonshot AI, בשיתוף עם מעבדת המחקר לבינה מלאכותית של אוניברסיטת קליפורניה בברקלי (BAIR), מציעים פתרון רדיקלי שמשנה את כללי המשחק: מערכת בשם SPEX שמפצלת את שני השלבים הללו ומריצה אותם על תשתיות נפרדות לחלוטין.
החידוש הטכני של SPEX אינו רק בשיפור הביצועים, אלא בשינוי הפרדיגמה. המערכת מבינה ששני השלבים הללו דורשים משאבים שונים בתכלית. שלב הפרפייל, העיבוד הראשוני של הקלט, הוא פעולה אינטנסיבית מבחינת כוח חישוב (Compute-Bound) הדורשת מעבדים גרפיים (GPUs) חזקים. לעומתו, שלב הדיקוד, יצירת התגובה הטוקן אחר טוקן, הוא פעולה אינטנסיבית מבחינת רוחב פס זיכרון (Memory-Bound), הרגישה הרבה יותר לעיכובים בתקשורת. SPEX מנצלת הבחנה זו על ידי בידודם: שרתי 'מפרט' חזקים מבצעים את עיבוד הקלט המקדים, ושולחים את המצב הפנימי המעובד ('ספק') לשרתי 'דיקוד' ייעודיים וחסכוניים יותר, שיכולים להיות ממוקמים פיזית במקום אחר.
האתגר הגדול ביותר בארכיטקטורה מבוזרת כזו הוא העיכוב (Latency). העברת כמויות הנתונים העצומות של מצב המודל הפנימי על פני רשת, אפילו מהירה, עלולה להפוך את כל התהליך ללא מעשי. כאן נכנסת לפעולה הליבה החדשנית של SPEX: אלגוריתם דחיסה והעברה חכם במיוחד. במקום לשלוח את כל מטריצת הקשב (Attention) או הפרמטרים המלאים, המערכת מזהה ומעבירה רק את ה'אינטראקציות' הקריטיות – אותם חלקים מהמידע הפנימי שהכי רלוונטיים ליצירת התגובה הבאה. גישה זו מפחיתה את נפח הנתונים שצריך להעביר בכמה סדרי גודל, ומאפשרת ביצועים תחרותיים גם על גבי רשתות WAN סטנדרטיות בין מרכזי נתונים.
לפריצת דרך זו יש השלכות מעשיות מרחיקות לכת על ענף ה-AI. ראשית, היא פותחת את הדלת למודלים גדולים יותר מאי פעם. חברות לא יצטרכו עוד לצבור את כל כוח העיבוד הדרוש למודל ענק במקום אחד; הן יוכלו להשתמש בשרתי פרפייל מרכזיים ואיכותיים, ולהקצות משימות דיקוד לשרתים זולים יותר הפזורים גיאוגרפית, קרוב יותר למשתמשי הקצה. זהו שינוי כלכלי דרמטי. שנית, היא מאפשרת גמישות תפעולית חסרת תקדים. ניתן להקצות משאבי דיקוד באופן דינמי לפי עומס, לשדרג רכיבים בנפרד, ולבצע תחזוקה ללא השבתת השירות כולו.
מבחינה אקולוגית, ל-SPEX פוטנציאל להפחית משמעותית את טביעת הרגל הפחמנית של ה-AI. במקום להפעיל שרתי GPU יקרים ואנרגטיים במלוא העומס 24/7, ניתן להפעילם בעומס גבוה רק לשלב הפרפייל הקצר, בעוד ששלב הדיקוד הארוך יותר רץ על חומרה חסכונית יותר. יתרון נוסף הוא ביצועים. על ידי מיקום שרתי דיקוד בקצוות הרשת (Edge), קרוב יותר למשתמשים, ניתן להפחית את השיהוי (Latency) הסופי שחווה המשתמש, מה שישפר את חוויית השיחה עם הצ'אטבוטים והעוזרים הווירטואליים.
המחקר ממחיש מגמה רחבה יותר בתעשייה: המעבר מ'Scale-Up' ל'Scale-Out'. אם עד היום האבולוציה של ה-LLMs התמקדה בהגדלת מספר הפרמטרים בתוך מכונה אחת (Scale-Up), העתיד טמון בפיזור העומס על פני רשת של מכונות מתמחות (Scale-Out). SPEX היא צעד מכריע בכיוון זה. היא אינה רק אופטימיזציה, אלא הוכחת היתכנות לכך שארכיטקטורת החישוב הבסיסית של העשור האחרון בתחום ה-LLMs ניתנת לפירוק ולשיפוץ מחדש.
עם זאת, האתגרים עדיין ניצבים בפני הטכנולוגיה. אבטחת נתונים המועברים בין מרכזים, ניהול רשת מורכב של שרתים, והבטחת עקביות (Consistency) מוחלטת בתגובות – כל אלו דורשים פיתוחים נוספים. המחקר הנוכחי מתמקד בהיתכנות וביצועים, אך המעבר לסביבת ייצור תעשייתית יצריך כלים ואקוסיסטם תומך.
לסיכום, SPEX אינה עוד שיפור אינקרמנטלי בביצועי GPU; היא הצעה לארכיטקטורת חישוב חדשה עבור עידן ה-AI בקנה מידה. היא משחררת את מודלי השפה הגדולים מכבלי החומרה ומאפשרת עתיד שבו יכולות הבינה המלאכותית המתקדמות ביותר יהיו נגישות, יעילות וחסכוניות יותר מאי פעם. עבור חברות כמו BDNHOST המתמחות בתשתיות ענן מתקדמות, מחקרים מסוג זה מסמנים את הכיוונים שבהם יש להשקיע ולפתח את התשתיות של המחר – תשתיות שיתמכו לא במערכות מונוליטיות, אלא ברשתות מבוזרות, חכמות וגמישות של אינטליגנציה מלאכותית.
מקור: Berkeley AI (BAIR), MarkTechPost
צוות BDNHOST