פריצת דרך בחישוב מבוזר: מחקר חדש מאפשר הרצת מודלי שפה גדולים על פני מרחקים גיאוגרפיים
עשרות שנים, ארכיטקטורת החישוב של מודלי שפה גדולים (LLMs) הייתה כלואה בתיבה פיזית אחת. הדרישה לתקשורת נתונים מהירה במיוחד (High-Bandwidth RDMA) בין אלפי יחידות עיבוד גרפי (GPUs) הגבילה את שלבי ה'פרפייל' (Prefill – עיבוד השאילתה) וה'דיקוד' (Decode – יצירת התגובה) לאותו מרכז נתונים, ולעיתים לאותו ארון שרתים. מגבלה זו יצרה צוואר בקבוק לוגיסטי וכלכלי, וחייבה חברות לצבור משאבי חישוב יקרים במקום אחד. כעת, חוקרים מ-Moonshot AI, בשיתוף חוקרים מאוניברסיטת קרנגי מלון, מפרסמים מחקר פורץ דרך בבלוג המכון לבינה מלאכותית של ברקלי (BAIR), המציג את 'ספקס' (Spex) – פרוטוקול חדש שמאפשר פיצול גיאוגרפי של שלבי ההסקה, ומבטיח לשנות את כללי המשחק.
המחקר מתמודד עם אתגר יסודי: כיצד לבצע את שלב הדיקוד, התהליך האיטי והרקורסיבי של יצירת טקסט טוקן אחר טוקן, רחוק ממקור כוח החישוב המרכזי? הפתרון הקונבנציונלי, שליחת כל טוקן ביניים חזרה לשרת המרכזי לאימות, היה יוצר השהיות בלתי אפשריות. 'ספקס' פותר זאת באמצעות פרוטוקול קריפטוגרפי מתוחכם המבוסס על התחייבויות פולינומיות (Polynomial Commitments). במקום לשלוח את הטוקן עצמו, צומת ה'דיקוד' המרוחק שולח הוכחה מתמטית קומפקטית וניתנת לאימות במהירות – הוכחה לכך שהטוקן שנוצר הוא אכן התוצאה החוקית הבאה ברצף, בהתבסס על המודל ועל הרצף הקודם.
טכניקה זו מפחיתה את נפח התעבורה הנדרש בין האתרים בכמה סדרי גודל, והופכת את השהייה הנגרמת מהמרחק הגיאוגרפי לבת-קיימא. במבחנים, המערכת הדגימה ביצועים טובים גם עם השהייה של 200 מילישניות בין האתרים – השווה לעיכוב בתקשורת בין חופים שונים של אוקיינוס. זו קפיצת מדרגה טכנולוגית שמשחררת את ה-LLM מכבלי המיקום הפיזי.
ההשלכות המעשיות של פריצת דרך זו הן מרחיקות לכת. ראשית, היא פותחת את הדלת למודל עסקי חדש של 'חישוב קצה' (Edge Computing) עבור בינה מלאכותית. חברות יוכלו להחזיק את ליבת המודל העוצמתית והיקרה במרכז נתונים מותאם באזור עם חשמל זול, תוך שהשלב הסופי של יצירת התגובה למשתמש מתבצע בשרתים קרובים גיאוגרפית למשתמש הקצה. זה מבטיח זמן תגובה מהיר (לטנסי) למשתמש לצד חיסכון אדיר בעלויות התשתית.
שנית, הטכנולוגיה יכולה לשמש ליצירת רשתות גלובליות חכמות יותר של שרתי AI. ניתן יהיה לאזן עומסים בין מרכזי נתונים ברחבי העולם בצורה דינמית, להפנות בקשות למיקום עם המשאבים הפנויים ביותר, ואפילו ליצור יתירות (Redundancy) ואמינות גבוהה יותר על ידי פיזור היכולת החישובית.
מבחינה טכנית, העבודה נשענת על התקדמיות אחרונות בתחום ההוכחות הקריפטוגרפיות מסוג 'אפס ידיעה' (Zero-Knowledge Proofs) והוכחות ניתנות לאימות במהירות (SNARKs/STARKs), אך מותאמת במיוחד למאפייני העבודה של טרנספורמרים. החוקרים הצליחו לייעל את התהליך כך שעלות החישוב של יצירת ההוכחה בצומת הקצה תהיה מינימלית, ותשאיר מספיק כוח עיבוד למשימה העיקרית של חיזוי הטוקן הבא.
המחקר מציב גם אבן דרך תיאורטית בהבנתנו את ארכיטקטורת החישוב של AI. הוא מראה כי ניתן 'לפצל' את המצב הפנימי (State) של מודל ענק ולהפיץ אותו בצורה מאובטחת, מבלי לפגוע בשלמותו או בסודיות המודל עצמו. עיקרון זה יכול להשפיע על תחומים נוספים כמו אימון מבוזר (Federated Learning) של מודלים גדולים.
לצד ההזדמנויות, עולות גם שאלות חדשות. אבטחת הפרוטוקול הקריפטוגרפי תצטרך לעבור בחינות קפדניות, ומודלים של תמחור ושיתוף משאבים בין ספקי ענן שונים יצטרכו להתפתח. עם זאת, הכיוון ברור: העתיד של הסקת מסקנות ב-LLMs הוא מבוזר, גמיש ויעיל יותר.
המחקר, שפורסם בבלוג BAIR וקיבל הד נרחב בפרסומים טכנולוגיים כמו MarkTechPost, אינו רק שיפור הנדסי. הוא מסמן שינוי פרדיגמה בתפיסה של מקום החישוב בעידן הבינה המלאכותית. אם עד היום השאלה הייתה 'כמה כוח חישוב לצבור במקום אחד', השאלה החדשה תהיה 'כיצד לחלק ולפזר את הכוח הזה בצורה האופטימלית על פני הגלובוס'. 'ספקס' מספקת את הכלי הטכני הראשון שיכול להפוך שאלה תאורטית זו למציאות אופרטיבית, ופותחת פרק חדש בתחרות על תשתית ה-AI העולמית.