מאמר מעמיק Academic

פריצת דרך בהנדסת מערכות: מחקר חדש מפצל את שלבי החישוב של מודלי שפה גדולים

20.04.2026 | מקור: Berkeley AI (BAIR) | MarkTechPost

במשך שנים, הארכיטקטורה של הסקת מסקנות (Inference) במודלי שפה גדולים (LLMs) כמו GPT ו-Claude הייתה כבולה למגבלות פיזיות נוקשות. הצורך בתקשורת רוחב פס גבוה במיוחד (High-Bandwidth RDMA) בין יחידות העיבוד אילץ את כל שלבי החישוב – הן שלב ה'מילוי המוקדם' (Prefill) והן שלב ה'פענוח' (Decode) – להתבצע בתוך אותו מרכז נתונים, ולעיתים אף באותו ארון שרתים. מגבלה זו יצרה צוואר בקבוק משמעותי בסילוק (Throughput) ובהוזלת עלויות ההפעלה של מודלים אלה בקנה מידה. כעת, מחקר חדש מציע לשבור את התיבה הזו ולפצל את העבודה בין מיקומים גיאוגרפיים שונים.

החידוש המרכזי במחקר, כפי שדווח בבלוג של Berkeley AI Research (BAIR), טמון בהבנה שהשלבים השונים בהסקת מסקנות מציבים דרישות חישוביות שונות לחלוטין. שלב ה-Prefill, שבו המודל מעבד את כל קלט המשתמש (הפרומפט) בבת אחת, הוא פעולה אינטנסיבית מאוד מבחינת כוח חישוב (Compute-Bound). לעומתו, שלב ה-Decode, שבו המודל מייצר את התשובה טוקן אחר טוקן, הוא פעולה אינטנסיבית מאוד מבחינת רוחב פס ותקשורת (Memory-Bound), בשל הצורך בגישה חוזרת ונשנית לזיכרון המודל.

הצוות החוקר, ככל הנראה ממונשוט AI, מציע ארכיטקטורה חדשה המנצלת את ההבדל הזה. לפי ההצעה, ניתן לבצע את שלב ה-Prefill האינטנסיבי בחוות שרתים ייעודית וחזקה, הממוקמת אולי באזור עם חשמל זול. את התוצאה המעובדת של שלב זה – מצב הסמוי (Hidden State) של המודל – ניתן לדחוס ולשלוח דרך האינטרנט הרגיל אל שרתי 'קצה' (Edge) הפזורים גיאוגרפית קרוב יותר למשתמשים. בשרתים אלה יתבצע רק שלב ה-Decode הקל יחסית.

לפרדיגמה זו, המכונה 'פיצול חישובי גיאוגרפי', יש השלכות מרחיקות לכת. ראשית, היא פותחת את האפשרות להשתמש בתשתיות חישוב הטרוגניות. ניתן להקצות שבבים יקרים ומיוחדים (כמו TPUs או GPUs מהדור האחרון) אך במספר מוגבל, רק לשלב ה-Prefill המאומץ. עבור שלבי ה-Decode הרבים המתרחשים במקביל, אפשר להשתמש בחומרה זולה וזמינה יותר בפריפריה. שנית, היא מפחיתה באופן דרמטי את צורכי רוחב הפס ברשת הליבה, מה שיכול להוביל לחיסכון עצום בעלויות התקשורת עבור ספקי שירותי הענן.

מבחינה טכנית, האתגר הגדול היה דחיסה והעברה יעילה של מצב המודל בין השרתים מבלי לפגוע בדייקנות. המחקר מציע אלגוריתמים חדשים לדחיסת ה-Hidden State, אשר שומרים על האינפורמציה הקריטית הדרושה ליצירת תשובה מדויקת בהמשך. גישה זו שונה מהותית מניסיונות קודמים להפעיל מודלים מבוזרים, שהתמקדו לרוב בפיצול שכבות המודל עצמו (Model Parallelism) – גישה הרגישה מאוד לעיכובים ברשת (Latency).

ההשלכות המעשיות עבור תעשיית ה-AI הן עצומות. חברות המספקות API למודלי שפה, כמו OpenAI או Anthropic, יוכלו אולי להוזיל משמעותית את עלויות ההפעלה שלהן ולהציע מחירים תחרותיים יותר. עבור ארגונים גדולים המפעילים מודלים פרטיים, זה יכול לאפשר פריסה רחבה יותר של שירותים מבוססי AI עם חוויית זמן תגובה (Latency) טובה יותר למשתמשי קצה ברחבי העולם.

עם זאת, האתגרים לא נעלמים. שאלות בנושאי אבטחה – העברת מצב פנימי של מודל בין מרכזי נתונים – ומורכבות ניהולית של מערכת מבוזרת כל כך, דורשות מענה. יתר על כן, הפרדיגמה מתאימה במיוחד למשימות דיאלוג ארוכות (Chat), אך עשויה להיות פחות יעילה עבור משימות קצרות מאוד שבהן תקורת התקשורת עלולה לגבור על היתרון.

לסיכום, המחקר מסמן מגמה רחבה יותר בהנדסת מערכות AI: מעבר מאופטימיזציה של האלגוריתם הבודד לאופטימיזציה של המערכת האקולוגית החישובית כולה. במקום לחכות רק לקפיצות מדעיות במודלים עצמם, חוקרים ומהנדסים מחפשים כעת קפיצות מדרגה בארכיטקטורת ההפעלה. אם תאומץ, גישה זו לא רק תהפוך את ה-LLMs הקיימים לחסכוניים ונגישים יותר, אלא עשויה גם לעצב את עיצוב החומרה והתשתית העננית של הדור הבא של הבינה המלאכותית.

מקור: Berkeley AI Research (BAIR) Blog, MarkTechPost

מקורות: Berkeley AI (BAIR) | MarkTechPost

צוות BDNHOST