פענוח הקופסה השחורה: פריצת דרך מברקלי מזהה אינטראקציות בין נוירונים במודלי שפה גדולים
אחת התעלומות המרכזיות בעידן הבינה המלאכותית הגנרטיבית נותרה 'בעיית הקופסה השחורה'. מודלי שפה גדולים (LLMs) כמו GPT של OpenAI או Llama של Meta מציגים ביצועים מרשימים, אך הבנת האופן שבו מיליארדי הפרמטרים שלהם פועלים יחד ליצירת תשובה קוהרנטית נותרה אתגר מדעי עצום. חוקרים ממעבדת הבינה המלאכותית של ברקלי (BAIR) טוענים כעת כי פיצחו חלק משמעותי מהחידה, עם פיתוח מתודולוגיה חדשה בשם SPEx שמאפשרת לזהות אינטראקציות מורכבות בין נוירונים בקנה מידה חסר תקדים.
המחקר, המתבסס על שנים של עבודה בתחום הפירושיות של רשתות נוירונים (Interpretability), מתמודד עם ליבת הבעיה: בעוד שקל יחסית למפות נוירונים בודדים לתכונות סמנטיות פשוטות (כמו נוירון שמגיב למושג 'אפל'), הרבה יותר קשה לפענח כיצד קבוצות נוירונים פועלות בתיאום כדי לייצג מושגים מורכבים, הקשרים לוגיים או הליכי חשיבה. שיטות קודמות התקשו להתמודד עם המספר האסטרונומי של האינטראקציות האפשריות במודל של מאות מיליארדי פרמטרים.
החידוש של SPEx טמון בגישה החישובית החכמה. במקום לסרוק בכוח גס את כל הצירופים הבלתי אפשריים, האלגוריתם משתמש בטכניקות דגימה מתקדמות ובאנליזת ספקטרלית כדי למקד את החיפוש באינטראקציות הספציפיות שהכי תורמות להתנהגות המודל בפועל, בהינתן קלט מסוים. זה דומה למעבר מחיפוש מחט בערימת שחת באמצעות מגנט פשוט, לשימוש בגלאי מתכות מתוחכם שמכוון לאזור הסביר ביותר.
מבחינה טכנית, המתודולוגיה מגדירה 'אינטראקציה' כקבוצת נוירונים שההשפעה המשותפת שלהם על הפלט גדולה מסכום השפעת כל נוירון בנפרד – תופעה המכונה סינרגיה. החוקרים פיתחו מדד כמותי למדוד סינרגיה זו ולאחזר את קבוצות הנוירונים הסינרגטיות ביותר. הניסויים, שבוצעו על מודלים כמו GPT-2, חשפו מבנים מרתקים: קבוצות נוירונים שמייצגות לא רק עצמים (כמו 'מכונית'), אלא גם יחסים ('בתוך'), פעולות ('נוהג'), ואפילו מבנים תחביריים ולוגיים מורכבים יותר.
ההשלכות המעשיות של יכולת זו הן מרחיקות לכת. ראשית, בתחום הבטיחות וההתאמה (Alignment), זהו כלי קריטי לאיתור הטיות מסוכנות או דפוסי חשיבה עוינים החבויים ברשת. אם נוכל לזהות את קבוצות הנוירונים האחראיות על יצירת תוכן פוגעני, נוכל לנטר או לשנות אותן באופן ממוקד, ללא צורך באילוף מחדש יקר של כל המודל. שנית, בתחום הנדסת המודלים, הבנה כזו יכולה להוביל לפיתוח ארכיטקטורות יעילות וחסכוניות יותר באנרגיה, על ידי חיקוי המבנים הסינרגטיים שהטבעה האבולוציה של האימון.
יתרה מכך, המחקר פותח צוהר חדש להבנת ה'חשיבה' של ה-LLM. גילוי של אינטראקציות המייצגות כללי היסק או שלבים בדדוקציה לוגית מקרב אותנו לתשובה על השאלה האם מודלים אלו מפתחים באמת יכולות הבנה, או רק חקיינות סטטיסטית מתוחכמת. זהו צעד משמעותי לקראת יצירת מודלים שקופים יותר, שניתן לסמוך עליהם ביישומים קריטיים כמו רפואה או משפט.
עם זאת, החוקרים מברקלי מציינים כי זוהי תחילת הדרך. האתגר הבא הוא להרחיב את השיטה למודלים הגדולים והעדכניים ביותר, עם טריליוני פרמטרים, ולפתח ממשקים שיאפשרו לחוקרי התחום ולמהנדסים לדמיין ולעבוד עם האינטראקציות המזוהות. כמו כן, נדרשת עבודה כדי לקשר בין האינטראקציות הללו לשכבות ההסבר הגבוהות יותר של ההתנהגות.
במבט לעתיד, מתודולוגיות כמו SPEx עשויות להפוך לחלק סטנדרטי מצינור הפיתוח (Pipeline) של מודלי ענק. לפני פריסה של מודל, חברות יוכלו לסרוק אותו לאיתור אינטראקציות חריגות או מסוכנות. זה יכול להוביל לעידן חדש של 'בינה מלאכותית בת-בקרה', שבה אנו לא רק בודקים את הפלט הסופי, אלא גם מבינים ומפקחים על התהליכים הפנימיים שמובילים אליו. המחקר מברקלי אינו פותר את כל חידת הקופסה השחורה, אך הוא מספק את אחד המפתחות החשובים ביותר לפתיחתה עד היום.
מקור: Berkeley AI (BAIR)