AGI אינו מולטימודלי: למה מודלי שפה גדולים לבדם לא יובילו אותנו לתבונה מלאכותית כללית
ההישגים המרשימים של מודלי בינה מלאכותית (AI) גנרטיביים, כמו GPT-4 ו-Claude, הובילו רבים לטעון שתבונה מלאכותית כללית (AGI) נמצאת ממש מעבר לפינה. אבל האם מודל שפה גדול (LLM) שיודע לענות על שאלות ולכתוב קוד באמת מגלם את מהות התבונה? ב-The Gradient טוענים כי ההשוואה בין שפה לחשיבה היא שגויה מיסודה. כפי שניסח זאת חלוץ ה-AI טרי וינוגרד: "בהקרנה של השפה כמודל המחשבה, אנו מאבדים את ההבנה הגופנית השקטה (tacit embodied understanding) העומדת בבסיס האינטליגנציה האנושית".
הטענה המרכזית היא שה-AI הנוכחי, למרות יכולותיו הלשוניות המרשימות, חסר את היכולת להבין את העולם דרך חוויה רב-חושית, תנועה וקונטקסט פיזי. בני אדם לומדים על העולם לא רק דרך מילים, אלא דרך מגע, ראייה, שמיעה, פעולה ואינטראקציה. כל אלה יוצרים "הבנה מגולמת" (embodied understanding) שאינה ניתנת לשכפול על ידי מניפולציה סטטיסטית של סימנים לשוניים. AGI אמיתי ידרוש מערכת רב-מודלית (multimodal) באמת, שמשלבת ראייה ממוחשבת, רובוטיקה, למידה על תחום (embodied AI) וזיכרון ארוך טווח.
משמעות הדבר היא שמרוץ ה-AI הנוכחי, המתמקד בהגדלת מודלי שפה (LLMs), עלול להטעות. כמו שבני אדם לא הופכים חכמים יותר רק על ידי קריאת עוד טקסטים, כך מודלי שפה עשויים להיתקע על רמת ביצועים שאינה דומה לתבונה אנושית. כדי להגיע ל-AGI, על התעשייה לעבור מפרדיגמת "שפה כחשיבה" לפרדיגמה של "פעולה והבנה פיזית". אנו צפויים לראות יותר השקעות ברובוטיקה, במערכות חישה ובסימולציות עולם פיזי.
המסקנה לעוסקים בתחום: אל תתנו לזוהר השפה להסיח את דעתכם. AGI אמיתי ידרוש גישה הוליסטית ומולטי-מודלית (multimodal) הרבה יותר. החברות שיבינו זאת מוקדם - אלה שישקיעו בשילוב של AI עם פיזיקה ורובוטיקה - יהיו אלו שיובילו את העשור הבא.
מקור: The Gradient