AGI איננו מולטי-מודלי: למה שפה לבדה לא תספיק
ההצלחות המרשימות של מודלי בינה מלאכותית גנרטיבית (Generative AI) שכנעו רבים כי הגעה לבינה מלאכותית כללית (AGI) היא עניין של זמן. אולם, הציטוט של טרי וינוגרד (Terry Winograd) מעלה שאלה קריטית: האם המודל הלשוני שמאחורי ChatGPT (מודל שפה גדול, LLM) באמת לוכד את מהות התבונה האנושית? וינוגרד מזהיר כי השלכת השפה כתבנית למחשבה עלולה לעוור אותנו מהבנה מגולמת (embodied understanding) – הידע השקט שמקורו באינטראקציה פיזית עם העולם, כמו להבין שאבן כבדה יותר מנוצה מבלי להגדיר זאת במילים.
ההבנה המגולמת הזו, שמתפתחת דרך חוויה פיזית ומגע מוחשי, היא לב ליבה של אינטליגנציה אנושית – ואינה ניתנת להעתקה על ידי אימון טקסטואלי בלבד. מודלים מולטי-מודליים (Multimodal Models) שמשלבים טקסט, תמונה ווידאו אמנם מתקרבים, אך הם עדיין מתבססים על ייצוגים מופשטים, ולא על חישה אמיתית (true sensory experience). ללא יכולת לגעת, להריח או לחוש במשוב פיזי (physical feedback), מודלים אלה נשארים 'מחשבות ללא גוף'.
מחקרים עדכניים מ-The Gradient מראים כי האופן שבו בני אדם מבינים מושגים כמו 'כבדות' או 'חמימות' מערב אזורים מוחיים הקשורים לתנועה ולחישה – תהליך שאין לו מקבילה בעיבוד המידע הסטטיסטי של למידה עמוקה (Deep Learning). לכן, AGI אמיתית תדרוש לא רק הקבלה לטקסט, אלא ארכיטקטורה חדשה שתשלב למידה חווייתית (experiential learning) וקישוריות פיזית (physical embodiment), כמו רובוטים עם חיישנים, כדי לייצר הבנה טבעית.
ההשלכה המעשית ברורה: בעוד שמודלי LLM (מודלי שפה גדול) הם כלים פנומנליים לעיבוד שפה ויצירת תוכן, הם אינם דרך ישירה ל-AGI. משקיעים ומפתחים חייבים להכיר במגבלות הגישה הלשונית-בלבדית, ולהתמקד במחקר רב-תחומי (multidisciplinary research) שמחבר בין רובוטיקה, מדעי המוח והנדסת מערכות (systems engineering). רק אז נוכל להתקרב לאינטליגנציה אמיתית – כזו שמבינה את העולם לא רק דרך מילים, אלא דרך מגע, תנועה וניסיון.