AGI אינה מולטי-מודלית: למה שפה לבדה לא תספיק
ההצלחות המרשימות של מודלי בינה מלאכותית גנרטיבית (Generative AI), ובמיוחד מודלי שפה גדולים (LLMs), הובילו רבים להאמין כי בינה מלאכותית כללית (AGI – Artificial General Intelligence) קרובה מתמיד. אולם, כפי שמציינת הסופרת טרי וינוגרד, 'בהשלכת השפה חזרה כמודל לחשיבה, אנו מאבדים את ההבנה הגופנית השקטה (tacit embodied understanding) שמתחת לאינטליגנציה שלנו.' טענה זו מדגישה את הפער הבסיסי בין מודלים סטטיסטיים לבין אינטליגנציה אנושית אמיתית. המודלים הללו, אף שהם יוצרים טקסט מרשים, אינם מבינים עולם אמיתי, מגע, או הקשר פיזי – מרכיבים חיוניים לאינטליגנציה כללית.
המגמה הנוכחית מתמקדת ב'אימון רב-מודלי' (Multimodal Training), כלומר שילוב טקסט, תמונה, קול ווידאו באותו מודל. למרות שזה משפר את הביצועים, זה עדיין רחוק מלהוות AGI. אינטליגנציה אנושית אינה רק אוסף של מודאליויות; היא מבוססת על גוף (embodiment), אינטראקציה פיזית עם הסביבה, רגשות ולמידה דרך ניסיון – דברים שמודלי AI לא מסוגלים לשכפל כראוי. רוב המודלים הקיימים, כמו GPT-4, מעובדים על הרקורד סטטיסטי של שפה, ומנבאים את המילה הבאה, אך אינם באמת מבינים את המצב או פותרים בעיות מורכבות הדורשות הכרה גופנית.
מבחינה תעשייתית, יש לכך השלכות מרחיקות לכת. חברות טכנולוגיה משקיעות מיליארדי דולרים בארכיטקטורות 'AGI-ready', אך לדעת המומחים, ייתכן שאנו מחמיצים את נקודת המפנה החשובה: AGI דורשת לא רק מידע טקסטואלי, אלא מודל הפועל בעולם פיזי, כמו רובוטיקת למידה (Robotic Learning). הפתרון עשוי להיות שילוב של AI עם מערכות פיזיות ויצירת אינטליגנציה מגולמת (embodied intelligence) – כזו שלומדת דרך ניסיון ומשוב ממשי, לא רק דרך מילים.
לסיכום, למרות הקסם שבדגמי שפה גדולים, AGI אמיתית לא תגיע רק משדרוג ארכיטקטורת טקסט. ההבנה המגולמת (tacit embodied knowledge) שפיתחו בני האדם דרך אבולוציה ותרבות אינה ניתנת לשחזור על ידי משפטי תדר סטטיסטי. אנו צריכים להגדיר מחדש את מטרתנו – לא רק 'שפה חכמה' אלא 'אינטליגנציה ממשית'.