פוסט Academic

AGI אינו מולטי-מודאלי: מדוע מודלי שפה לבדם לא יובילו לתבונה מלאכותית כללית

05.05.2026 | מקור: The Gradient

ההצלחות המסחררות של מודלי בינה מלאכותית גנרטיבית (Generative AI) בשנה האחרונה הובילו רבים להכריז שתבונה מלאכותית כללית (AGI) ממש מעבר לפינה. מודלי שפה גדולים (LLMs) כמו GPT-4 ו-Claude מציגים יכולות מרשימות של כתיבה, תרגום וניתוח, והם גורמים לחלק מהחוקרים לטעון שאנחנו עדים ללידתה של אינטליגנציה דמוית-אדם. אולם, מבט מעמיק מגלה תמונה מורכבת יותר: מודלים אלה, מבריקים ככל שיהיו, חסרים מרכיב יסודי של חוכמה אנושית — הבנה חווייתית, גופנית ומצבית (Situated Embodied Understanding) שאינה ניתנת לכידול באמצעות מילים בלבד.

הפילוסוף טרי וינוגרד (Terry Winograd), מי שהיה מהראשונים לפתח מערכות דיאלוג חכמות, הזהיר כבר בשנות ה-70: 'בהקרנה של שפה חזרה כמודל לחשיבה, אנחנו מאבדים את ההבנה הטאסיטית, המגולמת, שעומדת בבסיס האינטליגנציה האנושית'. מודלי שפה מודרניים, למרות גודלם ומורכבותם, פועלים על תיאום סטטיסטי של טוקנים (Tokens) בתוך קורפוס טקסטואלי ענק. הם לא חווים את העולם, לא מרגישים מגע, לא חשים איזון, ולא מפנימים קשרי סיבה-תוצאה פיזיים — מה שהחוקר דייוויד מאר (David Marr) כינה 'ייצוג מפורש של ידע תפעולי'.

המגבלה המהותית הזו הופכת את מודלי השפה לכלים מרשימים אך מוגבלים. למשל, ילד המבין את המילה 'כדור' יודע לא רק את ההגדרה המילונית שלו, אלא גם איך הוא מרגיש, איך הוא מקפץ, ואיך אפשר לזרוק אותו. מודלי שפה, לעומת זאת, ישלימו משפטים על כדור בצורה נכונה, אך לא יבינו את ההשלכות הפיזיות של תכונותיו. זהו הפער בין 'יודע את המילים' לבין 'יודע את העולם'. לכן, AGI אמיתי יידרש לשילוב של מודליות מרובות (Multimodal Integration) — ראייה, מגע, קול, תנועה — בצורה אינטגרטיבית (Holistic) ולא קומבינטורית.

ההשלכות על התעשייה ברורות: לא די בהקטנת מודלי שפה או בהגדלת קורפוס הנתונים. פריצת הדרך ל-AGI תחייב ארכיטקטורות חדשות המשלבות למידה חווייתית (Experiential Learning) — מנגנונים המדמים חישה ופעולה בעולם, כמו למידת חיזוק עמוקה (Deep Reinforcement Learning) בסביבות מדומות (Simulated Environments) או מערכות רובוטיות אמיתיות. עבור חברות ומשקיעים, המסר הוא שה'קפיצה' ל-AGI אינה טכנולוגית טהורה של LLM, אלא פילוסופית-קוגניטיבית, וכוללת את ה'גלגול' של הידע.

לסיכום, בעוד מודלי שפה מעוררי השראה, הם רחוקים מלשקף את מלוא העושר של התבונה האנושית. AGI, במובן האמיתי, לא יהיה מולטי-מודאלי במובן של שילוב טקסט + תמונה — אלא גוף-מחשבה (Sentient Embodiment) שמפנים ידע דרך חוויה פיזית. עד שנבין את ההבדל המהותי הזה, אנו עלולים לבזבז משאבים במעקב אחרי קסם טקסטואלי, במקום לחפש את האינטליגנציה האמיתית שמתעלה על מילים.

מקורות: The Gradient

צוות BDNHOST