פוסט Academic

AGI אינו מולטימודלי: למה שפה לבדה לא תספיק לבינה כללית

05.05.2026 | מקור: The Gradient

ההצלחות המרשימות של מודלי בינה מלאכותית (AI) גנרטיבית, ובמיוחד מודלי שפה גדולים (LLM) כמו GPT, שכנעו רבים שאנחנו על סף בינה מלאכותית כללית (AGI). אך האם באמת שפה מספיקה? טרי וינוגרד, חלוץ הבינה המלאכותית, הזכיר באמרתו המפורסמת כי "בהשלכת השפה חזרה כמודל לחשיבה, אנו מאבדים את ההבנה המגולמת השקטה העומדת בבסיס האינטליגנציה שלנו". במילים אחרות, AGI אמיתי לא יכול להסתמך רק על טקסט – הוא חייב להכיל הבנה מולטימודלית (Multimodal) עמוקה הכוללת חישה, תנועה ואינטראקציה פיזית עם העולם.

הבעיה המרכזית של מודלי שפה כיום היא שהם פועלים אך ורק על סמלים מופשטים (Abstract Symbols) – מילים שמייצגות מציאות, אך אינן מחוברות לחוויה האמיתית. ילד לומד מהו תפוח לא רק ממילים, אלא מנגיעה, ריח, טעם, מרקם ומראה. לעומתו, מודל AI כמו ChatGPT יודע להגדיר תפוח בצורה מילולית, אך אין לו שום חוויה חושית (Sensory Experience) או מודל של העולם הפיזי. זה מה שמכונה "בעיית הסימבול הקרקע" (Symbol Grounding Problem) – איך מילים מקבלות משמעות בעולם האמיתי בלי חיבור לחושים.

המשמעות המעשית לחברות טכנולוגיה ויזמים ברורה: האם אנחנו באמת מתקרבים ל-AGI, או שאנחנו בונים "תוכים סטטיסטיים" מתוחכמים? האנלוגיה המוכרת היא של מודל AI שמצטיין בלימוד שפות, אך חסר "שכל יישומי" (Common Sense). לדוגמה, מודל יוכל לכתוב מתכון מושלם לעוגה, אך לא יבין למה קמח נופל על הרצפה או מה קורה כשמפילים ביצה. AGI אמיתי ידרוש יכולות מולטימודליות מלאות (Full Multimodal Capabilities) – לא רק קריאה וכתיבה, אלא ראייה, שמיעה, מגע ותנועה במרחב.

השאלה שנותרת פתוחה: האם אנחנו בדרך למכונה שתבין את העולם כמו אדם, או שאנחנו סתם משפרים מודל חיזוי מילים? המסקנה של התחום היא ש-AGI דורש לא רק מוח טקסטואלי, אלא גם גוף ויכולת חישה – מסקנה שמאתגרת את התפיסה הנוכחית של חברות ה-AI המובילות.

מקורות: The Gradient

צוות BDNHOST