AGI אינו מולטימודלי: למה ההבנה האנושית עמוקה יותר מהדמיון הלשוני
ההצלחות המרשימות של מודלים גנרטיביים (Generative AI) בשנים האחרונות הביאו רבים להאמין כי בינה מלאכותית כללית (AGI) קרובה מתמיד. מודלי שפה גדולים (LLMs) כמו GPT ו-Claude מייצרים טקסט זורם ומשכנע, אך האם זהו באמת סימן לאינטליגנציה אמיתית? מאמר חדש ב-The Gradient מערער על הנחה זו, וטוען כי ההסתמכות על שפה בלבד מייצרת אשליה של הבנה, תוך התעלמות מהיבט קריטי של האינטליגנציה האנושית: ההבנה המגולמת (Embodied Understanding).
הבסיס לבעיה, כפי שמסביר המאמר, נעוץ בכך ש-AI מודרני פועל במרחב סימבולי של מילים ותמונות, אך חסר את החוויה הפיזית והאינטראקציה עם העולם האמיתי. טרי ווינוגרד (Terry Winograd), חוקר בינה מלאכותית מוביל, ציין בעבר: 'בהקרנת השפה חזרה כמודל לחשיבה, אנו מאבדים את ההבנה המגולמת השקטה שעומדת בבסיס האינטליגנציה שלנו'. בעוד שאדם לומד דרך מגע, תנועה והתנסות—תהליך המעניק משמעות למילים—מודל AI לומד אך ורק מקורלציות סטטיסטיות בטקסט. כך, 'AGI' המבוסס על שפה בלבד הוא מולטימודלי (Multimodal) במובן הטכני, אך לא בהבנה האנושית.
השלכות הוויכוח הזה רחבות: אם AGI אכן דורש רכיב פיזי או חווייתי (Embodiment), הרי שהמודלים הנוכחיים, מפוארים ככל שיהיו, רחוקים מהיכולת להבין את המושגים 'כאב', 'שמחה', או 'סיבתיות' בצורה עמוקה. עבור חברות טכנולוגיה וקרנות השקעה, תזכורת זו מגיעה בזמן קריטי—המירוץ להשגת AGI עלול להתבסס על מדדים שגויים (Benchmarks) שמעריכים מיומנות לשונית על פני הבנה אמיתית. כדאי לזכור שהדרך ל-AGI אינה עוברת רק בתוספת תמונות או וידאו למודל, אלא במציאת דרכים ללכוד את המהות של האינטליגנציה המגולמת—אתגר שטרם נפתר.
כמנהלי תוכן וטכנולוגיה, עלינו להיות זהירים בהצגת הישגי AI כ'דמויי אדם' מדי. היופי באינטליגנציה האנושית טמון דווקא ביכולת שלנו לפעול בעולם, לחוש ולחוות—לא רק לפטפט, גם אם הפטפוט משכנע.