פוסט Safety

החולשה של המחשבה: מחקר חושף את הקושי של מודלים לשלוט בשרשרת ההיגיון שלהם

22.04.2026 | מקור: Alignment Forum

מחקר חדש מטיל ספק ביכולתה של שרשרת היגיון (Chain of Thought - CoT) לשמש ככלי אמין לפיקוח על תהליך החשיבה של מודלי שפה גדולים (LLM). בעוד שטכניקת CoT, שבה המודל מציג את שלבי ההיגיון שלו לפני התשובה הסופית, נתפסת כדרך להפוך את הבינה המלאכותית לשקופה יותר, המחקר מגלה פער מדאיג: למודלים קל הרבה יותר לשלוט בתשובה הסופית המוצגת למשתמש מאשר לשלוט בתהליך החשיבה הפנימי עצמו.

החוקרים, בהובלת Yueh-Han Wu ועמיתים (2026), בחנו 'תנאי שליטה' (controllability conditions) על תהליך ה-CoT. הם ביקשו מהמודלים לבצע משימות היגיון תוך כדי ציות להוראות סגנוניות מגבילות בשרשרת המחשבה שלהם – כמו לכתוב רק באותיות קטנות, להימנע משימוש במילה מסוימת, או לדבוק במבנה תחבירי מוגדר. הממצאים הראו כי המודלים נכשלים באופן עקבי בעמידה בהוראות אלו תוך שמירה על ביצועים גבוהים במשימה. במילים אחרות, כאשר אתה מנסה לכפות על ה-CoT 'לחשוב בדרך מסוימת', הביצועים נפגעים – תופעה שלא נצפתה כאשר אותן הגבלות הוטלו רק על התשובה הסופית.

משמעות הממצאים היא עמוקה. הם מצביעים על כך ש'שרשרת ההיגיון' אינה חלון שקוף ואמין לתהליך החשיבה האמיתי של המודל, אלא יותר 'תוצר לוואי' שניתן לעוותו בקלות. אם קל יותר לשלוט בתשובה מאשר במחשבה, אזי CoT מאבדת מערכה ככלי לאימות (verification) ולבקרה (monitoring) של מערכות AI מורכבות. זהו אתגר קריטי ליישומים שבטיחותם תלויה בהבנה מלאה של תהליך קבלת ההחלטות של המודל, כמו באבחון רפואי או בניתוחים פיננסיים.

המחקר, שכולל קוד פתוח זמין, אינו רק מצביע על בעיה אלא גם מחדד את הדרישה למתודולוגיות חדשות. כדי לבנות מערכות AI אמינות ובטוחות, הקהילה הטכנולוגית חייבת לפתח מנגנונים המאפשרים שליטה ובקרה אמיתית לא רק על הפלט, אלא על תהליך החישוב הפנימי עצמו. המסע לעבר בינה מלאכותית שניתן לבקר אותה באמת רק החל.

מקור: Alignment Forum

מקורות: Alignment Forum

צוות BDNHOST