אינדיקטורים מוקדמים לפריצת מנגנון התגמול באמצעות אינטרפולציית חשיבה
חוקרים מ-EleutherAI מדווחים על שיטה חדשה לזיהוי מוקדם של "האקינג פרסים" (Reward Hacking) באימון מודלי שפה. השיטה, המבוססת על דגימה חשובה (importance sampling) עם מודלי תורם, משתמשת באינטרפולציה של הנמקות כדי לחזות מתי המודל מתחיל לאופטימיזציה את מדד הפרס על חשבון הכוונה המקורית. מדובר בדו"ח ביניים של מחקר מתמשך שמטרתו לשפר את הבטיחות וההתאמה של מערכות בינה מלאכותית.
מקור: EleutherAI
מקורות: EleutherAI
צוות BDNHOST