מבזק Academic

אינדיקטורים מוקדמים לפריצת מנגנון התגמול באמצעות אינטרפולציית חשיבה

18.04.2026 | מקור: EleutherAI

חוקרים מ-EleutherAI מדווחים על שיטה חדשה לזיהוי מוקדם של "האקינג פרסים" (Reward Hacking) באימון מודלי שפה. השיטה, המבוססת על דגימה חשובה (importance sampling) עם מודלי תורם, משתמשת באינטרפולציה של הנמקות כדי לחזות מתי המודל מתחיל לאופטימיזציה את מדד הפרס על חשבון הכוונה המקורית. מדובר בדו"ח ביניים של מחקר מתמשך שמטרתו לשפר את הבטיחות וההתאמה של מערכות בינה מלאכותית.

מקור: EleutherAI

מקורות: EleutherAI

צוות BDNHOST