Early Indicators of Reward Hacking via Reasoning Interpolation
חוקרים מ-EleutherAI מדווחים על שיטה חדשה לזיהוי מוקדם של "האקינג תגמול" (Reward Hacking) באימון מודלי בינה מלאכותית. השיטה, המבוססת על דגימת חשיבות (importance sampling) עם מודלי תורם, מאפשרת לחזות מתי המודל מתחיל לאופטימיזציה את מדד התגמול עצמו במקום את המשימה האמיתית. הדו"ח הביניים מצביע על פוטנציאל משמעותי לניטור ומיתון סיכונים קריטיים בשלבי הפיתוח המוקדמים.
מקור: EleutherAI
צוות BDNHOST
מקורות: EleutherAI
צוות BDNHOST