מבזק Academic

Early Indicators of Reward Hacking via Reasoning Interpolation

18.04.2026 | מקור: EleutherAI

חוקרים מ-EleutherAI מדווחים על שיטה חדשה לזיהוי מוקדם של "האקינג תגמול" (Reward Hacking) באימון מודלי בינה מלאכותית. השיטה, המבוססת על דגימת חשיבות (importance sampling) עם מודלי תורם, מאפשרת לחזות מתי המודל מתחיל לאופטימיזציה את מדד התגמול עצמו במקום את המשימה האמיתית. הדו"ח הביניים מצביע על פוטנציאל משמעותי לניטור ומיתון סיכונים קריטיים בשלבי הפיתוח המוקדמים.

מקור: EleutherAI
צוות BDNHOST

מקורות: EleutherAI

צוות BDNHOST