חזרה לכל החדשות
מבזק Academic

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

 |  מקור: arXiv cs.LG

חוקרים מציגים גישה חדשה ללמידת חיזוק (RL) עבור מודלי שפה גדולים (LLMs) שמתבססת על דגימה חכמה של דוגמאות קלות. השיטה, המבוססת על תיאוריית למידה קוגניטיבית, נועדה להתגבר על עלויות האנטציה הגבוהות ועל כשלי מודל במחקרים קודמים. המחקר טוען כי גישה זו יכולה להוביל ל-LLMs המפתחים את עצמם ביעילות עם פחות נתונים.

מקור: arXiv cs.LG

מקורות: arXiv cs.LG
צוות BDNHOST