Open-world evaluations for measuring frontier AI capabilities
**מבזק:** פרויקט CRUX החדש מציע מתודולוגיה להערכת יכולות בינה מלאכותית (AI) מובילה באמצעות משימות ארוכות ומורכבות בעולם פתוח (open-world evaluations), בניגוד למבחנים סגורים ומלאכותיים. היוזמה שואפת למדוד ביצועים אמיתיים של מודלים מתקדמים בסביבות לא צפויות ודינמיות, במקום המדדים המקובלים כיום.
מקור: AI Snake Oil | צוות BDNHOST
מקורות: AI Snake Oil
צוות BDNHOST