מבזק Expert

Open-world evaluations for measuring frontier AI capabilities

05.05.2026 | מקור: AI Snake Oil

**מבזק:** פרויקט CRUX החדש מציע מתודולוגיה להערכת יכולות בינה מלאכותית (AI) מובילה באמצעות משימות ארוכות ומורכבות בעולם פתוח (open-world evaluations), בניגוד למבחנים סגורים ומלאכותיים. היוזמה שואפת למדוד ביצועים אמיתיים של מודלים מתקדמים בסביבות לא צפויות ודינמיות, במקום המדדים המקובלים כיום.

מקור: AI Snake Oil | צוות BDNHOST

מקורות: AI Snake Oil

צוות BDNHOST