Identifying Interactions at Scale for LLMs
חוקרים מ-Moonshot AI מציגים גישה חדשנית להאצת הסקת מסקנות (Inference) במודלי שפה גדולים (LLMs) על ידי פיצול שלב ה"הכנה מראש" (Prefill) משלב ה"פענוח" (Decode) לרשתות נפרדות. פריצה זו מאפשרת ניצול יעיל יותר של משאבי מחשוב ומפחיתה את התלות בתשתית רשת צפופה באותו מרכז נתונים. המחקר מבטיח לשפר משמעותית את הביצועים והעלות של הפעלת מודלים כמו GPT ו-Claude בסביבות ייצור.
מקור: Berkeley AI (BAIR), MarkTechPost
צוות BDNHOST
מקורות: Berkeley AI (BAIR) | MarkTechPost
צוות BDNHOST