Mycket intressant tabell från Deepseek v3.2 som jämför antalet utdata på olika benchmarks, DSV3.2 Speciale-versionen tänker mycket mer än någon annan modell, MEN eftersom de använder gles uppmärksamhet kommer inferenskostnaden ändå att vara okej?
Mistral verkar vara på väg att släppa två nya modeller: Ministral 3 och Mistral Large 3.
Arkitektoniskt verkar det vara:
> exakt samma som llama2/3 för Ministral, som är väldigt lik (även om de lägger till SWA) den första Mistral 7B-utgåvan för 2 år sedan.
> exakt samma arkitektur som DeepSeek V3 för den stora (som verkar vara en MoE)
för båda använder de också llama4 rep-skalning (istället för garn), och för den stora verkar de implementera spekulativ avkodning med eagle
Länk till PRS i tråden
Brorsan, det här är en artikel från mässan 2024, Llama 2/3 utvecklades av Genai (inte samma klustre, kodbas,... de är transparenta om MFU/genomströmning till skillnad från andra labbträningsmodeller i denna skala, och det finns faktiska siffror i Llama 3-artikeln.