Deepseek v3.2'den çok ilginç bir tablo, farklı benchmarklarda çıktı token sayısını karşılaştırıyor, DSV3.2 Speciale versiyonu diğer modellerden çok daha fazla düşünüyor, AMA seyrek dikkat kullandıkları için çıkarım maliyeti yine de uygun olacak mı?
Mistral, 2 yeni model çıkarmaya hazırlanıyor gibi görünüyor: Ministral 3 ve Mistral Large 3.
Mimari olarak şu görünüyor:
> Ministral için llama2/3 ile tam olarak aynı, ki bu da (SWA ekleseler bile) 2 yıl önceki ilk Mistral 7B sürümüne çok benziyor.
> büyük olan için DeepSeek V3 ile tam olarak aynı mimariye sahip (ki bu bir MoE gibi görünüyor)
Her ikisinde de iplik yerine Llama4 ip ölçeklendirmesi kullanılır ve Büyük olan için kartal ile spekülatif çözümleme uygulanıyor gibi görünüyor
Thread'deki PRS bağlantısı
Kardeşim, bu 2024'te Fair'den bir makale, Llama 2/3 GenAI tarafından geliştirildi (aynı küme değil, kod tabanı,...), bu ölçekteki diğer laboratuvar eğitim modellerinden farklı olarak MFU/verimlilik konusunda şeffaflar ve Llama 3 makalesinde gerçek rakamlar var.