Erittäin mielenkiintoinen taulukko Deepseek v3.2:lta, joka vertaa tulostokenien määrää eri benchmarkeissa, DSV3.2 Speciale -versio ajattelee paljon enemmän kuin mikään muu malli, MUTTA koska he käyttävät harhaa huomiota, päättelykustannus on silti ok?
Mistral näyttää olevan julkaisemassa kaksi uutta mallia: Ministral 3:n ja Mistral Large 3:n.
Arkkitehtuurin osalta näyttää olevan:
> täsmälleen sama kuin llama2/3 Ministralille, joka on hyvin samanlainen (vaikka he lisäisivät SWA:n) ensimmäiseen Mistral 7B:n julkaisuun kaksi vuotta sitten.
> täsmälleen sama arkkitehtuuri kuin DeepSeek V3:ssa suuressa (joka vaikuttaa olevan MoE)
Molemmissa käytetään myös Llama4-köysiskaalausta (langan sijaan), ja Largessa he näyttävät toteuttavan spekulatiivisen dekoodauksen kotkalla
Linkki PRS:ään ketjussa
Bro, tämä on Fairin artikkeli vuodelta 2024, Llama 2/3 kehitettiin GenAI:n toimesta (ei sama klusteri, koodipohja,...), he ovat läpinäkyviä MFU:n ja läpimenon suhteen toisin kuin muissa tämän mittakaavan laboratoriokoulutusmalleissa, ja Llama 3:n artikkelissa on oikeita lukuja.