OpenAI julkaisi äskettäin ensimmäisen avoimen painomallinsa GPT-2:n jälkeen, ja se astui DeepSeekin ja Alibaban Qwenin johtamalle alalle. Ankit (@GuptaAnkitV) erittelee nämä parhaat OSS-mallit ja sen, mikä erottaa ne konepellin alta: asiantuntijoiden sekoitus, pitkän kontekstin koulutus ja koulutuksen jälkeiset tekniikat, jotka muokkaavat päättelyä ja linjausta – ja kuinka erilaiset suunnitteluvalinnat johtavat yllättävän samanlaiseen suorituskykyyn. 00:00 – OpenAI OSS -julkaisu 01:00 – Avoimen lähdekoodin LLM-arkkitehtuurien vertailu 01:46 – GPT OSS:n yleiskatsaus 02:37 – GPT OSS:n konepellin alla 03:25 – Qwen-3 Arkkitehtuuri 04:17 – Qwen-3 koulutus 05:12 – Qwen-3 Harjoituksen jälkeinen 06:08 – Qwen-3 Päättely ja RL-innovaatiot 06:52 – DeepSeek V3 yleiskatsaus 07:40 – DeepSeek V3.1 -päivitykset 08:39 – Huomiomekanismi (MLA) 09:39 – Mallikokojen vertailu 10:35 – Pitkän kontekstin strategiat 11:25 – Pohdintoja menetelmistä 12:00 – Noutoa
2,56K