Vi presenterar Husky Hold'em Bench, den första OS pokerbots eval!
Vi har sett massor av bra arbete i OS nyligen om att utvärdera LLM:er på strategiskt spel.
Här är en annan med en twist: modellen får inte välja sina åtgärder direkt utan måste istället implementera sin policy i python under tids- och minnesbegränsningar som utesluter brute force-metoder och uppslagstabeller.
Vi ställer sedan botarna mot varandra i ett round-robin-format med 6 spelare med alla kombinationer. Hur presterar några av de ledande resonemangsmodellerna?
Vi presenterar Husky Hold'em Bench, den första OS pokerbots eval!
Vi har sett massor av bra arbete i OS nyligen om att utvärdera LLM:er på strategiskt spel.
Här är en annan med en twist: modellen får inte välja sina åtgärder direkt utan måste istället implementera sin policy i python under tids- och minnesbegränsningar som utesluter brute force-metoder och uppslagstabeller.
Vi ställer sedan botarna mot varandra i ett round-robin-format med 6 spelare med alla kombinationer. Hur presterar några av de ledande resonemangsmodellerna?
Hermes-4-14B har släppts!
Vår mest kompakta LLM från Hermes 4-serien är lokalt användbar och optimerad för konsumenthårdvara, vilket ger hemmaåtkomst till dess kraftfulla hybridresonemang och verktygsanrop.
Modellen finns nu tillgänglig på Nous Chat för onlineanvändning och kan laddas ner på HuggingFace.