Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi presenterar Husky Hold'em Bench, den första OS pokerbots eval!
Vi har sett massor av bra arbete i OS nyligen om att utvärdera LLM:er på strategiskt spel.
Här är en annan med en twist: modellen får inte välja sina åtgärder direkt utan måste istället implementera sin policy i python under tids- och minnesbegränsningar som utesluter brute force-metoder och uppslagstabeller.
Vi ställer sedan botarna mot varandra i ett round-robin-format med 6 spelare med alla kombinationer. Hur presterar några av de ledande resonemangsmodellerna?


262
Topp
Rankning
Favoriter