Presentiamo Husky Hold’em Bench, il primo eval di pokerbot OS! Abbiamo visto molti ottimi lavori in OS recentemente sull'evaluazione dei LLM nel gioco strategico. Ecco un altro con una svolta: il modello non può scegliere direttamente le sue azioni, ma deve implementare la sua politica in python sotto vincoli di tempo e memoria che escludono approcci di forza bruta e tabelle di ricerca. Poi mettiamo i bot l'uno contro l'altro in un formato round-robin a 6 giocatori con tutte le combinazioni. Come si comportano alcuni dei modelli di ragionamento leader?
57,3K