Vă prezentăm Husky Hold'em Bench, primul sistem de operare pentru pokerbots eval! Am văzut recent o mulțime de lucrări grozave în sistemul de operare pentru a evita LLM-urile în gameplay-ul strategic. Iată o altă întorsătură: modelul nu își alege acțiunile direct, ci trebuie să-și implementeze politica în python sub constrângeri de timp și memorie care exclud abordările de forță brută și tabelele de căutare. Apoi punem roboții unul împotriva celuilalt într-un format round-robin cu 6 jucători. Cum funcționează unele dintre modelele principale de raționament?
58,43K