Apresentando o Husky Hold'em Bench, a primeira avaliação de pokerbots do sistema operacional! Vimos muitos trabalhos excelentes no sistema operacional recentemente em evasing LLMs em jogabilidade estratégica. Aqui está outro com uma reviravolta: o modelo não pode escolher suas ações diretamente, mas precisa implementar sua política em python sob restrições de tempo e memória que descartam abordagens de força bruta e tabelas de pesquisa. Em seguida, colocamos os bots uns contra os outros em um formato round-robin de todos os combos para 6 jogadores. Como alguns dos principais modelos de raciocínio funcionam?
58,43K