Apresentando o Husky Hold’em Bench, a primeira avaliação de pokerbots OS! Temos visto muito trabalho excelente em OS recentemente na avaliação de LLMs em jogabilidade estratégica. Aqui está mais um com uma reviravolta: o modelo não pode escolher suas ações diretamente, mas deve implementar sua política em python sob restrições de tempo e memória que excluem abordagens de força bruta e tabelas de consulta. Em seguida, colocamos os bots uns contra os outros em um formato de todos os combos em um torneio round-robin de 6 jogadores. Como alguns dos principais modelos de raciocínio se saem?
58,43K