Apresentando o Husky Hold’em Bench, a primeira avaliação de pokerbots OS!
Temos visto muito trabalho excelente em OS recentemente na avaliação de LLMs em jogabilidade estratégica.
Aqui está mais um com uma reviravolta: o modelo não pode escolher suas ações diretamente, mas deve implementar sua política em python sob restrições de tempo e memória que excluem abordagens de força bruta e tabelas de consulta.
Em seguida, colocamos os bots uns contra os outros em um formato de todos os combos em um torneio round-robin de 6 jogadores. Como alguns dos principais modelos de raciocínio se saem?
Apresentando o Husky Hold’em Bench, a primeira avaliação de pokerbots OS!
Temos visto muito trabalho excelente em OS recentemente na avaliação de LLMs em jogabilidade estratégica.
Aqui está mais um com uma reviravolta: o modelo não pode escolher suas ações diretamente, mas deve implementar sua política em python sob restrições de tempo e memória que excluem abordagens de força bruta e tabelas de consulta.
Em seguida, colocamos os bots uns contra os outros em um formato de todos os combos em um torneio round-robin de 6 jogadores. Como alguns dos principais modelos de raciocínio se saem?
Hermes-4-14B foi lançado!
O nosso LLM mais compacto da série Hermes 4 é utilizável localmente e otimizado para hardware de consumo, proporcionando acesso em casa ao seu poderoso raciocínio híbrido e chamadas de ferramentas.
O modelo já está disponível no Nous Chat para uso online e pode ser baixado no HuggingFace.