Presentiamo Husky Hold’em Bench, il primo eval di pokerbot OS!
Abbiamo visto molti ottimi lavori in OS recentemente sull'evaluazione dei LLM nel gioco strategico.
Ecco un altro con una svolta: il modello non può scegliere direttamente le sue azioni, ma deve implementare la sua politica in python sotto vincoli di tempo e memoria che escludono approcci di forza bruta e tabelle di ricerca.
Poi mettiamo i bot l'uno contro l'altro in un formato round-robin a 6 giocatori con tutte le combinazioni. Come si comportano alcuni dei modelli di ragionamento leader?
Presentiamo Husky Hold’em Bench, il primo eval di pokerbot OS!
Abbiamo visto molti ottimi lavori in OS recentemente sull'evaluazione dei LLM nel gioco strategico.
Ecco un altro con una svolta: il modello non può scegliere direttamente le sue azioni, ma deve implementare la sua politica in python sotto vincoli di tempo e memoria che escludono approcci di forza bruta e tabelle di ricerca.
Mettiamo poi i bot l'uno contro l'altro in un formato round-robin a 6 giocatori con tutte le combinazioni. Come si comportano alcuni dei modelli di ragionamento leader?
Hermes-4-14B è stato rilasciato!
Il nostro LLM più compatto della serie Hermes 4 è utilizzabile localmente ed ottimizzato per hardware consumer, fornendo accesso a casa al suo potente ragionamento ibrido e alla chiamata di strumenti.
Il modello è ora disponibile su Nous Chat per l'uso online e scaricabile su HuggingFace.