Przedstawiamy Husky Hold’em Bench, pierwszą ewaluację pokerbotów OS! Ostatnio widzieliśmy wiele świetnych prac w OS dotyczących ewaluacji LLM w strategicznej grze. Oto kolejna z twistem: model nie ma możliwości bezpośredniego wyboru swoich działań, lecz musi wdrożyć swoją politykę w pythonie pod ograniczeniami czasowymi i pamięciowymi, które wykluczają podejścia brute force i tabele przeszukiwania. Następnie stawiamy boty przeciwko sobie w formacie round-robin z 6 graczami, gdzie każdy gra ze wszystkimi. Jak radzą sobie niektóre z wiodących modeli rozumowania?
273