Przedstawiamy Husky Hold’em Bench, pierwszą ewaluację pokerbotów OS!
Ostatnio widzieliśmy wiele świetnych prac w OS dotyczących ewaluacji LLM w strategicznej grze.
Oto kolejna z twistem: model nie ma możliwości bezpośredniego wyboru swoich działań, ale musi wdrożyć swoją politykę w pythonie pod ograniczeniami czasowymi i pamięciowymi, które wykluczają podejścia siłowe i tabele wyszukiwania.
Następnie stawiamy boty przeciwko sobie w formacie round-robin dla 6 graczy z wszystkimi kombinacjami. Jak radzą sobie niektóre z wiodących modeli rozumowania?
Przedstawiamy Husky Hold’em Bench, pierwszą ewaluację pokerbotów OS!
Ostatnio widzieliśmy wiele świetnych prac w OS dotyczących ewaluacji LLM w strategicznej grze.
Oto kolejna z twistem: model nie ma możliwości bezpośredniego wyboru swoich działań, lecz musi wdrożyć swoją politykę w pythonie pod ograniczeniami czasowymi i pamięciowymi, które wykluczają podejścia brute force i tabele przeszukiwania.
Następnie stawiamy boty przeciwko sobie w formacie round-robin z 6 graczami, gdzie każdy gra ze wszystkimi. Jak radzą sobie niektóre z wiodących modeli rozumowania?
Hermes-4-14B został wydany!
Nasz najbardziej kompaktowy LLM z serii Hermes 4 jest użyteczny lokalnie i zoptymalizowany pod kątem sprzętu konsumenckiego, zapewniając dostęp do jego potężnego hybrydowego rozumowania i wywoływania narzędzi w domu.
Model jest teraz dostępny w Nous Chat do użytku online oraz do pobrania na HuggingFace.