Einführung von Husky Hold’em Bench, dem ersten OS-Pokerbot-Evaluierung!
Wir haben in letzter Zeit viel großartige Arbeit im OS gesehen, die sich mit der Evaluierung von LLMs im strategischen Gameplay beschäftigt.
Hier ist eine weitere mit einem Twist: Das Modell kann seine Aktionen nicht direkt wählen, sondern muss stattdessen seine Strategie in Python unter Zeit- und Speicherbeschränkungen umsetzen, die brutale Ansätze und Nachschlagetabellen ausschließen.
Wir lassen die Bots dann in einem 6-Spieler-All-Combos-Round-Robin-Format gegeneinander antreten. Wie schneiden einige der führenden Denkmodelle ab?
Einführung von Husky Hold’em Bench, dem ersten OS-Pokerbot-Evaluierung!
Wir haben in letzter Zeit viel großartige Arbeit im OS gesehen, die sich mit der Evaluierung von LLMs im strategischen Gameplay beschäftigt.
Hier ist eine weitere mit einem Twist: Das Modell darf seine Aktionen nicht direkt wählen, sondern muss stattdessen seine Strategie in Python unter Zeit- und Speicherbeschränkungen umsetzen, die brutale Ansätze und Nachschlagetabellen ausschließen.
Wir lassen die Bots dann in einem 6-Spieler-All-Combos-Round-Robin-Format gegeneinander antreten. Wie schneiden einige der führenden Denkmodelle ab?
Hermes-4-14B wurde veröffentlicht!
Unser kompaktestes LLM aus der Hermes 4-Serie ist lokal nutzbar und für Verbraucherhardware optimiert, was den Zugang zu seiner leistungsstarken hybriden Argumentation und Tool-Nutzung von zu Hause aus ermöglicht.
Das Modell ist jetzt auf Nous Chat für die Online-Nutzung verfügbar und kann auf HuggingFace heruntergeladen werden.