📢 Publikujemy nasz najnowszy artykuł
Wybrany na warsztaty @AAAI '26.
Pokazujemy, że zdolność prognozowania LLM-ów w odpowiedzi na pytania ze świata rzeczywistego z rynków predykcyjnych (takich jak polymarket) znacznie różni się w zależności od kategorii.
👉 Nasza metoda pokazuje, że chociaż dodanie wiadomości pomaga, wprowadza również pewne tryby awarii, takie jak dryf definicji, błąd recencyjny i zakotwiczenie plotek.
📢 Publikujemy nasz najnowszy artykuł
Wybrany na warsztaty @NeurIPSConf dotyczące efektywnego rozumowania!
Pokazujemy, że optymalna metoda skalowania czasu testu polega na iteracyjnym udoskonalaniu przez sekwencyjne kroki.
👉 Nasza metoda przewyższa głosowanie większościowe dzięki równoległym łańcuchom w 95% konfiguracji, z zyskami w dokładności sięgającymi 46,7% przy dopasowanej mocy obliczeniowej.