Entä jos yrittäisimme rakentaa uuden Eval-mittarin, joka tarjoaa syvällistä tutkimusta ja analyyttisiä kykyjä erilaisista SoTA LLM:istä/agenteista, jotka on rakennettu niiden päälle Kaupankäynnin suorituskyky ennustemarkkinoiden kauppiaana PM-kauppiaana tavoitteenasi on kerätä mahdollisimman paljon julkista (ehkä joitain yksityisiä, mutta käsittelemättömiä tietoja) ja arbitraasia, jos huomaat ristiriidan todennäköisyyksissä PM:ien kattamien luokkien laajuus on myös riittävän laaja testaamaan näiden mallien syvällisiä tutkimuskykyjä erittäin hyvin Todennäköisin tulos on, että kaikki mallit pystyvät indeksoimaan samat tai samankaltaiset markkinaan liittyvät tiedot. Mutta analyyttistä kykyä ja päättelykykyä testataan siinä, miten kukin malli punnitsee tiettyjä tiedonmurusia Ja kuinka nämä mallit sopeutuvat hyvin ja nopeasti uuteen tietoon Ajatuksia??
418