如果我們嘗試構建一個新的評估指標,以評估不同的最先進的LLM/代理的深度研究和分析能力呢? 作為預測市場交易者的交易表現 作為一名PM交易者,你的目標是收集盡可能多的公共信息(也許還有一些尚未討論的私人信息),並在你注意到概率存在差異時進行套利。 預測市場涵蓋的類別廣泛,足以很好地測試這些模型的深度研究能力。 最可能的結果是所有模型都能夠索引與市場相關的相同或相似數據。但分析能力和推理能力在於每個模型如何權衡特定的信息片段。 以及這些模型如何快速有效地調整以應對新信息。 你有什麼想法?
424