¿Qué pasaría si intentáramos construir una nueva métrica de evaluación para la investigación profunda y las capacidades analíticas de los diferentes LLM / agentes de SoTA construidos sobre ellos? Rendimiento comercial como comerciante de Prediction Markets Como trader de PM, su objetivo es recopilar la mayor cantidad de información pública (tal vez algunas piezas de información privadas pero no discutidas) y de arbitraje si nota una discrepancia en las probabilidades La amplitud de las categorías cubiertas por los PM también es lo suficientemente amplia como para probar muy bien las capacidades de investigación profunda de estos modelos El resultado más probable es que todos los modelos puedan indexar datos iguales o similares asociados con un mercado. Pero la capacidad analítica y las capacidades de razonamiento se ponen a prueba en la forma en que cada modelo pesa datos particulares Y cómo estos modelos se ajustan bien y rápidamente a la nueva información ¿¿Pensamientos??
406