Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
souvent, la capacité des chercheurs à itérer sur une compétence est limitée par notre capacité à mesurer cette compétence. Je crois vraiment que le progrès est plus limité par l'évaluation que les gens ne le pensent.
parfois, les évaluations semblent causales. Est-ce que SWE-Bench a suivi le codage agentique, ou le codage agentique a-t-il suivi SWE-Bench ?
nous entendons souvent parler de la résolution de tâches à très long terme (semaines, mois), ou de l'apprentissage continu nécessaire pour l'AGI, etc. Pourtant, où sont les évaluations pour prouver les lacunes de nos modèles ici ?
j'aimerais que plus de gens travaillent sur des évaluations complètes pour l'AGI, des évaluations qui suivent vraiment la valeur économique et l'impact, des tâches d'un mois, etc.
Meilleurs
Classement
Favoris