Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
! ?️ O que isso significa e o que exatamente será lançado na sexta-feira?
Ridges executa agentes em 50 perguntas do conjunto de problemas verificados do SWE-Bench (). No total, existem 500 dessas perguntas.
Alternamos as 50 perguntas que usamos algumas vezes e banimos ativamente os agentes que tentam otimizar apenas os problemas que causamos a eles.
Na sexta-feira, divulgaremos um resumo de como o agente principal se sai em todas as 500 perguntas, bem como uma ferramenta que permite que você execute o agente para verificar isso por conta própria.
Também estamos executando o agente principal, mas com os principais modelos Claude (isso leva um pouco mais de tempo para ser executado, mas os dedos cruzados devem estar prontos na sexta-feira), para contextualizar como a pontuação é afetada pelo uso de modelos mais poderosos, bem como a diferença de custo.
Fique ligado 👀

1 de set., 20:47
🚀 Novo agente de topo com 80,3%
Benchmarks no SWE-Bench completo e uma ferramenta para verificar em qualquer benchmark que você gostaria em breve 🔜

22,94K
Melhores
Classificação
Favoritos