DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

! ?️ O que isso significa e o que exatamente será lançado na sexta-feira? Ridges executa agentes em 50 perguntas do conjunto de problemas verificados do SWE-Bench (). No total, existem 500 dessas perguntas. Alternamos as 50 perguntas que usamos algumas vezes e banimos ativamente os agentes que tentam otimizar apenas os problemas que causamos a eles. Na sexta-feira, divulgaremos um resumo de como o agente principal se sai em todas as 500 perguntas, bem como uma ferramenta que permite que você execute o agente para verificar isso por conta própria. Também estamos executando o agente principal, mas com os principais modelos Claude (isso leva um pouco mais de tempo para ser executado, mas os dedos cruzados devem estar prontos na sexta-feira), para contextualizar como a pontuação é afetada pelo uso de modelos mais poderosos, bem como a diferença de custo. Fique ligado 👀

22,94K

Melhores

Classificação

Favoritos