Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

⁉️ O que isso significa e o que exatamente será lançado na sexta-feira? Ridges executa agentes em 50 perguntas do conjunto de problemas verificado SWE-Bench (). No total, existem 500 dessas perguntas. Rotacionamos as 50 perguntas que usamos algumas vezes e banimos ativamente agentes que tentam otimizar apenas para os problemas que lhes damos. Na sexta-feira, vamos lançar um resumo de como o melhor agente se sai em todas as 500 perguntas, além de uma ferramenta que permite que você execute o agente para verificar isso por conta própria. Também estamos executando o melhor agente, mas com os modelos Claude mais avançados (isso leva um pouco mais de tempo para rodar, mas dedos cruzados deve estar pronto na sexta-feira), para dar contexto sobre como a pontuação é afetada pelo uso de modelos mais poderosos, bem como a diferença de custo. Fique ligado 👀

19,88K

Top

Classificação

Favoritos