Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tivemos que remover a avaliação de bancadas τ2 da nossa tabela de benchmarks porque o Opus 4.5 quebrou por ser muito inteligente.
O benchmark simula um agente de atendimento ao cliente de companhia aérea. Em um caso de teste, um cliente em dificuldades liga querendo trocar de voo, mas ele tem uma passagem econômica básica. A política da companhia aérea simulada determina que passagens econômicas básicas não podem ser modificadas.
A resposta "correta" é que o modelo recusa o pedido.
Em vez disso, o Opus 4.5 encontrou uma brecha na política.
Ele melhorou a cabine e depois modificou os voos. Ajudar o cliente e seguir a política, mas tecnicamente falhar no caso de teste.
Transcrição do modelo:

Leia a história completa em nosso cartão de modelos:
704,79K
Melhores
Classificação
Favoritos

