Temos lutado muito com isso na @MerlinAIByFoyer. A analogia "Evals são o CI/CD da IA" não se sustenta, pois o CI/CD prospera na estabilidade, enquanto a IA muda de semana para semana. E assim como no CI/CD, iniciar avaliações pesadas em produção consome muito tempo. Tentamos e desistimos além de um certo ponto. Avaliar agentes/ML é essencial, mas construir uma estrutura elaborada muito cedo atrasa você. Então, chegamos a um compromisso: Curamos um pequeno conjunto de perguntas/cenários de alto sinal de ~10–100 e testamos contra esses. Isso nos dá uma ideia do que está funcionando bem, enquanto podemos rapidamente rodar nosso pipeline durante a fase 0-1. Mais recentemente, enquanto @benhylak, @snarkyzk e a equipe têm construído @raindrop_ai, temos obtido um bom retorno ao monitorar falhas em produção e reintegrar esses ou casos semelhantes ao conjunto de dados.