Nós lutamos muito com isso em @MerlinAIByFoyer. A analogia "Evals são o CI/CD da IA" realmente não se sustenta, pois o CI/CD prospera na estabilidade, enquanto a IA muda semana a semana. E, assim como CI / CD, girar avaliações pesadas em produção consome muito tempo. Tentamos e desistimos além de um ponto. Avaliar agentes/ML é essencial, mas construir andaimes elaborados muito cedo atrasa você. Então, chegamos a um compromisso: selecionamos um pequeno conjunto de alto sinal de ~ 10 a 100 perguntas / cenários e testamos em relação a eles. Isso nos dá uma ideia do que está funcionando bem, enquanto podemos executar rapidamente nosso pipeline durante a fase 0-1 em si. Mais recentemente, à medida que @benhylak, @snarkyzk e a equipe vêm construindo @raindrop_ai, obtivemos quilometragem real monitorando falhas na produção e dobrando esses ou casos semelhantes de volta ao conjunto de dados.