Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Hemos luchado mucho con esto en @MerlinAIByFoyer. La analogía de "Evals son el CI/CD de la IA" realmente no se sostiene, ya que la CI/CD prospera con la estabilidad, mientras que la IA cambia semana a semana. Y al igual que CI / CD, hacer girar evaluaciones pesadas en producción consume mucho tiempo. Lo intentamos y nos dimos por vencidos más allá de un punto. La evaluación de agentes/ML es esencial, pero la construcción de andamios elaborados demasiado pronto lo ralentiza. Así que se nos ocurrió un compromiso: seleccionamos un conjunto pequeño y de alta señal de ~ 10 a 100 preguntas / escenarios y probamos contra ellos. Esto nos da una idea de lo que está funcionando bien, mientras que podemos ejecutar rápidamente nuestra canalización a través de esto durante la fase 0-1. Más recientemente, a medida que @benhylak, @snarkyzk y el equipo han estado construyendo @raindrop_ai, hemos obtenido un kilometraje real al monitorear fallas en producción y volver a incorporar esos casos o casos similares al conjunto de datos.

4.08K

Populares

Ranking

Favoritas