Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hemos luchado mucho con esto en @MerlinAIByFoyer. La analogía de "Evals son el CI/CD de la IA" realmente no se sostiene, ya que la CI/CD prospera con la estabilidad, mientras que la IA cambia semana a semana. Y al igual que CI / CD, hacer girar evaluaciones pesadas en producción consume mucho tiempo. Lo intentamos y nos dimos por vencidos más allá de un punto.
La evaluación de agentes/ML es esencial, pero la construcción de andamios elaborados demasiado pronto lo ralentiza. Así que se nos ocurrió un compromiso: seleccionamos un conjunto pequeño y de alta señal de ~ 10 a 100 preguntas / escenarios y probamos contra ellos. Esto nos da una idea de lo que está funcionando bien, mientras que podemos ejecutar rápidamente nuestra canalización a través de esto durante la fase 0-1.
Más recientemente, a medida que @benhylak, @snarkyzk y el equipo han estado construyendo @raindrop_ai, hemos obtenido un kilometraje real al monitorear fallas en producción y volver a incorporar esos casos o casos similares al conjunto de datos.

5 sept, 06:08
Código Claude: sin evaluaciones
[Empresa de agentes de código conocida]: sin evaluaciones
[Conocida Code Agent Company 2]: evaluaciones un poco a medias
[Empresa líder en codificación de vibraciones]: sin evaluaciones
[CEO de la empresa que te vende evaluaciones]: mmmmmm sí, todos mis principales clientes hacen evaluaciones, tú deberías hacer evaluaciones
[VC está enamorado del CEO de la empresa de evaluaciones]: mmmmm sí, todos mis principales fundadores hacen evaluaciones, deben hacer evaluaciones
(NOTA: yo -sí- también creo que las evaluaciones son importantes, pero los ingenieros de IA evaluados también han notado que no es un requisito estricto para el éxito y, al menos para la etapa de 0 a 1, incluso puede estar anticorrelacionado, piense por qué)

4.08K
Populares
Ranking
Favoritas