Мы много раз обсуждали это в @MerlinAIByFoyer. Аналогия «Evals — это CI/CD для ИИ» не совсем верна, так как CI/CD процветает на стабильности, в то время как ИИ меняется каждую неделю. И, как и в случае с CI/CD, запуск тяжелых оценок в продакшене отнимает много времени. Мы попробовали это и в какой-то момент сдались. Оценка агентов/МЛ имеет решающее значение, но создание сложной инфраструктуры слишком рано замедляет вас. Поэтому мы пришли к компромиссу: мы отбираем небольшой, высокосигнальный набор из ~10–100 вопросов/сценариев и тестируем на их основе. Это дает нам представление о том, что работает хорошо, в то время как мы можем быстро пропустить наш конвейер через это на этапе 0-1. Совсем недавно, когда @benhylak, @snarkyzk и команда строили @raindrop_ai, мы получили реальную выгоду, отслеживая сбои в продакшене и возвращая их или подобные случаи обратно в набор данных.
swyx
swyx5 сент., 06:08
Код Клода: никаких оценок [известная компания по кодированию]: никаких оценок [известная компания по кодированию 2]: немного халтурные оценки [ведущая компания по кодированию]: никаких оценок [генеральный директор компании, продающей вам оценки]: ммм да, все мои лучшие клиенты делают оценки, вам стоит делать оценки [венчурные капиталисты, влюбленные в генерального директора компании оценок]: ммм да, все мои лучшие основатели делают оценки, обязательно делайте оценки (ПРИМЕЧАНИЕ: я -тоже- считаю, что оценки важны, но инженеры ИИ, увлеченные оценками, также заметили, что это не строгое требование для успеха и, по крайней мере, на стадии 0-1, может даже быть антикоррелировано, подумайте, почему)
4,17K