Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Мы много раз обсуждали это в @MerlinAIByFoyer. Аналогия «Evals — это CI/CD для ИИ» не совсем верна, так как CI/CD процветает на стабильности, в то время как ИИ меняется каждую неделю. И, как и в случае с CI/CD, запуск тяжелых оценок в продакшене отнимает много времени. Мы попробовали это и в какой-то момент сдались. Оценка агентов/МЛ имеет решающее значение, но создание сложной инфраструктуры слишком рано замедляет вас. Поэтому мы пришли к компромиссу: мы отбираем небольшой, высокосигнальный набор из ~10–100 вопросов/сценариев и тестируем на их основе. Это дает нам представление о том, что работает хорошо, в то время как мы можем быстро пропустить наш конвейер через это на этапе 0-1. Совсем недавно, когда @benhylak, @snarkyzk и команда строили @raindrop_ai, мы получили реальную выгоду, отслеживая сбои в продакшене и возвращая их или подобные случаи обратно в набор данных.

4,17K

Топ

Рейтинг

Избранное