Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы много раз обсуждали это в @MerlinAIByFoyer. Аналогия «Evals — это CI/CD для ИИ» не совсем верна, так как CI/CD процветает на стабильности, в то время как ИИ меняется каждую неделю. И, как и в случае с CI/CD, запуск тяжелых оценок в продакшене отнимает много времени. Мы попробовали это и в какой-то момент сдались.
Оценка агентов/МЛ имеет решающее значение, но создание сложной инфраструктуры слишком рано замедляет вас. Поэтому мы пришли к компромиссу: мы отбираем небольшой, высокосигнальный набор из ~10–100 вопросов/сценариев и тестируем на их основе. Это дает нам представление о том, что работает хорошо, в то время как мы можем быстро пропустить наш конвейер через это на этапе 0-1.
Совсем недавно, когда @benhylak, @snarkyzk и команда строили @raindrop_ai, мы получили реальную выгоду, отслеживая сбои в продакшене и возвращая их или подобные случаи обратно в набор данных.

5 сент., 06:08
Код Клода: никаких оценок
[известная компания по кодированию]: никаких оценок
[известная компания по кодированию 2]: немного халтурные оценки
[ведущая компания по кодированию]: никаких оценок
[генеральный директор компании, продающей вам оценки]: ммм да, все мои лучшие клиенты делают оценки, вам стоит делать оценки
[венчурные капиталисты, влюбленные в генерального директора компании оценок]: ммм да, все мои лучшие основатели делают оценки, обязательно делайте оценки
(ПРИМЕЧАНИЕ: я -тоже- считаю, что оценки важны, но инженеры ИИ, увлеченные оценками, также заметили, что это не строгое требование для успеха и, по крайней мере, на стадии 0-1, может даже быть антикоррелировано, подумайте, почему)

4,17K
Топ
Рейтинг
Избранное