Ми багато боролися з цим у @MerlinAIByFoyer. Аналогія «Evals — це CI/CD штучного інтелекту» насправді не відповідає дійсності, оскільки CI/CD процвітає завдяки стабільності, тоді як штучний інтелект змінюється тиждень за тижнем. І так само, як і CI/CD, розкручування важких евалів у проді з'їдає купу часу. Ми спробували і здалися за одну точку. Оцінка агентів/ML є важливою, але занадто раннє створення складних будівельних риштувань сповільнює вас. Тому ми прийшли до компромісу: ми куруємо невеликий набір з високим рівнем сигналу з ~10–100 запитань/сценаріїв і тестуємо на них. Це дає нам уявлення про те, що працює добре, в той час як ми можемо швидко пропустити наш конвеєр через це під час самої фази 0-1. Зовсім недавно, коли @benhylak, @snarkyzk і команда створювали @raindrop_ai, ми отримали реальний пробіг, відстежуючи збої у виробництві та повертаючи ті чи інші подібні випадки назад до набору даних.
swyx 🇸🇬
swyx 🇸🇬5 вер., 06:08
Клод Код: без евалів [добре відома компанія Code Agent]: Без Evals [Добре відомий Code Agent Company 2]: Такий собі недолугий Евалс [Провідна компанія з кодування Vibe]: Без Evals [Генеральний директор компанії, що продає вам evals]: Мммммм, так, всі мої найкращі клієнти роблять evals, ви повинні робити evals [Венчурний капітал закоханий у генерального директора компанії Evals]: Мммммм, так, усі мої найкращі засновники роблять evals, повинні робити evals (ПРИМІТКА: я -do- також вважаю, що evals є impt, але інженери eval pilled ai також помітили, що це не є суворою вимогою для успіху і, принаймні для етапу 0 до 1, може навіть бути антикорельованим, подумайте чому)
3,02K