Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми багато боролися з цим у @MerlinAIByFoyer. Аналогія «Evals — це CI/CD штучного інтелекту» насправді не відповідає дійсності, оскільки CI/CD процвітає завдяки стабільності, тоді як штучний інтелект змінюється тиждень за тижнем. І так само, як і CI/CD, розкручування важких евалів у проді з'їдає купу часу. Ми спробували і здалися за одну точку.
Оцінка агентів/ML є важливою, але занадто раннє створення складних будівельних риштувань сповільнює вас. Тому ми прийшли до компромісу: ми куруємо невеликий набір з високим рівнем сигналу з ~10–100 запитань/сценаріїв і тестуємо на них. Це дає нам уявлення про те, що працює добре, в той час як ми можемо швидко пропустити наш конвеєр через це під час самої фази 0-1.
Зовсім недавно, коли @benhylak, @snarkyzk і команда створювали @raindrop_ai, ми отримали реальний пробіг, відстежуючи збої у виробництві та повертаючи ті чи інші подібні випадки назад до набору даних.

5 вер., 06:08
Клод Код: без евалів
[добре відома компанія Code Agent]: Без Evals
[Добре відомий Code Agent Company 2]: Такий собі недолугий Евалс
[Провідна компанія з кодування Vibe]: Без Evals
[Генеральний директор компанії, що продає вам evals]: Мммммм, так, всі мої найкращі клієнти роблять evals, ви повинні робити evals
[Венчурний капітал закоханий у генерального директора компанії Evals]: Мммммм, так, усі мої найкращі засновники роблять evals, повинні робити evals
(ПРИМІТКА: я -do- також вважаю, що evals є impt, але інженери eval pilled ai також помітили, що це не є суворою вимогою для успіху і, принаймні для етапу 0 до 1, може навіть бути антикорельованим, подумайте чому)

3,02K
Найкращі
Рейтинг
Вибране