Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ми багато боролися з цим у @MerlinAIByFoyer. Аналогія «Evals — це CI/CD штучного інтелекту» насправді не відповідає дійсності, оскільки CI/CD процвітає завдяки стабільності, тоді як штучний інтелект змінюється тиждень за тижнем. І так само, як і CI/CD, розкручування важких евалів у проді з'їдає купу часу. Ми спробували і здалися за одну точку. Оцінка агентів/ML є важливою, але занадто раннє створення складних будівельних риштувань сповільнює вас. Тому ми прийшли до компромісу: ми куруємо невеликий набір з високим рівнем сигналу з ~10–100 запитань/сценаріїв і тестуємо на них. Це дає нам уявлення про те, що працює добре, в той час як ми можемо швидко пропустити наш конвеєр через це під час самої фази 0-1. Зовсім недавно, коли @benhylak, @snarkyzk і команда створювали @raindrop_ai, ми отримали реальний пробіг, відстежуючи збої у виробництві та повертаючи ті чи інші подібні випадки назад до набору даних.

3,02K

Найкращі

Рейтинг

Вибране