Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Den beste videoen om AI-evals jeg har sett"
Hvis du vil lære AI-evalueringer fra bunnen av ved å følge et praktisk eksempel, bør du se min gratis, trinnvise veiledning med @_amankhan.
Link til video i innlegget nedenfor.


24. aug. 2025
"Alle sier at AI-evalueringer er viktige, så la oss faktisk bygge en live fra bunnen av."
Her er min nye episode med @_amankhan (Arize) hvor vi bygger AI-evalueringer for en kundestøtteagent live, inkludert:
✅ Opprette evalueringskriteriene
✅ Merking av det gylne datasettet
✅ Tilpasse LLM-dommere til menneskelige poengsummer
Noen innsikter fra Aman:
1. PM-er må gjøre manuell merking selv. «Jeg fant det aldri nyttig å outsource menneskelige vurderinger til entreprenører. Statsministeren må være i regnearket for å opprettholde god dømmekraft.»
2. Definer hvordan bra/gjennomsnittlig/dårlig ser ut på kriterier som nøyaktighet og tone på forhånd. Dette blir rubrikken din for konsekvent evaluering på tvers av teamet ditt.
3. Sørg for at LLM-dommerne dine stemmer overens med dine menneskelige poengsummer før du skalerer. Test dommerne på noen dusin saker først og sikt på minst 80%+ matchrate.
📌 Se nå:
Også tilgjengelig på:
Spotify:
Eple:
Nyhetsbrev:
3,95K
Topp
Rangering
Favoritter