Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"La meilleure vidéo sur les évaluations de l'IA que j'ai vue"
Si vous souhaitez apprendre les évaluations de l'IA depuis le début en suivant un exemple pratique, vous devriez regarder mon tutoriel gratuit, étape par étape, avec @_amankhan.
Lien vers la vidéo dans le post ci-dessous.


24 août 2025
"Tout le monde dit que les évaluations de l'IA sont importantes, alors construisons-en une en direct depuis le début."
Voici mon nouvel épisode avec @_amankhan (Arize) où nous construisons des évaluations d'IA pour un agent de support client en direct, y compris :
✅ Création des critères d'évaluation
✅ Étiquetage du jeu de données d'or
✅ Alignement des juges LLM avec les scores humains
Quelques idées d'Aman :
1. Les PM doivent faire le marquage manuel eux-mêmes. "Je n'ai jamais trouvé utile de sous-traiter les évaluations humaines à des sous-traitants. Le PM doit être dans le tableau pour maintenir un bon jugement."
2. Définissez à quoi ressemble un bon/moyen/mauvais résultat sur des critères comme la précision et le ton à l'avance. Cela devient votre grille pour une évaluation cohérente au sein de votre équipe.
3. Assurez-vous que vos juges LLM s'alignent avec vos scores humains avant de passer à l'échelle. Testez les juges sur quelques dizaines de cas d'abord et visez un taux de correspondance d'au moins 80 %.
📌 Regardez maintenant :
Également disponible sur :
Spotify :
Apple :
Newsletter :
3,92K
Meilleurs
Classement
Favoris