C'est un excellent livre.
@karpathy a dit : "L'ingénierie du contexte est l'art et la science délicats de remplir la fenêtre de contexte avec juste les bonnes informations pour la prochaine étape."
Ce livre vous aidera à cesser de penser à "l'ingénierie des invites" et à commencer à vous concentrer sur "l'ingénierie du contexte" à la place.
C'est le livre que je recommanderais à quiconque cherchant à devenir un "Architecte de Solutions AI".
Lien Amazon :
OCR Arena a le classement actuel des meilleurs modèles VLM et OCR open-source.
Gemini 3, Qwen, Paddle et OlmOCR2 se battent actuellement pour les premières places. De nouveaux modèles sont ajoutés au fur et à mesure de leur sortie.
Ce n'est pas un benchmark (qui peut être facilement manipulé).
Ce classement est basé sur des tests de ces modèles en tête-à-tête sur des tâches de traitement de documents réels et des cas limites.
Vous pouvez télécharger une image, et la plateforme @ocrarena vous donnera deux choix pour sélectionner le meilleur. Vous choisissez la meilleure réponse, et c'est ainsi que le classement est calculé.
Si vous développez des applications basées sur des documents complexes, gardez un œil sur ce classement !
Tout n'est pas un agent. Tout n'a pas besoin de capacités "agentiques".
En fait, 99 % du temps, ce dont vous avez besoin, c'est de code classique.
Si cela ne fonctionne pas, vous voudrez probablement construire un flux de travail prédéfini qui combine de grands modèles de langage pour résoudre le problème.
Un flux de travail codé en dur n'est pas un agent. C'est juste un flux de travail qui utilise un LLM.
Si rien de ce qui précède ne résout votre problème, et seulement alors, vous devriez commencer à penser à un agent.
En ce moment, les agents sont probablement l'une des solutions les plus complexes que vous aurez à mettre en œuvre. Vous ne voulez jamais commencer par là.