DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Il s'avère que l'IA peut déjà accomplir 65 % des tâches professionnelles... Nvidia a fait passer 10 heures ou plus à 38 PhDs et MBAs pour créer des benchmarks. Ils ont testé plus de 40 modèles sur un travail réel. Pas des exercices académiques. Un travail réel que les analystes juniors et les chercheurs effectuent quotidiennement. GPT-5 a obtenu un score global de 65,9 %. Ils extraient des faits avec une précision de 64,4 %. Besoin d'identifier RTX comme le plus grand contractant du DoD ? Trouver que l'IFFIm a levé 3,5 milliards de dollars grâce à des obligations vaccinales ? Les modèles extraient principalement des informations spécifiques à partir de documents, même lorsqu'elles sont enfouies dans des dizaines de pages. Le raisonnement logique atteint 66,2 %. Ils peuvent suivre des dérivations en plusieurs étapes, appliquer des formules correctement, valider des chaînes causales. Lorsque vous avez besoin d'une analyse systématique suivant des cadres établis, les modèles réussissent deux fois sur trois. Le gagnant surprise : les cadres de conseil avec une précision de 80 %. Les modèles structurent avec succès les analyses d'entrée sur le marché, les évaluations concurrentielles et les recommandations stratégiques. Ils comprennent que les Cinq Forces de Porter ne consistent pas seulement à lister des concurrents, mais à analyser les dynamiques de pouvoir de négociation. Des problèmes de chimie ? Taux de réussite de 70,6 %. Les modèles gèrent les mécanismes de réaction, les voies de synthèse et les calculs d'équilibre qui mettraient au défi la plupart des non-spécialistes. Ils calculent la molarité, prédisent les produits, équilibrent les équations à des niveaux qui passent les cours de niveau supérieur. Même en finance, où les modèles sont plus faibles à 63,7 %, ils complètent avec succès la plupart des modèles d'évaluation, interprètent les structures de titrisation et rédigent des mémos d'investissement cohérents. C'est près des deux tiers de l'analyse financière de niveau MBA traitée correctement. ProfBench révèle cela en testant quatre domaines professionnels avec 7 347 critères rédigés par des experts. Contrairement aux benchmarks étroits limités à des domaines uniques, il capture l'étendue du travail de connaissance. Et à 12 $ par évaluation (contre 8000 $ pour PaperBench), tout chercheur peut mesurer la véritable capacité. Bien sûr, les modèles ont du mal avec le formatage professionnel (65,3 %), les dérivations en physique (49,3 %), et ne peuvent pas encore parcourir 1 000 pages. Mais nous avons franchi un seuil où l'IA gère la majorité des tâches professionnelles correctement. Pas parfaitement. Pas complètement. Mais 65 % est suffisant pour changer fondamentalement la façon dont le travail de connaissance se déroule.

Meilleurs

Classement

Favoris