AI はすでに専門的なタスクの 65% を実行できることが判明しました... Nvidiaには38人の博士号とMBAがそれぞれベンチマークの作成に10 +時間を費やしていました。 彼らは実際の作業で40+モデルをテストしました。学術的な演習ではありません。若手アナリストや研究者が日々行っている実際の仕事。 GPT-5 のスコアは全体で 65.9% でした。 彼らは64.4%の精度で事実を抽出します。RTX を国防総省最大の請負業者として特定する必要がありますか?IFFImがワクチンボンドを通じて$3.5Bを調達したことがわかりましたか?モデルは、数十ページに埋もれている場合でも、ほとんどの場合、ドキュメントから特定の情報を引き出します。 論理的推論は66.2%に達します。彼らは、複数ステップの導出に従い、式を正しく適用し、因果連鎖を検証することができます。確立されたフレームワークに従った体系的な分析が必要な場合、モデルは 3 回中 2 回を提供します。 驚きの勝者:80%の精度でコンサルティングフレームワーク。モデルは、市場参入分析、競合評価、戦略的推奨事項をうまく構築します。彼らは、ポーターのファイブフォースは単に競合他社をリストアップするだけでなく、交渉力のダイナミクスを分析していることを理解しています。 化学の問題?成功率70.6%。モデルは、ほとんどの非専門家にとって困難な反応メカニズム、合成経路、および平衡計算を扱います。彼らはモル濃度を計算し、積を予測し、大学院のコースワークに合格するレベルで方程式のバランスをとっています。 モデルが63.7%と弱い金融分野でも、ほとんどのバリュエーションモデルを成功裏に完成させ、証券化構造を解釈し、一貫した投資メモを書く。これは、MBAレベルの財務分析のほぼ3分の2が正しく処理されていることになります。 ProfBench は、専門家が作成した 7,347 の基準を使用して 4 つの専門領域にわたってテストすることで、これを明らかにしています。 単一の分野に限定された狭いベンチマークとは異なり、知識の作業の幅広さを捉えています。また、評価ごとに 12 ドル (PaperBench は 8000 ドル) で、どの研究者でも実際の能力を測定できます。 確かに、モデルはプロフェッショナルな書式設定 (65.3%)、物理演算の導出 (49.3%) に苦労しており、まだ 1,000 ページをくまなく調べることができません。しかし、私たちはAIが専門的なタスクの大部分を正しく処理するという敷居を超えました。 完璧ではありません。完全ではありません。しかし、65%は、知識の働き方を根本的に変えるのに十分です。