Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hóa ra AI đã có thể thực hiện 65% các nhiệm vụ chuyên nghiệp...
Nvidia đã có 38 tiến sĩ và MBA dành hơn 10 giờ mỗi người để tạo ra các tiêu chuẩn đánh giá.
Họ đã thử nghiệm hơn 40 mô hình trên công việc thực tế. Không phải là các bài tập học thuật. Công việc thực tế mà các nhà phân tích và nhà nghiên cứu junior làm hàng ngày.
GPT-5 đạt 65,9% tổng thể.
Họ trích xuất thông tin với độ chính xác 64,4%. Cần xác định RTX là nhà thầu lớn nhất của DoD? Tìm rằng IFFIm đã huy động được 3,5 tỷ đô la thông qua trái phiếu vaccine? Các mô hình chủ yếu lấy thông tin cụ thể từ tài liệu, ngay cả khi nó bị chôn vùi trong hàng chục trang.
Lý luận logic đạt 66,2%. Họ có thể theo dõi các suy diễn nhiều bước, áp dụng công thức một cách chính xác, xác thực chuỗi nguyên nhân. Khi bạn cần phân tích hệ thống theo các khuôn khổ đã thiết lập, các mô hình cung cấp kết quả hai trên ba lần.
Người chiến thắng bất ngờ: các khuôn khổ tư vấn với độ chính xác 80%. Các mô hình thành công trong việc cấu trúc phân tích thị trường, đánh giá cạnh tranh và khuyến nghị chiến lược. Họ hiểu rằng Năm Lực Lượng của Porter không chỉ là liệt kê các đối thủ cạnh tranh mà còn phân tích động lực quyền lực thương lượng.
Vấn đề hóa học? Tỷ lệ thành công 70,6%. Các mô hình xử lý cơ chế phản ứng, các con đường tổng hợp và các phép tính cân bằng mà sẽ thách thức hầu hết những người không chuyên. Họ đang tính toán molarity, dự đoán sản phẩm, cân bằng phương trình ở mức độ mà vượt qua khóa học sau đại học.
Ngay cả trong tài chính, nơi các mô hình yếu hơn với 63,7%, họ hoàn thành thành công hầu hết các mô hình định giá, giải thích cấu trúc chứng khoán hóa và viết các bản ghi nhớ đầu tư mạch lạc. Đó gần như là hai phần ba phân tích tài chính ở cấp độ MBA được xử lý đúng cách.
ProfBench tiết lộ điều này bằng cách thử nghiệm trên bốn lĩnh vực chuyên nghiệp với 7.347 tiêu chí do chuyên gia viết.
Khác với các tiêu chuẩn hẹp giới hạn trong các lĩnh vực đơn lẻ, nó nắm bắt được chiều rộng của công việc tri thức. Và với 12 đô la cho mỗi đánh giá (so với 8000 đô la cho PaperBench), bất kỳ nhà nghiên cứu nào cũng có thể đo lường khả năng thực tế.
Chắc chắn, các mô hình gặp khó khăn với định dạng chuyên nghiệp (65,3%), các suy diễn vật lý (49,3%), và vẫn chưa thể lục lọi qua 1.000 trang. nhưng chúng ta đã vượt qua một ngưỡng mà AI xử lý phần lớn các nhiệm vụ chuyên nghiệp một cách chính xác.
Không hoàn hảo. Không hoàn toàn. nhưng 65% là đủ để thay đổi cơ bản cách thức công việc tri thức diễn ra.

Hàng đầu
Thứ hạng
Yêu thích

