Tại Box, chúng tôi dành nhiều thời gian để thử nghiệm Box AI với các mô hình mới trên dữ liệu phi cấu trúc để xem chúng hoạt động tốt ở những lĩnh vực kiến thức thực tế nào. Như chúng tôi đã thấy từ các tiêu chuẩn, GPT-5 cung cấp một bước nhảy có ý nghĩa về khả năng so với GPT-4.1 trong các lĩnh vực lý luận, toán học, logic, lập trình và các lĩnh vực công việc khác. Dưới đây là một vài ví dụ về nơi những cải tiến này phát huy tác dụng trong thế giới thực: *GPT 5 ngữ cảnh hóa thông tin tốt hơn. Khi thực hiện việc trích xuất dữ liệu như số tiền USD cuối cùng trên một hóa đơn mà không có nhãn tiền tệ nhưng có địa chỉ ở London, GPT 5 phản hồi chính xác rằng cần có tỷ giá chuyển đổi từ USD sang GBP. So với đó, GPT 4.1 đã thấy hóa đơn cuối cùng và trả về nó, giả định về tiền tệ (không chính xác). * GPT-5 cung cấp phân tích đa phương thức tốt hơn. Đối với hồ sơ hàng năm của một công ty đại chúng, GPT-5 được yêu cầu tách một ô trong bảng từ một hình ảnh cho thấy sự thay đổi trong các thành phần vốn của công ty. Đầu bảng làm rõ rằng tất cả số lượng cổ phiếu đều tính bằng hàng nghìn, và GPT-5 rõ ràng nêu rõ sự chuyển đổi này, trong khi GPT-4.1 thì không, bị nhầm lẫn vì bảng nói về cổ phiếu và chú thích nói về cổ phần. * GPT-5 hoạt động tốt hơn với mức độ phức tạp cao của yêu cầu và dữ liệu. Khi thực hiện việc trích xuất dữ liệu trên một bản lý lịch cho tất cả các ngày bắt đầu công việc, tên vị trí công việc và tên nhà tuyển dụng, GPT-5 đã có thể lấy ra mọi mảnh dữ liệu trong khi GPT-4.1 dường như bị choáng ngợp và không trích xuất được các trường tương tự do kích thước của yêu cầu và độ phức tạp của tài liệu. * GPT-5 rõ ràng và cụ thể hơn trong các câu trả lời của mình. Trong một thỏa thuận gia công với 6 dịch vụ khác nhau được thảo luận rõ ràng, khi được hỏi về "5 dịch vụ cụ thể trong hợp đồng", GPT-5 sẽ trả về 5 dịch vụ đầu tiên và hỏi liệu có phải là cố ý khi dịch vụ thứ sáu không được hỏi đến. So với đó, GPT-4.1 chỉ trả về 5 dịch vụ đầu tiên mà không có bất kỳ caveats nào, điều này có thể dẫn đến sự nhầm lẫn cho người dùng. * GPT-5 tốt hơn trong việc diễn giải dữ liệu trong các lĩnh vực phức tạp. Đối với biểu đồ phân tích dòng chảy, thường được sử dụng trong miễn dịch học, GPT-5 đã xác định chính xác một tỷ lệ cao các tế bào chết và đưa ra các nguyên nhân gốc có thể dẫn đến tình huống này trong khi GPT-4.1 đưa ra lý do tối thiểu, cần có xác nhận thêm để có bất kỳ phỏng đoán nào từ dữ liệu thô. * GPT-5 có khả năng tốt hơn trong việc xác định sự không nhất quán trong mã. Khi được yêu cầu xác định các vấn đề trong một tệp mã python nhất định, trong khi cả GPT-5 và 4.1 đều có thể xác định các lỗi thực sự dẫn đến sự cố, chỉ có GPT-5 mới có thể suy luận ra những vấn đề tinh vi hơn, như in ra biến không chính xác khi điều đó sẽ không hợp lý trong ngữ cảnh của chương trình. Những cải tiến này trong toán học, lý luận, logic và chất lượng phản hồi trong các cửa sổ ngữ cảnh dài hơn rất hữu ích cho người dùng cuối trong công việc hàng ngày, nhưng chúng sẽ thể hiện rõ hơn với các tác nhân AI hoạt động lâu dài, đặc biệt khi không có con người trong quy trình để xác minh thông tin ở mỗi bước. Thật tuyệt vời khi thấy những cải tiến này tiếp tục xuất hiện trong các mô hình AI mới nhất vì điều này sẽ dẫn đến các tác nhân AI có thể được sử dụng trong các lĩnh vực công việc ngày càng quan trọng hơn.
78,12K