Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Taelin
Loại / Uốn cong / HVM / INets / λGiải tích
Không có gì mới ở đây, chỉ là một ví dụ nhanh về việc sử dụng AI cho R&D.
(GPT-5.1 so với Opus 4.5)
Để có bối cảnh:
Chúng tôi có 2 phiên bản HVM có khả năng chạy SupGen:
→ HVM3: được sử dụng để phát triển, đạt 160 triệu tương tác/giây
→ HVM4: phiên bản đã được tinh chỉnh, đạt 130 triệu tương tác/giây
Tức là, phiên bản mới hiện đại hơn, nhưng hơi chậm hơn một chút, vì chúng tôi chưa tối ưu hóa nó.
Hôm qua, tôi đã khởi động 2 tác nhân lập trình: Opus 4.5 (ultrathink) và GPT-5.1-codex-max (xhigh), và yêu cầu họ tối ưu hóa HVM4 mới nhất càng nhiều càng tốt.
Kết quả: vài giờ sau, họ hoàn toàn thất bại.
Không có thậm chí +1%.
Tôi sau đó đã yêu cầu họ tiếp tục cố gắng.
Họ lại thất bại. Và lại. Trong nhiều giờ.
Vào một thời điểm nào đó, họ đã từ bỏ.
Họ từ chối thậm chí tiếp tục cố gắng.
GPT-5 đã viết:
> Tôi đã thử nhiều thay đổi cấu trúc và cấp thấp nhằm cắt giảm lưu lượng bộ nhớ và tăng cường thông lượng, nhưng mỗi lần thử đều làm hỏng bản dựng, giảm hiệu suất, hoặc không cải thiện được hơn mức ~120 triệu itrs/giây.
> Với ràng buộc clang -03 cố định và tính chất bị ràng buộc bộ nhớ của khối lượng công việc này, hiện tại tôi không có thay đổi khả thi nào có thể an toàn đẩy lên 140 triệu itrs/giây. Tiếp tục "chỉ cố gắng" có khả năng tạo ra nhiều sự suy giảm hơn là những lợi ích thực sự.
Vì vậy, tôi đã thử một điều khác: lần này, tôi đã sao chép/dán thư mục HVM3 cũ vào HVM4, và viết:
Đây là các triển khai HVM cũ và mới. Cái cũ chứa một số tối ưu hóa mà cái mới chưa thực hiện. Mục tiêu của bạn là hiểu sự khác biệt và chuyển tất cả các tối ưu hóa từ cái cũ sang kiến trúc mới.
Gửi điều đó cho Opus.
10 phút sau, tôi kiểm tra terminal.
"190 triệu tương tác mỗi giây"
Đó là... một cảnh tượng khá vui vẻ, vì đó là một kỷ lục tuyệt đối cho bài kiểm tra này. Chúng tôi chưa bao giờ thấy điều gì gần giống như vậy trong một CPU lõi đơn.
Điều này củng cố nhận thức của tôi về trạng thái của LLM:
→ Chúng cực kỳ giỏi trong lập trình.
→ Chúng cực kỳ kém trong đổi mới.
Cả hai mô hình đều hoàn toàn không thể đưa ra những ý tưởng mà chúng tôi đã làm, nhưng, một khi được tiêm vào giải pháp, chúng cực kỳ có năng lực trong việc thực hiện nó, đọc và viết rất nhiều mã, điều này tiết kiệm rất nhiều thời gian. Những tối ưu hóa quan trọng nhất từ HVM3 hiện đã có trên kiến trúc mới, đạt được một kỷ lục mới, và tôi không phải mã hóa gì cả. Tôi chỉ cần có ý tưởng để làm điều này, và nó đã hoạt động như một phép màu.
Để ghi nhận, tôi đã ngừng sử dụng Gemini 3 hoàn toàn. Tôi nghĩ đây là mô hình thông minh nhất trên thế giới, nhưng nó không thực sự phù hợp cho lập trình do việc theo dõi hướng dẫn kém, nhiều lỗi kết nối và độ trễ, và Gemini CLI hoạt động kém. GPT-5.1-codex-max thì khá ổn nhưng nó chậm và tôi vẫn chưa thấy nó vượt trội hơn Opus 4.5, mô hình của tôi cho mọi thứ một lần nữa. Tôi yêu cách mà các mô hình Claude luôn nhất quán trong lập trình, và tôi rất vui khi có một cái thực sự thông minh nữa.
59,23K
Tôi chỉ muốn ghi lại rằng hôm nay tôi đã tham gia Show của @FilipeDeschamps và tôi đã bị loại ngay từ những câu hỏi đầu tiên vì không biết những khái niệm *cơ bản* về lập trình (và tôi còn làm cho chat tức giận vì chậm trả lời 😭), và có người vẫn coi tôi là thông minh.
Tôi hy vọng điều này sẽ giải quyết vấn đề này một lần cho tất cả :3
68,29K
Hàng đầu
Thứ hạng
Yêu thích

