Đánh giá nội bộ DeepSeek V4-Pro: Tỷ lệ vượt qua mã hóa Tiến gần bằng Opus 4.5, 52% người thử nghiệm ủng hộ làm Mẫu mặc định

Theo giám sát của Dongcha Beating, DeepSeek V4 hiếm khi tiết lộ dữ liệu nội bộ về việc thử nghiệm nội bộ. Nhóm đã thu thập khoảng 200 nhiệm vụ R&D thực tế từ hơn 50 kỹ sư, bao gồm phát triển chức năng, sửa lỗi, tái cấu trúc và chẩn đoán, với bộ công nghệ gồm PyTorch, CUDA, Rust và C++. Sau quá trình lựa chọn nghiêm ngặt, 30 nhiệm vụ được giữ lại làm bộ đánh giá. Tỷ lệ thành công của V4-Pro-Max là 67%, cao hơn đáng kể so với Sonnet 4.5 là 47%, và gần bằng Opus 4.5 là 70%, nhưng thấp hơn Opus 4.5 Thinking là 73% và Opus 4.6 Thinking là 80%. Tỷ lệ thành công của Haiku 4.5 chỉ là 13%. Trong một khảo sát nội bộ với N=85, tất cả các phản hồi đều cho biết đã sử dụng V4-Pro để lập trình tự động trong công việc hàng ngày. 52% tin rằng V4-Pro có thể làm mô hình lập trình chính mặc định, 39% có xu hướng đồng ý, và chưa đến 9% không đồng ý. Các phản hồi chính bao gồm lỗi cơ bản, hiểu nhầm các yêu cầu mơ hồ, và thỉnh thoảng suy nghĩ quá mức.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim