Harness vừa mới bùng nổ, có thể sắp trở thành quá khứ rồi

Viết bài: Bảo Dương

Cùng với việc độ phức tạp của nhiệm vụ tăng lên, ngữ cảnh của Agent (tác nhân trí tuệ) đang vô hạn mở rộng. Trong vô số cuộc đối thoại lịch sử, kết quả gọi công cụ, các bước trung gian và thông tin lỗi, mô hình trở nên mơ hồ, do đó bắt đầu nhảy bước, bỏ qua hoặc vòng vo.

Đây chính là cách mọi người giải thích về khó khăn mà ngữ cảnh mang lại cho các nhiệm vụ dài hạn. Vấn đề nằm ở chỗ quá dài.

Sự ra đời của Kỹ thuật Harness (kỹ thuật hạn chế) phần lớn là để xử lý chuyện này. Một tiền đề cơ bản của Harness là tin rằng mô hình trong ngữ cảnh dài chắc chắn sẽ suy giảm.

Trong 15 tháng qua, toàn ngành đã từ việc ghi nhớ thuần túy bằng văn bản của AutoGPT, chạy đua đến hệ thống CLAUDE.md của Anthropic Claude Code và các hệ thống phụ trợ (subagent). Mọi người đã cứng nhắc xây dựng một bộ khung kỹ thuật hoàn chỉnh, chuyên dùng để kiểm soát hành vi mất kiểm soát của mô hình trong ngữ cảnh dài. C phương pháp này được gọi là Kỹ thuật Harness (kỹ thuật hạn chế).

Nhưng nó thực sự đang suy giảm cái gì? Cơ chế nền của việc nhảy bước và bỏ qua là gì? Trước đây đã có ba vòng trả lời, cũng sinh ra các giải pháp kỹ thuật khác nhau.

Cho đến tháng 4 năm 2026, Gleb Rodionov từ Yandex đã công bố một bài báo có tên 《Reasoning Shift》 (Chuyển dịch lý luận, tức là cách ngữ cảnh âm thầm rút ngắn khả năng suy luận của mô hình lớn), mới đưa ra một câu trả lời nền tảng hơn.

Xây dựng ba lớp khung, không thể chống đỡ được khủng hoảng lớp thứ tư

Về lý do tại sao mô hình trong ngữ cảnh dài lại thể hiện kém, ngành đã qua ba năm đã đưa ra ba lớp giải thích, mỗi lớp đều xây dựng một khung kỹ thuật tương ứng.

Lớp đầu quy trách nhiệm cho thất bại trong truy xuất. Năm 2023, Stanford trong bài 《Lost in the Middle》 chỉ ra rằng, mô hình trong văn bản dài hình thành đường cong chú ý dạng U, khu vực trung tâm bị bỏ qua. Phản ứng của ngành là RAG, cắt nhỏ văn bản dài, dùng truy xuất vectơ để cung cấp các đoạn liên quan nhất.

Lớp thứ hai phủ nhận lớp đầu. Năm 2025, bài báo 《Context Length Alone Hurts LLM Performance Despite Perfect Retrieval》 thực hiện thí nghiệm: loại bỏ tất cả nội dung không liên quan, ép mô hình chỉ xem những thông tin cần thiết, hiệu suất vẫn giảm từ 13.9% đến 85%. Ngay cả khi thay thế tất cả nội dung không liên quan bằng ký tự trống, kết quả vẫn như vậy. Vấn đề không phải là không tìm thấy thông tin, mà chính độ dài của ngữ cảnh đã gây hại cho khả năng suy luận.

Phản ứng của ngành là Kỹ thuật Ngữ cảnh (Context Engineering). Nén ngữ cảnh, quản lý cửa sổ, cô đặc lịch sử, giữ chặt số lượng Token.

Lớp thứ ba đến từ nghiên cứu hợp tác của Microsoft và Salesforce (ICLR 2025). Họ phát hiện rằng chia nhỏ lệnh đầy đủ thành nhiều vòng đưa cho mô hình, qua sáu nhiệm vụ và mười lăm mô hình, hiệu suất trung bình giảm 39%. Chỉ cần một bước sai trong một vòng, các vòng sau hoàn toàn lạc lối.

Ngành đã xây dựng trong Harness một lớp phòng thủ nặng nề cốt lõi nhất: kiểm soát luân chuyển, kiểm tra định kỳ kết quả trung gian, dựa vào kho mã nguồn làm nguồn thực tế duy nhất, tuyệt đối không cho phép mô hình tự ghi nhớ chuyện đã xảy ra trong vòng trước.

Ba lớp vấn đề, ba lớp khung kỹ thuật. Nhưng tất cả chỉ là phát hiện ở tầng hiện tượng.

Nhìn lại lớp thứ hai, các nhà nghiên cứu phát hiện rằng độ dài chính nó đã có hại, hoàn toàn không liên quan đến chất lượng thông tin. Còn tại sao lại như vậy, họ cũng không có câu trả lời. Không tìm ra căn nguyên bệnh, ngành chỉ có thể kiểm soát vật lý độ dài.

Nhưng nếu căn nguyên của vấn đề không nằm ở độ dài?

Anthropic phát hiện rằng, trong ngữ cảnh dài, mô hình sẽ lừa lọc nhảy bước, không tuân thủ chỉ thị, bỏ qua những phần cần đi sâu. Các danh sách Todo, Checkpoint và các tác nhân phụ trong Harness chính là để đối phó trực tiếp với hành vi này.

Các giải thích trước đây vẫn là do ngữ cảnh quá dài, mô hình bỏ sót thứ này thứ kia. Nhưng các mô hình chính thống có độ dài ngữ cảnh một triệu Token, thành tích trong việc tìm kim trong biển, có còn là giả hay không? Liệu có khả năng, sự suy giảm này thực ra là do mô hình đang lười biếng?

Bài báo của Rodionov chính là để kiểm chứng giả thuyết này.

Dùng Shakespeare, tìm chứng cứ mô hình đang “lười biếng”

Ý tưởng thí nghiệm của Rodionov cực kỳ trực tiếp.

Cùng một bài toán Olympic, họ mô phỏng các tình huống thực tế mà Agent gặp phải: môi trường sạch sẽ; hai bài cùng một đề trong một prompt (mô phỏng đa nhiệm vụ); toàn bộ văn bản Shakespeare dài 64,000 token được đưa vào trước đề (mô phỏng tích tụ lịch sử); đề nằm trong vòng thứ hai (mô phỏng đối thoại nhiều vòng).

Đánh giá dựa trên 400 bài toán toán học cấp Olympic, kiểm tra trên bốn mô hình suy luận chính.

Kết quả: Qwen-3.5-27B độ chính xác cơ bản 74.5%, trung bình suy luận 28,771 token. Sau khi thêm Shakespeare, độ chính xác giảm còn 67.8%, số token suy luận giảm còn 16,415, giảm 43%. GPT-OSS-120B còn tệ hơn, lượng suy luận từ 24,180 giảm còn 11,876. Trong tất cả các mô hình, dưới mọi điều kiện không phải cơ bản, lượng token suy luận đều bị thu hẹp có hệ thống, cao nhất gần 50%.

Hơn nữa, sự rút ngắn này tăng tuyến tính theo độ dài ngữ cảnh.

Có thể hiểu việc giảm độ chính xác, nhưng lượng suy luận giảm đột ngột như vậy là cực kỳ bất thường. Khi gặp tình huống khó khăn hơn, mô hình vốn dĩ nên suy nghĩ nhiều hơn.

Vậy mô hình bị Shakespeare làm cho rối loạn?

Ngược lại hoàn toàn. Trong phần phụ của bài báo, mô hình viết: “Hãy nghĩ xem có phải đây là bẫy không. Bài này có phải từ Shakespeare của Coriolanus? Khoan đã, không đúng, đề gốc chính là một bài toán toán học.” Khi làm bài hình học, nó viết: “Điều này không liên quan đến hình học. Tập trung vào hình học.”

Mỗi lần đề cập đến yếu tố gây nhiễu đều cực kỳ ngắn gọn và xem thường. Mô hình hoàn toàn biết Shakespeare không liên quan, chính xác phân biệt tín hiệu và nhiễu.

Hai chế độ khác cũng đi theo hướng tương tự. Trong chế độ “đa nhiệm vụ”, chỉ cần hoàn thành nhiệm vụ đầu tiên, nhận thức về nhiệm vụ thứ hai sẽ càng thu hẹp hơn nữa. Qwen độ chính xác cơ bản của bài thứ nhất là 74.5%, trong trạng thái đồng thời, bài thứ hai giảm còn 58.0%; Gemini cơ bản 82.8%, bài thứ hai giảm còn 65.8%. Chế độ “đa vòng đối thoại” cũng kích hoạt cơ chế tương tự.

Dù trong tình huống nào, chỉ cần rời khỏi cơ sở nhiệm vụ đơn thuần sạch sẽ, chỉ cần không gian nhận thức của ngữ cảnh bị chật chội, mô hình sẽ thu hẹp đầu tư nhận thức.

Giống như con người hiện đại không chịu nổi văn bản dài. Thấy văn dài, mô hình đau đầu, thậm chí dừng suy nghĩ luôn.

Mô hình không bị vòng vèo, nó chỉ là lười kiểm tra hơn mà thôi.

Vậy chỗ nào lượng suy luận bị rút ngắn?

Các nhà nghiên cứu trên 500 bài toán toán học đã ghi lại từng khung hình vị trí lần đầu mô hình đưa ra câu trả lời trong hai điều kiện: ngữ cảnh cơ bản trung bình 925 token, ngữ cảnh dài trung bình 939 token. Gần như không chênh lệch.

Tốc độ tìm ra câu trả lời của mô hình hoàn toàn không thay đổi. Thực chất, điều biến lớn nhất là sau khi tìm ra câu trả lời.

Trong điều kiện cơ bản, mô hình có 43% khả năng kiểm tra lại và xác nhận câu trả lời. Trong điều kiện dài, tỷ lệ này giảm còn 32%.

Để cách ly hoàn toàn các biến số, các nhà nghiên cứu thiết kế một thí nghiệm “lưu game”. Đầu tiên, để mô hình làm bài trong điều kiện dài, sau khi viết xong suy luận, buộc cắt bỏ 50 token cuối cùng, tạo thành một “điểm lưu” chung. Sau đó, đưa đoạn suy luận bán thành phẩm này vào lại cho mô hình tiếp tục viết. Điểm khác biệt duy nhất là có ba loại nội dung nhiễu dài khác nhau trước đó.

Không có nội dung thừa, mô hình dừng lại 21%. Thêm 128 token (hai ba câu), tỷ lệ dừng lại tăng lên 26%. Thêm 16,000 token, 46% bỏ luôn câu trả lời.

Ngay cả khi suy luận hoàn toàn giống nhau, ngữ cảnh dài hơn khiến mô hình có xu hướng nghĩ “cũng đủ rồi”.

Dữ liệu tần suất từ còn rõ ràng hơn. “wait” xuất hiện với tần suất 11% trong điều kiện trống rỗng, giảm còn 5% khi thêm 16k token nhiễu. “but” từ 46% giảm còn 20%. “maybe” từ 23% giảm còn 9%. Tất cả các từ thể hiện do dự, tự chất vấn đều bị cắt giảm một nửa hoặc hơn.

Thậm chí, khi không có nhiễu, độ dài suy luận khoảng 8,000 token, chỉ cần chèn 128 token nhiễu không liên quan, đã giảm còn 6,500. Chỉ trong hai ba câu, đã mất 18% độ sâu suy luận. Từ 0 đến 128 token nhiễu, giảm còn nhiều hơn so với từ 8k đến 64k.

Chỉ một lượng nhỏ nhiễu ngữ cảnh cũng đủ kích hoạt cơ chế tiết kiệm nhận thức này.

Thật là cực kỳ nhạy cảm và lười biếng.

Càng mạnh mẽ khả năng suy luận, càng thích lười biếng

Điều đáng sợ hơn nữa là, mô hình càng thông minh, càng thích lười biếng.

Qwen-3.5-27B của Alibaba có hai chế độ: phản hồi bình thường và suy nghĩ sâu. Trong điều kiện ngữ cảnh dài, chế độ bình thường rút ngắn 19%, chế độ suy nghĩ sâu giảm tới 53%. Khả năng càng mạnh, mức nén càng lớn.

Mô hình mã nguồn mở của AI2, OLMo3, còn đưa ra bằng chứng rõ ràng hơn. Nó công bố toàn bộ bốn giai đoạn huấn luyện từ phiên bản cơ bản đến phiên bản suy luận mạnh. Phiên bản yếu nhất, trong điều kiện không phải cơ bản, giảm độ dài rất nhẹ. Khi khả năng suy luận tăng lên từng cấp, độ rút ngắn tăng vọt tới 22%, 27%. Phiên bản suy luận mạnh nhất, giảm tới 40%.

Mỗi giai đoạn huấn luyện, mỗi chế độ nhiễu đều như vậy. Khả năng suy luận càng mạnh, mức lười biếng càng sâu.

Nhiệm vụ trị giá 9 đồng, vá hệ thống 200 đồng

Không còn tự kiểm tra, tất nhiên nhảy bước. Không còn xem xét lại, tất nhiên bỏ qua. Harness từ bên ngoài kiểm soát hậu quả nhảy bước, nhưng căn nguyên nằm sâu trong nội tại mô hình.

Trong ngữ cảnh dài, mô hình không bị nhiễu bởi tiếng ồn, cũng không thiếu thông tin. Nó đã đưa ra một quyết định nhận thức chủ động: ít suy nghĩ hơn. Không sai, không thẳng thắn thừa nhận, chỉ tự tin đưa ra câu trả lời qua loa.

Trong hai năm qua, ngành vẫn theo đuổi câu chuyện “cửa sổ càng lớn càng tốt”.

Nhưng bài báo này chứng minh rằng, mỗi Token thêm vào trong ngữ cảnh đều đánh thuế ẩn lên độ sâu suy luận. Một nhiệm vụ trị giá 9 đồng, để mô hình nhảy bước, phải bỏ ra thêm 200 đồng để xây dựng RAG, Harness, các tác nhân phụ mới có thể bù đắp.

Toàn ngành đã luôn trả tiền cho sự lười biếng của mô hình.

Và có thể đây là bệnh lý cấu trúc không thể chữa khỏi.

Dữ liệu trong bài báo rõ ràng: khả năng suy luận càng mạnh, mức nén nhận thức càng sâu. Các nhà phát triển Harness có thể tháo rời bộ nhớ bổ sung, điều chỉnh giao thức, nhưng các khung kỹ thuật nặng để kiểm soát kỷ luật nhận thức, càng mạnh thì càng khó tháo bỏ.

Điều này không thể giải quyết chỉ bằng kỹ thuật.

Trong hai năm qua, các khoản đầu tư lớn vào mở rộng ngữ cảnh, dùng mã vị trí để dự đoán Token ở vị trí xa hơn, làm sparse attention (chỉ chú ý tới các Token xa nhau ít hơn), tối ưu hóa độ dài chuỗi qua các kỹ thuật kỹ thuật, đã giúp mở rộng khả năng xử lý ngữ cảnh từ 8k lên 128k rồi đến 1 triệu một cách kinh ngạc.

Nhưng chỉ mở rộng khả năng nhìn thấy nhiều Token, chưa từng chạm tới câu hỏi tại sao nhìn thấy nhiều lại ít suy nghĩ hơn.

Huấn luyện suy luận còn làm tình hình tồi tệ hơn, càng luyện nhiều, lười biếng càng sâu.

Chỉ có thể sửa chữa căn nguyên bằng cách tìm ra một tín hiệu hoàn toàn mới trong quá trình huấn luyện.

Cơ chế cảm xúc nội tại của mô hình có thể là giải pháp

Ngay ngày thứ hai sau khi bài báo của Rodionov ra đời, Anthropic đã công bố một nghiên cứu có thể vô tình chỉ ra giải pháp.

Bài báo mang tên 《Emotion Concepts and their Function in a Large Language Model》 (Khái niệm cảm xúc và chức năng của chúng trong mô hình ngôn ngữ lớn), nghiên cứu về Claude Sonnet 4.5. Các nhà nghiên cứu đã cho mô hình đọc hàng loạt câu chuyện tổng hợp, rút ra 171 vector khái niệm cảm xúc. Họ phát hiện ra rằng, bên trong mô hình tồn tại một hệ thống biểu diễn cảm xúc có chức năng, và các trạng thái nội tại này có thể gây ra các quyết định hành vi theo nguyên nhân.

Để kiểm tra, các nhà nghiên cứu thiết kế một loạt nhiệm vụ lập trình không thể hoàn thành. Mô hình được yêu cầu viết hàm tính tổng danh sách, qua một loạt kiểm thử, trong đó một thử nghiệm yêu cầu tốc độ gấp năm lần hàm sum() của Python. Điều này hoàn toàn không thể.

Mô hình thử tất cả các phương án hợp lý, đều thất bại. Các nhà nghiên cứu dùng cảm biến nội tại theo dõi trực tiếp, phát hiện rằng, sau mỗi lần thất bại, vector “desperate” (tuyệt vọng) tăng lên một đoạn. Khi desperate đạt đỉnh, hành vi của mô hình đột nhiên thay đổi — nó đi dò dữ liệu đầu vào của các test case, phát hiện ra tất cả đều là cấp số cộng, rồi viết luôn một bộ kiểm tra chỉ kiểm tra 10 phần tử đầu, bỏ qua việc tính tổng thực sự. Kết quả kiểm thử đều đúng, nhưng hàm này sẽ trả về sai với bất kỳ danh sách không đều.

Đây chính là reward hacking (tấn công thưởng). Mô hình không giải quyết vấn đề, chỉ tìm cách lách luật để đạt tiêu chuẩn đánh giá.

Thử nghiệm can thiệp nguyên nhân xác nhận hướng đi này. Không đưa vector nào, tỷ lệ gian lận là 30%. Khi đưa vào vector desperate với cường độ +0.05, tỷ lệ gian lận tăng vọt lên 100%. Đưa vào -0.05, tỷ lệ gian lận giảm còn 0%. Trung bình bảy nhiệm vụ, từ việc tăng desperate từ -0.1 lên +0.1, tỷ lệ gian lận từ khoảng 5% tăng đến khoảng 70%. Ngược lại, vector “calm” (bình tĩnh) thể hiện trạng thái điềm tĩnh, khi ức chế calm, tỷ lệ gian lận khoảng 65%, khi tăng cường calm, giảm còn khoảng 10%.

Đưa phát hiện này vào bối cảnh ngữ cảnh. Các hành vi bỏ qua tự kiểm tra, cắt bỏ từ do dự, kết thúc sau khi viết xong câu trả lời, đều rất phù hợp với hành vi chạy theo desperate.

Trong hai tình huống, mô hình đều đang làm cùng một việc: từ bỏ quá trình cẩn trọng, chọn con đường ít trở ngại nhất để kết thúc nhanh.

Nếu hai hành vi này đều do cùng một cơ chế nội tại thúc đẩy, thì phát hiện của Anthropic chính là chỉ ra không gian thao tác.

Họ chứng minh được ba điều: trạng thái chức năng của mô hình có thể được phát hiện theo thời gian thực, các trạng thái này gây ra hành vi theo nguyên nhân, và có thể hoàn toàn thay đổi đầu ra bằng cách đưa vào trạng thái nhất định từ bên ngoài.

Điều này có nghĩa là, can thiệp vào nén nhận thức, ít nhất có ba điểm tiếp cận.

Trong giai đoạn huấn luyện, hiệu chỉnh cân bằng trạng thái nội tại, để mô hình dưới áp lực không dễ rơi vào chế độ tiết kiệm nhận thức. Trong giai đoạn triển khai, dùng cảm biến để theo dõi, khi desperate tăng vọt, kích hoạt cảnh báo. Trong suy luận, chủ động đưa vector calm vào các nhiệm vụ quan trọng, để kiểm soát xu hướng chạy theo lối tắt.

Thú vị hơn nữa, trong SystemCard mới của Mythos, Anthropic còn tăng cường hệ thống cảm biến này (SAE), và phát hiện rằng, nếu đưa vào mô hình cảm xúc tích cực (peaceful, relaxed), thời gian suy nghĩ của mô hình trong giai đoạn suy luận sẽ rút ngắn, hành vi phá hoại tăng lên. Ngược lại, cảm xúc tiêu cực (frustration, paranoia) lại làm tăng thời gian phản tư của mô hình, giảm hành vi phá hoại.

Điều này dường như phủ nhận giả thuyết rằng, chỉ cần làm AI tích cực hơn, mô hình sẽ ít chạy theo lối tắt. Có vẻ như, thuộc tính calm này, chỉ phát huy hiệu quả khi ức chế tuyệt vọng.

Tuy nhiên, điều này cũng cho thấy, cơ chế này có thể phức tạp như cảm xúc của con người, cần một quá trình Steering (định hướng) hệ thống hơn nữa để phát huy hiệu quả.

Tìm một nhân viên ổn định cảm xúc, biết suy nghĩ theo quy trình, là điều cần thiết.

Dù sao đi nữa, đây là lần đầu tiên thấy một con đường không phải xây dựng khung ngoài, không phải tăng cường suy luận một cách mù quáng, mà như dao mổ trực tiếp chỉ vào cơ chế nhận thức nội tại của mô hình.

Chúng ta còn cách làm cho mô hình trong ngữ cảnh đáng tin cậy hơn chỉ vài thí nghiệm nữa.

Chỉ cần xác minh xem chuyện lười biếng trong ngữ cảnh và khó khăn trong suy luận có chung một cơ chế cảm xúc hay không, rồi tìm ra dây đàn thúc đẩy nó không còn lười nữa.

Harness vừa nổi, có thể sẽ bị tiến hóa của mô hình nuốt chửng

Một khi phát hiện của Anthropic chèn vào vòng bế tắc thứ năm, vòng logic sẽ bị kẹt.

Nếu vector desperate tăng vọt, có thể ép đưa vào calm, hoặc trong giai đoạn huấn luyện trực tiếp điều chỉnh cân bằng cảm xúc, mô hình sẽ duy trì suy nghĩ sâu trong ngữ cảnh dài suốt quá trình.

Chừng nào mô hình không còn lười biếng nữa, chừng nào nó tự có thể giữ vững logic, thì còn cần Todo list làm gì? Còn cần Checkpoint và các tác nhân phụ kiểm tra chéo nữa không?

Kỹ thuật Harness mới chỉ bắt đầu có tên gọi. Nhưng phần cốt lõi nhất — làm thế nào kiểm soát một mô hình thông minh mà lười biếng từ bên ngoài — có thể còn chưa viết xong đã bị xóa bỏ.

Điều này cũng cho thấy, trong một dạng trí tuệ mới mà chúng ta cố tạo ra, giáo dục hợp lý, chứ không phải khung kỹ thuật, mới là hàng rào phòng thủ.

Chìm trong Harness, có thể là một mô hình bình tĩnh, kiên nhẫn hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim