Nếu bạn đã theo dõi cảnh AI địa phương, có lẽ bạn đã biết về Qwopus—mẫu mã nguồn mở cố gắng tinh giản lý luận của Claude Opus 4.6 vào Qwen của Alibaba, để bạn có thể chạy một thứ gì đó giống Opus trên phần cứng của chính mình miễn phí. Nó hoạt động khá bất ngờ. Điều rõ ràng: Qwen là một mô hình Trung Quốc, và không phải ai cũng thoải mái với điều đó. Jackrong, cùng một nhà phát triển ẩn danh đứng sau dự án đó, đã nghe phản hồi. Câu trả lời của anh là Gemopus—một họ các mô hình tinh chỉnh theo phong cách Claude Opus mới, hoàn toàn dựa trên Gemma 4 mã nguồn mở của Google. DNA kiểu Mỹ, cùng ý tưởng: lý luận cấp frontier, chạy cục bộ trên phần cứng bạn đã sở hữu. Họ có hai phiên bản. Gemopus-4-26B-A4B là lựa chọn nặng hơn—mô hình Hỗn hợp Chuyên gia có tổng cộng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 4 tỷ trong quá trình suy luận, nghĩa là nó vượt xa trọng lượng của mình trên phần cứng hạn chế.

Tham số là thứ quyết định khả năng học hỏi, lý luận và lưu trữ thông tin của AI. Có 26 tỷ tham số tổng cộng mang lại cho mô hình một phạm vi kiến thức rộng lớn. Nhưng chỉ “đánh thức” 4 tỷ tham số phù hợp với yêu cầu cụ thể của bạn, nó cung cấp kết quả chất lượng cao của một AI khổng lồ trong khi vẫn nhẹ đủ để chạy mượt trên phần cứng hàng ngày. Phiên bản còn lại là Gemopus-4-E4B, một mô hình cạnh 4 tỷ tham số được thiết kế để chạy thoải mái trên iPhone hiện đại hoặc MacBook mỏng nhẹ—không cần GPU. Lựa chọn mô hình cơ bản ở đây rất quan trọng. Gemma 4 của Google, ra mắt ngày 2 tháng 4, được xây dựng trực tiếp từ cùng nghiên cứu và công nghệ như Gemini 3—công ty đã nói rõ điều này khi ra mắt. Điều đó có nghĩa là Gemopus mang trong mình điều mà không mô hình tinh chỉnh dựa trên Qwen nào có thể tuyên bố: DNA của mô hình đóng của Google, được bao bọc trong phong cách suy nghĩ của Anthropic ở trên. Tốt nhất của cả hai thế giới, hơn hoặc ít hơn.

Điều làm Gemopus khác biệt so với làn sóng các mô hình tinh chỉnh Gemma khác đang tràn ngập Hugging Face hiện nay chính là triết lý đằng sau nó. Jackrong cố ý chọn không ép các chuỗi lý luận theo kiểu Claude vào trọng số của Gemma—một thủ thuật mà phần lớn các bản phát hành cạnh tranh đều làm. Lập luận của anh, dựa trên nghiên cứu gần đây, là việc nhồi nhét một mô hình học sinh với văn bản lý luận bề mặt của giáo viên thực sự không chuyển giao khả năng lý luận thật sự. Nó dạy bắt chước, chứ không phải logic. “Không cần quá nhiều tưởng tượng hay sao chép mê tín chuỗi suy nghĩ kiểu Claude,” theo thẻ mô hình viết. Thay vào đó, anh tập trung vào chất lượng câu trả lời, rõ ràng cấu trúc và tự nhiên trong hội thoại—sửa lại phong cách cứng nhắc của Gemma như Wikipedia và xu hướng giảng giải về những điều bạn không hỏi. Kỹ sư hạ tầng AI Kyle Hessling đã chạy các bài kiểm tra độc lập và công bố kết quả trực tiếp trên thẻ mô hình. Phán đoán của anh về biến thể 26B khá tích cực. “Rất vui khi đã thử nghiệm khá kỹ và đây là một bản tinh chỉnh xuất sắc của một mô hình đã xuất sắc rồi,” anh viết trên X. “Nó rất tốt cho các yêu cầu một lần qua các ngữ cảnh dài, và chạy cực kỳ nhanh nhờ kiến trúc MOE (hỗn hợp chuyên gia).”

Gemopus-4-26B-A4B của Jackrong ĐANG HOẠT ĐỘNG!

Rất vui khi đã thử nghiệm khá kỹ (xem các bài kiểm tra của tôi trong thẻ mô hình) và đây là một bản tinh chỉnh xuất sắc của một mô hình đã xuất sắc rồi! Bạn của tôi, Jackrong, luôn sáng tạo ra những thứ tuyệt vời nhất!

Nó rất tốt cho các yêu cầu một lần qua các ngữ cảnh dài…

— Kyle Hessling (@KyleHessling1) 10 tháng 4, 2026

Phiên bản E4B nhỏ hơn vượt qua tất cả 14 bài kiểm tra năng lực cốt lõi—theo dõi hướng dẫn, lập trình, toán học, lý luận đa bước, dịch thuật, an toàn, bộ nhớ đệm—và vượt qua tất cả 12 bài kiểm tra ngữ cảnh dài ở 30K và 60K token. Trong các thử nghiệm tìm kiếm kim trong hay, nó đã vượt qua 13/13 probes, kể cả thử nghiệm kéo dài một triệu token với YaRN 8× RoPE scaling.

Phiên bản 26B mở rộng tự nhiên đến 131K ngữ cảnh và tới 524K với YaRN, điều mà Hessling cũng đã thử nghiệm căng thẳng: “Nó cũng vượt qua các bài kiểm tra kim trong hay của tôi tới ngữ cảnh mở rộng 524k!” Trên phần cứng cạnh, E4B thực sự nhanh. Jackrong báo cáo 45–60 token mỗi giây trên iPhone 17 Pro Max, và 90–120 token mỗi giây trên MacBook Air M3/M4 qua MLX. Kiến trúc MoE 26B có nghĩa là nó phân tải một cách linh hoạt trên hệ thống bộ nhớ thống nhất hoặc GPU có VRAM dưới 10GB. Hessling gọi đó là đề xuất sử dụng hàng ngày của anh cho các thiết lập thiếu VRAM.

Cả hai mô hình đều có định dạng GGUF, nghĩa là bạn có thể thả chúng trực tiếp vào LM Studio hoặc llama.cpp mà không cần cấu hình. Toàn bộ mã huấn luyện và hướng dẫn tinh chỉnh từng bước có trên GitHub của Jackrong—cùng pipeline anh đã dùng cho Qwopus, cùng thiết lập Unsloth và LoRA, có thể tái tạo trên Colab. Gemopus không phải không có những điểm chưa hoàn thiện. Gọi công cụ vẫn còn lỗi trên toàn bộ series Gemma 4 trong llama.cpp và LM Studio—gặp lỗi gọi, không phù hợp định dạng, vòng lặp—nên nếu workflow của bạn phụ thuộc vào các agent dùng công cụ bên ngoài, đây chưa phải là mô hình phù hợp. Chính Jackrong gọi nó là “một tham khảo khám phá kỹ thuật hơn là một giải pháp sẵn sàng cho sản xuất,” và khuyên dùng series Qwopus 3.5 của anh nếu bạn cần thứ gì đó ổn định hơn cho các công việc thực tế. Và vì Jackrong cố ý tránh tinh giản chuỗi lý luận theo phong cách Claude quá mức, đừng mong đợi nó cảm giác sâu sắc như Opus của Qwopus—đó là một sự đánh đổi có ý thức để đảm bảo ổn định, chứ không phải sơ suất.

Vâng, triết lý của dự án này là ưu tiên độ ổn định, tôi hiểu rằng các mô hình Gemma thường trở nên không ổn định nếu ép nhiều chuỗi suy nghĩ của Claude vào, bạn có thể thấy điều này khi thử nhiều tinh chỉnh Opus Gemma khác trên hugging face.

Jackrong đã thử…

— Kyle Hessling (@KyleHessling1) 10 tháng 4, 2026

Đối với những ai muốn đi sâu hơn vào tinh chỉnh Gemma cho lý luận đặc biệt, còn có một dự án cộng đồng riêng đáng theo dõi: Ornstein của nhà phát triển ẩn danh DJLougen, lấy cùng nền tảng Gemma 4 26B và tập trung cụ thể vào việc cải thiện chuỗi lý luận của nó mà không dựa vào logic hoặc phong cách của bất kỳ mô hình bên thứ ba nào. Một lời cảnh báo trung thực: Động thái huấn luyện của Gemma phức tạp hơn Qwen cho các nhà tinh chỉnh—biến động mất mát rộng hơn, nhạy cảm hơn với siêu tham số. Chính Jackrong cũng thừa nhận điều này. Nếu bạn cần một mô hình địa phương đã được thử nghiệm nhiều hơn cho quy trình sản xuất, series Qwopus 3.5 của anh vẫn đáng tin cậy hơn. Nhưng nếu bạn muốn một mô hình Mỹ với phong cách Opus, Gemopus hiện là lựa chọn tốt nhất của bạn. Một biến thể Gemopus 31B dày đặc hơn cũng đang trong pipeline, Hessling đã gợi ý nó là “một siêu phẩm chắc chắn.” Nếu bạn muốn thử chạy các mô hình cục bộ trên phần cứng của chính mình, hãy xem hướng dẫn của chúng tôi về cách bắt đầu với AI cục bộ.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
149.4K Phổ biến
#
Gate13thAnniversaryLive
414.99K Phổ biến
#
IsraelStrikesIranBTCPlunges
29.94K Phổ biến
#
US-IranTalksVSTroopBuildup
771.25K Phổ biến
#
CryptoMarketRecovery
97.19K Phổ biến

Ghim

sơ đồ trang web

Gemma của Google đã hoạt động giống như Gemini—Có người đã khiến nó nghĩ giống như Claude Opus nữa

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Ghim