如果你一直關注本地 AI 領域，你可能知道 Qwopus——這個開源模型，試圖將 Claude Opus 4.6 的推理能力濃縮到阿里巴巴的 Qwen 上，讓你可以在自己的硬體上免費運行類似 Opus 的模型。效果出乎意料地好。顯而易見的缺點：Qwen 是一個中國模型，並非每個人都對此感到舒服。 Jackrong，同一位以化名身份開發該項目的開發者，聽取了反饋。他的答案是 Gemopus——一個全新家族的 Claude Opus 風格微調模型，完全基於 Google 的開源 Gemma 4 架構打造。美國血統，同樣的理念：前沿推理能力，在你已擁有的硬體上本地運行。這個家族有兩種版本。Gemopus-4-26B-A4B 是較重的選擇——一個專家混合模型，擁有 260 億個參數，但在推理時只激活約 40 億個，這意味著它在受限硬體上也能展現出超出其重量的性能。

參數數量決定了 AI 的學習、推理和存儲能力。擁有 260 億個參數，讓模型擁有廣泛的知識面。但通過只“喚醒”與特定提示相關的 40 億參數，它能在保持輕量的同時，提供大型 AI 的高質量結果，並能在日常硬體上流暢運行。另一個是 Gemopus-4-E4B，一個 40 億參數的邊緣模型，設計用於在現代 iPhone 或輕薄的 MacBook 上輕鬆運行——不需要 GPU。基礎模型的選擇很重要。Google 的 Gemma 4 於4月2日發布，直接基於同樣的研究和技術構建，與 Gemini 3 共享技術——公司在發布時明確表示。這意味著 Gemopus 擁有一些 Qwen 微調模型無法聲稱的特點：Google 自家最先進封閉模型的 DNA，包裹在 Anthropic 的思維風格之上。兩者的優點，或多或少。

使 Gemopus 與當前湧入 Hugging Face 的其他 Gemma 微調模型不同的，是其背後的理念。Jackrong 有意選擇不將 Claude 的思維鏈推理痕跡強加到 Gemma 的權重中——這是大多數競爭版本採用的捷徑。他根據最新研究提出的論點是，將學生模型用教師的表層推理文本塞滿，並不真正轉移出真正的推理能力。這只教會模仿，而非邏輯。“沒有必要過度想像或迷信複製 Claude 風格的思維鏈，”模型說明中寫道。相反，他專注於答案質量、結構清晰和對話自然——修正 Gemma 僵硬的維基風格語調，以及它經常對你未曾詢問的事情進行說教的傾向。 AI 基礎設施工程師 Kyle Hessling 進行了獨立基準測試，並將結果直接發布在模型說明中。他對 26B 版本的評價相當正面。“很高興對這個模型進行了充分測試，它是對一個已經非常出色模型的優秀微調，”他在 X 上寫道。“它在長上下文的一次性請求中表現出色，並且由於 MOE 混合架構，運行速度非常快。”

Jackrong 的 Gemopus-4-26B-A4B 已上線！

很高興對這個模型進行了充分測試 (查看我的基準測試在模型說明中)，它是對一個已經非常出色模型的優秀微調！我的朋友 Jackrong 總是在創造最棒的！

它在長上下文的一次性請求中表現出色……

— Kyle Hessling (@KyleHessling1) 2026年4月10日

較小的 E4B 版本通過了所有 14 項核心能力測試——指令遵循、編碼、數學、多步推理、翻譯、安全、快取——並且在 30K 和 60K 令牌的長上下文測試中全部通過。在針對針頭大海的檢索測試中，通過了 13/13 的測試，包括在一百萬令牌的擴展測試中使用 YaRN 8× RoPE 擴展。

26B 版本原生支持 131K 的上下文，並且通過 YaRN 擴展可達 524K，Hessling 也對此進行了壓力測試：“它在我簡單的針頭大海測試中，也徹底擊潰了，擴展到 524K 的長上下文！” 在邊緣硬體上，E4B 真正快速。Jackrong 報告稱，在 iPhone 17 Pro Max 上每秒 45–60 令牌，在 MacBook Air M3/M4 上通過 MLX 每秒 90–120 令牌。由於採用 MoE 架構，26B 模型在統一記憶體系統或 VRAM 不足 10GB 的 GPU 上也能優雅地卸載。Hessling 建議它是 VRAM 缺乏的日常使用首選。

兩個模型都以 GGUF 格式提供，這意味著你可以直接放入 LM Studio 或 llama.cpp，無需配置。完整的訓練代碼和逐步微調指南都在 Jackrong 的 GitHub 上——與他用於 Qwopus 的流程相同，使用相同的 Unsloth 和 LoRA 設置，可在 Colab 上復現。 Gemopus 並非沒有瑕疵。Tool calling 在 llama.cpp 和 LM Studio 的 Gemma 4 系列中仍然存在問題——呼叫失敗、格式不匹配、循環——因此如果你的工作流程依賴外部工具的代理，這還不是你的理想模型。Jackrong 自己稱其為“工程探索參考，而非完全商用的解決方案”，並建議需要更穩定的實際工作負載時使用他的 Qwopus 3.5 系列。由於 Jackrong 有意避免激進的 Claude 風格思維鏈濃縮，不要期待它像 Qwopus 一樣深刻地具有 Opus 大腦——這是為了穩定性做出的有意取捨，而非疏忽。

是的，這個模型的理念是穩定第一，我理解 Gemma 模型如果強行加入大量 Claude 思維痕跡，往往會變得不穩定，你可以在 Hugging Face 上測試許多其他 Opus Gemma 微調模型時看到這一點。

Jackrong 嘗試了一個……

— Kyle Hessling (@KyleHessling1) 2026年4月10日

對於那些想深入研究 Gemma 微調以專注於推理的用戶，還有一個值得關注的社群項目：由化名開發者 DJLougen 推出的 Ornstein，該項目基於相同的 26B Gemma 4 基礎，專注於改進其推理鏈，並不依賴任何特定第三方模型的邏輯或風格。一個誠實的警告：Gemma 的訓練動態比 Qwen 更為混亂——損失波動更大，超參數敏感度更高。Jackrong 自己也承認。如果你需要一個經過更多實戰驗證的本地模型用於生產流程，他的 Qwopus 3.5 系列仍然更為穩健。但如果你想要一個具有 Opus 風格潤色的美國模型，Gemopus 目前是你最好的選擇。一個更密集的 31B Gemopus 版本也在開發中，Hessling 預告它“絕對是一個爆款”。如果你想嘗試在自己的硬體上運行本地模型，請參考我們的本地 AI 入門指南。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
15.02萬熱度
#
Gate13週年現場直擊
41.32萬熱度
#
美伊局勢和談與增兵博弈
77.1萬熱度
#
加密市場回升
9.7萬熱度
#
WCTC交易賽瓜分800萬USDT
62.52萬熱度

Google的Gemma已經像Gemini一樣——有人讓它也像Claude Opus一樣思考

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

美伊局勢和談與增兵博弈

加密市場回升

WCTC交易賽瓜分800萬USDT

置頂