Google的Gemma已經像Gemini一樣——有人讓它也像Claude Opus一樣思考

如果你一直關注本地 AI 領域,你可能知道 Qwopus——這個開源模型,試圖將 Claude Opus 4.6 的推理能力濃縮到阿里巴巴的 Qwen 上,讓你可以在自己的硬體上免費運行類似 Opus 的模型。效果出乎意料地好。顯而易見的缺點:Qwen 是一個中國模型,並非每個人都對此感到舒服。 Jackrong,同一位以化名身份開發該項目的開發者,聽取了反饋。他的答案是 Gemopus——一個全新家族的 Claude Opus 風格微調模型,完全基於 Google 的開源 Gemma 4 架構打造。美國血統,同樣的理念:前沿推理能力,在你已擁有的硬體上本地運行。 這個家族有兩種版本。Gemopus-4-26B-A4B 是較重的選擇——一個專家混合模型,擁有 260 億個參數,但在推理時只激活約 40 億個,這意味著它在受限硬體上也能展現出超出其重量的性能。

參數數量決定了 AI 的學習、推理和存儲能力。擁有 260 億個參數,讓模型擁有廣泛的知識面。但通過只“喚醒”與特定提示相關的 40 億參數,它能在保持輕量的同時,提供大型 AI 的高質量結果,並能在日常硬體上流暢運行。 另一個是 Gemopus-4-E4B,一個 40 億參數的邊緣模型,設計用於在現代 iPhone 或輕薄的 MacBook 上輕鬆運行——不需要 GPU。  基礎模型的選擇很重要。Google 的 Gemma 4 於4月2日發布,直接基於同樣的研究和技術構建,與 Gemini 3 共享技術——公司在發布時明確表示。這意味著 Gemopus 擁有一些 Qwen 微調模型無法聲稱的特點:Google 自家最先進封閉模型的 DNA,包裹在 Anthropic 的思維風格之上。兩者的優點,或多或少。

使 Gemopus 與當前湧入 Hugging Face 的其他 Gemma 微調模型不同的,是其背後的理念。Jackrong 有意選擇不將 Claude 的思維鏈推理痕跡強加到 Gemma 的權重中——這是大多數競爭版本採用的捷徑。 他根據最新研究提出的論點是,將學生模型用教師的表層推理文本塞滿,並不真正轉移出真正的推理能力。這只教會模仿,而非邏輯。“沒有必要過度想像或迷信複製 Claude 風格的思維鏈,”模型說明中寫道。相反,他專注於答案質量、結構清晰和對話自然——修正 Gemma 僵硬的維基風格語調,以及它經常對你未曾詢問的事情進行說教的傾向。 AI 基礎設施工程師 Kyle Hessling 進行了獨立基準測試,並將結果直接發布在模型說明中。他對 26B 版本的評價相當正面。“很高興對這個模型進行了充分測試,它是對一個已經非常出色模型的優秀微調,”他在 X 上寫道。“它在長上下文的一次性請求中表現出色,並且由於 MOE 混合架構,運行速度非常快。”

Jackrong 的 Gemopus-4-26B-A4B 已上線!

很高興對這個模型進行了充分測試 (查看我的基準測試在模型說明中),它是對一個已經非常出色模型的優秀微調!我的朋友 Jackrong 總是在創造最棒的!

它在長上下文的一次性請求中表現出色……

— Kyle Hessling (@KyleHessling1) 2026年4月10日

較小的 E4B 版本通過了所有 14 項核心能力測試——指令遵循、編碼、數學、多步推理、翻譯、安全、快取——並且在 30K 和 60K 令牌的長上下文測試中全部通過。在針對針頭大海的檢索測試中,通過了 13/13 的測試,包括在一百萬令牌的擴展測試中使用 YaRN 8× RoPE 擴展。

26B 版本原生支持 131K 的上下文,並且通過 YaRN 擴展可達 524K,Hessling 也對此進行了壓力測試:“它在我簡單的針頭大海測試中,也徹底擊潰了,擴展到 524K 的長上下文!” 在邊緣硬體上,E4B 真正快速。Jackrong 報告稱,在 iPhone 17 Pro Max 上每秒 45–60 令牌,在 MacBook Air M3/M4 上通過 MLX 每秒 90–120 令牌。由於採用 MoE 架構,26B 模型在統一記憶體系統或 VRAM 不足 10GB 的 GPU 上也能優雅地卸載。Hessling 建議它是 VRAM 缺乏的日常使用首選。

兩個模型都以 GGUF 格式提供,這意味著你可以直接放入 LM Studio 或 llama.cpp,無需配置。完整的訓練代碼和逐步微調指南都在 Jackrong 的 GitHub 上——與他用於 Qwopus 的流程相同,使用相同的 Unsloth 和 LoRA 設置,可在 Colab 上復現。 Gemopus 並非沒有瑕疵。Tool calling 在 llama.cpp 和 LM Studio 的 Gemma 4 系列中仍然存在問題——呼叫失敗、格式不匹配、循環——因此如果你的工作流程依賴外部工具的代理,這還不是你的理想模型。Jackrong 自己稱其為“工程探索參考,而非完全商用的解決方案”,並建議需要更穩定的實際工作負載時使用他的 Qwopus 3.5 系列。 由於 Jackrong 有意避免激進的 Claude 風格思維鏈濃縮,不要期待它像 Qwopus 一樣深刻地具有 Opus 大腦——這是為了穩定性做出的有意取捨,而非疏忽。

是的,這個模型的理念是穩定第一,我理解 Gemma 模型如果強行加入大量 Claude 思維痕跡,往往會變得不穩定,你可以在 Hugging Face 上測試許多其他 Opus Gemma 微調模型時看到這一點。

Jackrong 嘗試了一個……

— Kyle Hessling (@KyleHessling1) 2026年4月10日

對於那些想深入研究 Gemma 微調以專注於推理的用戶,還有一個值得關注的社群項目:由化名開發者 DJLougen 推出的 Ornstein,該項目基於相同的 26B Gemma 4 基礎,專注於改進其推理鏈,並不依賴任何特定第三方模型的邏輯或風格。 一個誠實的警告:Gemma 的訓練動態比 Qwen 更為混亂——損失波動更大,超參數敏感度更高。Jackrong 自己也承認。如果你需要一個經過更多實戰驗證的本地模型用於生產流程,他的 Qwopus 3.5 系列仍然更為穩健。但如果你想要一個具有 Opus 風格潤色的美國模型,Gemopus 目前是你最好的選擇。一個更密集的 31B Gemopus 版本也在開發中,Hessling 預告它“絕對是一個爆款”。 如果你想嘗試在自己的硬體上運行本地模型,請參考我們的本地 AI 入門指南。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言