GoogleのGemmaはすでにGeminiのように機能している—誰かがClaude Opusのように考えるようにさせた

もしあなたがローカルAIシーンを追っているなら、おそらくQwopusをご存知でしょう—オープンソースのモデルで、Claude Opus 4.6の推論をAlibabaのQwenに蒸留し、無料で自分のハードウェア上でOpusに似たものを動かせるようにしたものです。驚くほど良く動作しました。明らかな欠点は:Qwenは中国製のモデルであり、誰もがそれに快適さを感じているわけではないということです。 同じ仮名の開発者であるJackrongは、そのフィードバックを聞きました。彼の答えはGemopusです—GoogleのオープンソースGemma 4を完全に基にした、Claude Opusスタイルの微調整の新しいファミリーです。アメリカンDNA、同じアイデア:最先端の推論を、すでに所有しているハードウェア上でローカルに動かすこと。 このファミリーは二つのバリエーションで展開されます。Gemopus-4-26B-A4Bはより重い選択肢—エキスパートの混合モデルで、合計260億のパラメータを持ちますが、推論時には約40億だけがアクティブになり、制約されたハードウェア上でも高いパフォーマンスを発揮します。

パラメータはAIの学習、推論、情報の記憶能力を決定するものです。260億のパラメータを持つことで、モデルは膨大な知識の幅を持ちます。しかし、特定のプロンプトに関連する40億のパラメータだけを「起動」させることで、巨大なAIの高品質な結果を提供しつつ、日常的なハードウェア上でもスムーズに動作させることができます。 もう一つはGemopus-4-E4Bで、40億パラメータのエッジモデルです。これは現代のiPhoneや薄型軽量のMacBook上で快適に動作するよう設計されており、GPUは不要です。  基本モデルの選択も重要です。GoogleのGemma 4は4月2日にリリースされ、同じ研究と技術から直接構築されたGemini 3と同じものです—リリース時に明示的にそう述べています。つまり、GemopusはQwenベースの微調整では主張できない何かを持っています:Googleの最先端のクローズドモデルのDNAを内包し、その上にAnthropicの思考スタイルを重ねているのです。ほぼ両方の良いところを兼ね備えたものです。

Gemmaの微調整の波と比べてGemopusが異なる点は、その哲学にあります。Jackrongは意図的にClaudeの連鎖的思考推論のトレースをGemmaの重みに強制しないことを選びました—これは多くの競合リリースが取る近道です。 彼の主張は、教師モデルの表層的な推論テキストを学生モデルに詰め込むだけでは、実際の推論能力は伝わらないというものです。それは模倣を教えるだけで、論理を教えるわけではありません。「Claudeスタイルの連鎖的思考の過剰な想像や迷信的な複製は必要ありません」とモデルカードには記されています。代わりに、回答の質、構造の明快さ、会話の自然さに焦点を当て、Gemmaの堅苦しいWikipedia調や、あなたが尋ねていないことについての講義調を改善しました。 AIインフラエンジニアのKyle Hesslingは独自のベンチマークを行い、その結果をモデルカードに直接掲載しました。彼の26Bバリアントに対する評価はかなり好意的です。「このモデルをかなり厳しくベンチマークしましたが、すでに優れたモデルの微調整として非常に優れています」とXで書いています。「長いコンテキストに対するワンショットリクエストに優れており、MOE(エキスパートの混合アーキテクチャのおかげで非常に高速に動作します。」

JackrongのGemopus-4-26B-A4Bは稼働中!

このモデルをかなり厳しくベンチマークしました)モデルカードのベンチマークを参照してください( そして、すでに優れたモデルの素晴らしい微調整です!私の友人Jackrongはいつも最高のものを作っています!

長いコンテキストに対するワンショットリクエストに優れている…

— Kyle Hessling )@KyleHessling1( 2026年4月10日

小型のE4Bバリアントは、14の主要能力テスト—指示追従、コーディング、数学、多段推論、翻訳、安全性、キャッシュ—をすべてクリアし、30Kと60Kトークンの長いコンテキストテストも突破しました。needle-in-haystack(針の中の針)検索では、YaRN 8× RoPEスケーリングを用いた100万トークンのストレッチテストも含めて、13/13のプローブに合格しています。

![])https://img-cdn.gateio.im/social/moments-04d154b95d-486ef60157-8b7abd-badf29(

26Bはネイティブに131Kのコンテキストに拡張でき、YaRNを使えば524Kまで拡張可能です。Hesslingもストレステストを行い、「私のシンプルなneedle-in-the-haystackテストも524kの拡張コンテキストまで圧倒しました!」と述べています。 エッジハードウェア上では、E4Bは非常に高速です。JackrongはiPhone 17 Pro Maxで45–60トークン/秒、MacBook Air M3/M4ではMLXを使って90–120トークン/秒と報告しています。26BのMoEアーキテクチャは、統合メモリシステムやVRAMが10GB未満のGPU上でもスムーズにオフロードします。Hesslingはこれを、VRAM不足の環境でのデイリードライバー推奨としています。

両モデルともGGUFフォーマットで提供されており、設定なしでLM Studioやllama.cppに直接導入可能です。完全なトレーニングコードとステップバイステップの微調整ガイドは、JackrongのGitHubにあります—Qwopusで使用したのと同じパイプライン、UnslothやLoRAの設定も同様に再現可能です。Colabでも動作します。 Gemopusにはいくつかの未解決の課題もあります。llama.cppやLM Studioでは、ツール呼び出しがGemma 4シリーズ全体で動作しません—呼び出し失敗、フォーマットの不一致、ループなどです。したがって、外部ツールを使うエージェントに依存するワークフローにはまだ適していません。Jackrong自身も「これはエンジニアリングの探索的リファレンスであり、完全な本番運用向けのソリューションではない」と述べており、より安定した運用を求める場合は自身のQwopus 3.5シリーズを推奨しています。 また、意図的にClaudeスタイルの連鎖的思考の蒸留を避けたため、Qwopusほど深くOpus的な思考を持つわけではありません—これは安定性のための意図的なトレードオフであり、見落としではありません。

そう、このモデルの哲学は安定性優先でした。GemmaモデルはClaudeの思考トレースを無理に詰め込むと不安定になりやすいと理解しています。hugging face上の多くのOpus gemma微調整をテストするとこれが見て取れます。

Jackrongは試みました…

— Kyle Hessling )@KyleHessling1( 2026年4月10日

推論に特化したGemma微調整を深く追求したい人向けには、別のコミュニティプロジェクトもあります:DJLougenによるOrnsteinです。これは同じ26BのGemma 4をベースにしており、特に推論チェーンの改善に焦点を当て、特定のサードパーティモデルのロジックやスタイルに頼らずに進めています。 一つの正直な注意点は、GemmaのトレーニングダイナミクスはQwenよりも複雑で、損失の変動が大きく、ハイパーパラメータの感度も高いということです。Jackrong自身もそう述べています。より実運用に耐えるローカルモデルが必要なら、彼のQwopus 3.5シリーズの方がより堅牢に検証されています。ただし、Opusスタイルの洗練されたアメリカンモデルを求めるなら、Gemopusが現状の最良の選択です。31Bのより密度の高いGemopusバリアントも開発中で、Hesslingはそれを「間違いなく素晴らしいもの」と予告しています。 ローカルモデルを自分のハードウェアで動かしてみたい方は、ローカルAIの始め方に関するガイドもご覧ください。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし