这个弗兰肯斯坦AI融合了Claude Opus、GLM和Qwen——并且超越了顶级模型

Decrypt · 2026-04-21T18:01:22+00:00

简要说明AI工程师Kyle Hessling将Jackrong的Claude Opus 4.6和GLM-5.1两个蒸馏微调模型合并成一个“ Frankenmerge ”。合并后需要进行“修复微调”以修正由两个独立训练模型之间的层边界引起的乱码代码输出。

Decrypt

2026-04-21 18:01:22

简要概述

AI工程师凯尔·赫斯林（Kyle Hessling）将Jackrong的Claude Opus 4.6和GLM-5.1的两个蒸馏微调模型合并成了一个单一的“怪兽合并”（frankenmerge）。
合并后需要进行“修复微调”（heal fine-tune），以修正由于两个模型之间的层边界而导致的乱码代码输出。
该模型在某些任务上会过度推理，但这是一个可解决的问题。

你以为Qwopus很酷，因为它把Qwen和Opus合在一起？好吧，拥有大量知识和充足空闲时间的AI工程师凯尔·赫斯林，刚刚把那个配方照搬过来，并把GLM——目前最优秀的推理模型之一——掺进了其中。结果是一款拥有180亿参数的怪兽合并（frankenmerge），既能在一块廉价GPU上运行，又在性能上胜过阿里巴巴最新的35B模型。如果你不懂的话，参数是训练过程中“写进”神经网络里的数值，就像旋钮一样——神经网络可以对它们进行调整：参数越多，模型能处理的知识和复杂度就越高，也需要更多内存才能运行。赫斯林，这位AI基础设施工程师，把Jackrong的两个Qwen3.5微调叠在一起：第0到第31层来自Qwopus 3.5-9B-v3.5——它将Claude 4.6 Opus的推理风格蒸馏为Qwen的基础模型；第32到第63层来自Qwen 3.5-9B-GLM5.1-Distill-v1——在同样的Qwen基础之上，使用z.AI的GLM-5.1教师模型在推理数据上进行训练。

该假设是：在推理的前半段给模型提供Opus风格的结构化规划，在后半段用GLM的任务分解支架——总共64层，合成到一个模型里。这项技术被称为“直通式”怪兽合并（passthrough frankenmerge）——不做混合，不对权重取平均，只是把各层原样叠加在一起。由于现有工具不支持Qwen 3.5那种混合的线性/全注意力架构，赫斯林不得不从零开始自己编写合并脚本。最终得到的模型在44项能力测试中通过了40项，击败了阿里巴巴的Qwen 3.6-35B-A3B MoE——后者需要22 GB显存——而在Q4_K_M量化下，它只用9.2 GB就能运行。一块NVIDIA RTX 3060就能轻松应付……从理论上讲。

赫斯林解释称，做出这个模型并不容易。最初的原始合并会输出乱码代码。但即便如此，他发布的测试模型在爱好者圈里还是有点“火起来”。赫斯林最终的修复是“修复微调”（heal fine-tune）——基本上是一段嵌入进模型、就像附录一样的QLoRA (代码，并且会对最终输出)进行强烈定向，覆盖所有注意力和投影。我们试了之后发现：虽然让Qwen、Claude Opus和GLM 5.1在我们的“土豆”上本地运行这个想法非常诱人，但现实是，这个模型在遇到推理时太擅长了，以至于会一直过度思考。把它用在一台运行MLX量化版本(的M1 MacBook上进行测试时)。我们在提示它生成常用的测试游戏后，推理链条太长，触发了令牌限制，于是给了我们一段很长的推理内容，但在零样本交互里却没有得到可用结果。对于任何想在消费者硬件上本地运行它、用于任何认真应用的人来说，这都是一个日常使用层面的拦路虎。我们稍微放宽了些要求，但情况仍然很有挑战。一个简单的“写一个贪吃蛇游戏”的提示就让它推理了40多分钟……其中大部分时间都在推理。

你可以在我们的Github仓库中看到结果。这是Qwopus谱系里一个已知的矛盾：Jackrong的v2微调是为了应对Qwen 3.5倾向于在内部反复陷入重复循环，以及“更经济地思考”的倾向。把两种推理蒸馏模型叠加到64层，似乎会在某些提示上把这种行为进一步放大。

这是一个可以解决的问题，开源社区大概率会把它解决掉。真正关键的是更广泛的模式：一位化名开发者发布了带有完整训练指南的专业微调模型，另一位爱好者用自定义脚本把它们叠在一起，跑了1,000次修复步骤，最终得到一个性能超过某家全球最大AI实验室发布的拥有350亿参数的模型。整个过程做出来的模型都可以塞进一个小文件里。这就是开源值得持续关注的原因——不仅是大实验室发布权重，更是那些在层层叠叠中一步步解决的方案，以及在公众视线之外发生的专业化。开发者加入的人越多，社区就越紧密，从周末项目走向前沿部署的距离就越近。此后，Jackrong也把赫斯林的仓库做了镜像；该模型在可用的前两周内，下载量已经累计超过三千次。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
GatePreIPOs首发SpaceX
29.71万热度
#
Gate13周年现场直击
75.13万热度
#
比特币反弹
17.13万热度
#
美伊二轮谈判进展
87.76万热度
#
香港证监会发布新监管框架
27.42万热度

这个弗兰肯斯坦AI融合了Claude Opus、GLM和Qwen——并且超越了顶级模型

简要概述

热门话题

GatePreIPOs首发SpaceX

Gate13周年现场直击

比特币反弹

美伊二轮谈判进展

香港证监会发布新监管框架

置顶