这个弗兰肯斯坦AI融合了Claude Opus、GLM和Qwen——并且超越了顶级模型

简要概述

  • AI工程师凯尔·赫斯林(Kyle Hessling)将Jackrong的Claude Opus 4.6和GLM-5.1的两个蒸馏微调模型合并成了一个单一的“怪兽合并”(frankenmerge)。
  • 合并后需要进行“修复微调”(heal fine-tune),以修正由于两个模型之间的层边界而导致的乱码代码输出。
  • 该模型在某些任务上会过度推理,但这是一个可解决的问题。

你以为Qwopus很酷,因为它把Qwen和Opus合在一起?好吧,拥有大量知识和充足空闲时间的AI工程师凯尔·赫斯林,刚刚把那个配方照搬过来,并把GLM——目前最优秀的推理模型之一——掺进了其中。结果是一款拥有180亿参数的怪兽合并(frankenmerge),既能在一块廉价GPU上运行,又在性能上胜过阿里巴巴最新的35B模型。 如果你不懂的话,参数是训练过程中“写进”神经网络里的数值,就像旋钮一样——神经网络可以对它们进行调整:参数越多,模型能处理的知识和复杂度就越高,也需要更多内存才能运行。 赫斯林,这位AI基础设施工程师,把Jackrong的两个Qwen3.5微调叠在一起:第0到第31层来自Qwopus 3.5-9B-v3.5——它将Claude 4.6 Opus的推理风格蒸馏为Qwen的基础模型;第32到第63层来自Qwen 3.5-9B-GLM5.1-Distill-v1——在同样的Qwen基础之上,使用z.AI的GLM-5.1教师模型在推理数据上进行训练。

该假设是:在推理的前半段给模型提供Opus风格的结构化规划,在后半段用GLM的任务分解支架——总共64层,合成到一个模型里。  这项技术被称为“直通式”怪兽合并(passthrough frankenmerge)——不做混合,不对权重取平均,只是把各层原样叠加在一起。由于现有工具不支持Qwen 3.5那种混合的线性/全注意力架构,赫斯林不得不从零开始自己编写合并脚本。最终得到的模型在44项能力测试中通过了40项,击败了阿里巴巴的Qwen 3.6-35B-A3B MoE——后者需要22 GB显存——而在Q4_K_M量化下,它只用9.2 GB就能运行。 一块NVIDIA RTX 3060就能轻松应付……从理论上讲。

赫斯林解释称,做出这个模型并不容易。最初的原始合并会输出乱码代码。但即便如此,他发布的测试模型在爱好者圈里还是有点“火起来”。 赫斯林最终的修复是“修复微调”(heal fine-tune)——基本上是一段嵌入进模型、就像附录一样的QLoRA (代码,并且会对最终输出)进行强烈定向,覆盖所有注意力和投影。 我们试了之后发现:虽然让Qwen、Claude Opus和GLM 5.1在我们的“土豆”上本地运行这个想法非常诱人,但现实是,这个模型在遇到推理时太擅长了,以至于会一直过度思考。 把它用在一台运行MLX量化版本(的M1 MacBook上进行测试时)。我们在提示它生成常用的测试游戏后,推理链条太长,触发了令牌限制,于是给了我们一段很长的推理内容,但在零样本交互里却没有得到可用结果。对于任何想在消费者硬件上本地运行它、用于任何认真应用的人来说,这都是一个日常使用层面的拦路虎。 我们稍微放宽了些要求,但情况仍然很有挑战。一个简单的“写一个贪吃蛇游戏”的提示就让它推理了40多分钟……其中大部分时间都在推理。

你可以在我们的Github仓库中看到结果。 这是Qwopus谱系里一个已知的矛盾:Jackrong的v2微调是为了应对Qwen 3.5倾向于在内部反复陷入重复循环,以及“更经济地思考”的倾向。把两种推理蒸馏模型叠加到64层,似乎会在某些提示上把这种行为进一步放大。

这是一个可以解决的问题,开源社区大概率会把它解决掉。真正关键的是更广泛的模式:一位化名开发者发布了带有完整训练指南的专业微调模型,另一位爱好者用自定义脚本把它们叠在一起,跑了1,000次修复步骤,最终得到一个性能超过某家全球最大AI实验室发布的拥有350亿参数的模型。整个过程做出来的模型都可以塞进一个小文件里。 这就是开源值得持续关注的原因——不仅是大实验室发布权重,更是那些在层层叠叠中一步步解决的方案,以及在公众视线之外发生的专业化。开发者加入的人越多,社区就越紧密,从周末项目走向前沿部署的距离就越近。 此后,Jackrong也把赫斯林的仓库做了镜像;该模型在可用的前两周内,下载量已经累计超过三千次。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论