2026-04-27 11:42:08

我注意到最近几个月在人工智能市场发生了一些有趣的事情。派对结束了。那个大公司全资支持，我们可以像用自来水一样使用代币的时期，已经过去了。

两年来，我们生活在一种舒适的幻想中。OpenAI、Anthropic 和其他巨头们在烧投资者的钱来补贴我们的使用。所以我们做了什么？发出巨大的提示，千字的文本，要求 GPT-4 执行一些简单规则就能解决的荒谬任务。因为很便宜。因为我们不用考虑成本。

但现在，现实正敲门而入。代币变成了真正的货币。每个词、每个空格、每个标点——都要付费。当你开始扩展规模，当你的每日调用量升至数百万或数十亿时，那“1K 代币”微不足道的成本就变成了无人能止的血流。

问题是，大多数公司根本不知道钱花在哪里。人们看到月账单增长，却不知道该怎么办。

举个例子：你和 AI 交流时礼貌吗？“您好，能帮我一下吗？非常感谢……”没错。每个“please”和“thank you”都在被收费。模型没有情感，不需要教育。更令人担忧的是开发者创建的庞大系统提示，以确保稳定性。每次对话都要重新计算一千个指令代币。纯粹的浪费。

还有失控的 RAG（检索增强生成）。理论上它是完美的：检索最相关的三个文档，完毕。实际上？向量数据库会拉出十个随机的 PDF，每个都包含一万字，然后把所有内容都扔给模型。“你自己应付吧”，开发者这样想。结果：模型最终阅读了半个图书馆，你为每一页付费。

我甚至都不想提那些陷入无限循环的代理。这是一个代币的黑洞。如果 API 崩溃或逻辑陷入死胡同，代理会疯狂循环，消耗输出代币——而这些代币的成本远高于输入。你的信用卡在你睡觉时被耗尽。

但这里有个好消息：行业正在觉醒，寻找解决方案。语义缓存是最直接的。用户的问题本质上是重复的。“怎么重置我的密码？”已经被问了成千上万次。为什么每次都调用 GPT-4？语义缓存将问题转成向量，与之前的问题匹配，如果找到相似的，就直接从缓存返回。零代币消耗。延迟从几秒降到几毫秒。这不仅是节省，更是体验上的一次质变。

接下来是提示压缩。不是你手动删词，而是基于信息熵的算法，能识别出核心内容和噪声。可以压缩一千代币的文本，保持核心意思，只用三百代币。让机器之间用一种“火星文本”交流，我们听不懂，但模型理解得很透彻。你可以节省70%的费用。

但真正的转折点是模型路由。不要把所有任务都放在最贵的模型上。简单的实体提取、翻译、格式转换？发给本地运行的 Llama 3 8B 或 Claude 3 Haiku。几乎不用花钱。深度推理、复杂编程？那就调用 GPT-4 或 Claude 3.5 Sonnet。就像高效的公司：前台处理简单咨询，CEO 只专注策略。谁能做好这个，总代币成本能降到竞争对手的十分之一。

让我印象深刻的是，OpenClaw 和 Hermes 这样的框架已经在这个现实中运作。OpenClaw 对效率极度苛刻。不用粗暴地把整个上下文堆进去，而是强制模型输出结构化的内容——严格的 JSON 或二进制格式。在生成过程中去除冗余字符。AI 不“对话”，它“输出表格”。看似简单，但这是个巧妙的数据节省技巧。

Hermes 则走另一条路。动态记忆。只保留最近的 3-5 轮对话在工作记忆中。当超出限制时，一个轻量级模型会用几句话总结全部内容，并存入向量数据库。知识留存，历史被丢弃。这就像记忆手术，不是把垃圾扔掉。

但你知道最重要的思维转变是什么吗？不再把代币当作消耗品，而是当作投资。每个花出去的代币都是投资。回报在哪里？工单关闭率提高了吗？修复漏洞的时间缩短了吗？还是只是一句无意义的话？

如果某个功能用传统规则成本是 0.1 元，但用大模型集成只要 1 元，且转化率只提升 2%，你会毫不犹豫地选择。停止追求“庞大全面”的 AI，转而追求“精巧高效”的 AI。学会对业务部门说“不”。

这很反高潮，我知道。看起来很老套。但这正是 AI 行业走向成熟的方式。不是赛博朋克，而更像管理传统超市。每个代币都像店主计算每件商品一样。

最终，当潮水退去，你会发现谁是裸奔的。而这次退潮，是补贴的潮水退去。只有懂得把每一滴代币都当作黄金的人，才能迎接未来。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

我注意到最近几个月在人工智能市场发生了一些有趣的事情。派对结束了。那个大公司全资支持，我们可以像用自来水一样使用代币的时期，已经过去了。

熱門話題

WCTC交易王PK

比特幣突破7.9萬美元

加密市場普遍上漲

白宮記協晚宴發生槍擊事件

伊朗提出霍爾木茲海峽重開協議條件

置頂