我注意到最近几个月在人工智能市场发生了一些有趣的事情。派对结束了。那个大公司全资支持,我们可以像用自来水一样使用代币的时期,已经过去了。



两年来,我们生活在一种舒适的幻想中。OpenAI、Anthropic 和其他巨头们在烧投资者的钱来补贴我们的使用。所以我们做了什么?发出巨大的提示,千字的文本,要求 GPT-4 执行一些简单规则就能解决的荒谬任务。因为很便宜。因为我们不用考虑成本。

但现在,现实正敲门而入。代币变成了真正的货币。每个词、每个空格、每个标点——都要付费。当你开始扩展规模,当你的每日调用量升至数百万或数十亿时,那“1K 代币”微不足道的成本就变成了无人能止的血流。

问题是,大多数公司根本不知道钱花在哪里。人们看到月账单增长,却不知道该怎么办。

举个例子:你和 AI 交流时礼貌吗?“您好,能帮我一下吗?非常感谢……”没错。每个“please”和“thank you”都在被收费。模型没有情感,不需要教育。更令人担忧的是开发者创建的庞大系统提示,以确保稳定性。每次对话都要重新计算一千个指令代币。纯粹的浪费。

还有失控的 RAG(检索增强生成)。理论上它是完美的:检索最相关的三个文档,完毕。实际上?向量数据库会拉出十个随机的 PDF,每个都包含一万字,然后把所有内容都扔给模型。“你自己应付吧”,开发者这样想。结果:模型最终阅读了半个图书馆,你为每一页付费。

我甚至都不想提那些陷入无限循环的代理。这是一个代币的黑洞。如果 API 崩溃或逻辑陷入死胡同,代理会疯狂循环,消耗输出代币——而这些代币的成本远高于输入。你的信用卡在你睡觉时被耗尽。

但这里有个好消息:行业正在觉醒,寻找解决方案。语义缓存是最直接的。用户的问题本质上是重复的。“怎么重置我的密码?”已经被问了成千上万次。为什么每次都调用 GPT-4?语义缓存将问题转成向量,与之前的问题匹配,如果找到相似的,就直接从缓存返回。零代币消耗。延迟从几秒降到几毫秒。这不仅是节省,更是体验上的一次质变。

接下来是提示压缩。不是你手动删词,而是基于信息熵的算法,能识别出核心内容和噪声。可以压缩一千代币的文本,保持核心意思,只用三百代币。让机器之间用一种“火星文本”交流,我们听不懂,但模型理解得很透彻。你可以节省70%的费用。

但真正的转折点是模型路由。不要把所有任务都放在最贵的模型上。简单的实体提取、翻译、格式转换?发给本地运行的 Llama 3 8B 或 Claude 3 Haiku。几乎不用花钱。深度推理、复杂编程?那就调用 GPT-4 或 Claude 3.5 Sonnet。就像高效的公司:前台处理简单咨询,CEO 只专注策略。谁能做好这个,总代币成本能降到竞争对手的十分之一。

让我印象深刻的是,OpenClaw 和 Hermes 这样的框架已经在这个现实中运作。OpenClaw 对效率极度苛刻。不用粗暴地把整个上下文堆进去,而是强制模型输出结构化的内容——严格的 JSON 或二进制格式。在生成过程中去除冗余字符。AI 不“对话”,它“输出表格”。看似简单,但这是个巧妙的数据节省技巧。

Hermes 则走另一条路。动态记忆。只保留最近的 3-5 轮对话在工作记忆中。当超出限制时,一个轻量级模型会用几句话总结全部内容,并存入向量数据库。知识留存,历史被丢弃。这就像记忆手术,不是把垃圾扔掉。

但你知道最重要的思维转变是什么吗?不再把代币当作消耗品,而是当作投资。每个花出去的代币都是投资。回报在哪里?工单关闭率提高了吗?修复漏洞的时间缩短了吗?还是只是一句无意义的话?

如果某个功能用传统规则成本是 0.1 元,但用大模型集成只要 1 元,且转化率只提升 2%,你会毫不犹豫地选择。停止追求“庞大全面”的 AI,转而追求“精巧高效”的 AI。学会对业务部门说“不”。

这很反高潮,我知道。看起来很老套。但这正是 AI 行业走向成熟的方式。不是赛博朋克,而更像管理传统超市。每个代币都像店主计算每件商品一样。

最终,当潮水退去,你会发现谁是裸奔的。而这次退潮,是补贴的潮水退去。只有懂得把每一滴代币都当作黄金的人,才能迎接未来。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言