去中心化的幻觉:单一公司数据库错误暴露加密基础设施的脆弱性

2025年11月18日,约有20%的互联网用户离线——这并非由于网络攻击,而是因为一次例行的数据库权限更新触发了Cloudflare(一个“保护”互联网免受此类故障的公司)隐藏的漏洞。

几分钟内,连锁反应开始:Twitter在发推中崩溃,ChatGPT冻结,Spotify停止流媒体播放。在加密货币领域呢?交易平台关闭,区块链浏览器失效,钱包界面返回500错误。长达五个半小时的时间里,自诩为抗审查、不可阻挡的行业完全陷入停滞。

令人心酸的讽刺是?区块链本身依然正常运行。比特币挖出区块,以太坊处理交易。没有共识失败,没有协议崩溃。用户所谓“拥有”的资产,根本无法访问。

事情究竟发生了什么:一次技术失误带来的灾难性影响

Cloudflare不同于其他主要云服务商,它不托管网站或出售计算能力,而是充当互联网的交通调度员——在用户与120个国家的服务之间架起一道屏障。该公司通过其全球网络处理了大约20%的全球互联网流量。

11月18日UTC时间11:05,Cloudflare对其ClickHouse数据库集群进行了看似例行的更改。目标合理:通过更新访问控制提升安全性和可靠性。但就在这里,现代基础设施的伪韧性崩塌了。

生成机器人保护配置的数据库查询没有包含数据库名称的过滤器。这意味着查询开始返回重复条目——一个来自默认数据库,另一个来自底层存储层。配置文件突然变得膨胀,从大约60个特征增加到超过200个。

Cloudflare的工程师曾设定了一个硬性限制:200个特征,认为这个数字远高于实际使用量。经典的工程逻辑:设定一个宽裕的安全边界,假设永远不会突破。直到它被突破。

超出限制的文件崩溃了机器人保护系统——这是Cloudflare整个控制层的核心组件。当一个系统崩溃,依赖它的系统也会跟着出问题。负责“哪些服务器正常运行”的健康监测系统也失效了。流量依然源源不断地到达Cloudflare的边缘节点,但没有路由的办法。

最初几小时,Cloudflare的工程师以为自己遭遇了大规模的分布式拒绝服务攻击。系统每五分钟就在“正常工作”和“完全崩溃”之间切换,因为有问题的配置不断被重建。但实际上没有攻击——只有一个数据库过滤器的缺失和一个被证明错误的假设。

到UTC时间17:06,正确的配置在全球范围内部署完毕。服务恢复了。危机得以化解。

加密行业未能庆祝——反而被揭露

虽然Web2平台首先且最明显地遭殃——Spotify中断流媒体、游戏会话中断、外卖系统崩溃——加密货币世界面对的却是更令人不安的真相。

多个交易平台无法加载,区块链浏览器下线,钱包服务失效,交易界面出现错误信息。而整个行业本想在Twitter上发声——结果发现Twitter也崩了。

这形成了一种奇异的沉默。在AWS十月故障期间,加密Twitter耗费数小时嘲笑“基础设施脆弱”和“中心化风险”。这次呢?没人能嘲笑任何东西。你用来批评单点故障的平台本身就是单点故障。

令人不舒服的是:区块链协议本身从未受到影响。 交易可以在链上处理。共识持续。所谓“无需信任、抗审查的金融”技术基础,完全按设计运作。

但这毫无意义。因为没有访问权限,功能完好的区块链也只是一个没人能读取的历史记录。

不可打破的模式:四次重大故障,根源相同

  • 2019年7月:Cloudflare故障。Coinbase下线,市场数据无法获取。
  • 2022年6月:又一次Cloudflare故障。多个加密平台暂停服务。
  • 2025年10月20日:AWS故障持续15小时。DynamoDB数据库故障引发依赖服务连锁崩溃。
  • 2025年11月18日:Cloudflare再次故障。五个半小时的广泛中断。

大约18个月内发生了四次重大基础设施事件。教训应当显而易见:中心化基础设施带来中心化的故障。

然而行业尚未吸取教训。

为什么“去中心化”仍只是营销术语而非技术现实

加密行业的全部理念建立在一个前提上:消除中间人,去除单点故障,打造无法被阻止的系统。

但现实却截然不同。

目前的“基础设施依赖链”像是某个怕被揭穿的笑话:

  • 主要交易所依赖亚马逊云服务
  • DNS和内容分发依赖Cloudflare
  • 区块链浏览器依赖Cloudflare
  • 分析平台依赖Cloudflare
  • 钱包界面依赖类似的中心化基础设施

所以,当Cloudflare更新数据库配置,导致其机器人保护崩溃时,整个行业——本应为避免此类场景而建立——竟然也会“下线”。

伪去中心化变得一目了然:协议层是真正分布式的,但访问层被三家控制大约60%云基础设施的公司所瓶颈化 (亚马逊云服务占30%,微软Azure占20%,谷歌云占13%)。

三家公司,其中两家在同一个月内都出现了故障。这不是冗余——这是集中脆弱。

疏忽的经济学

为什么这种事总在发生?为什么加密平台不建立假设会出现故障的基础设施?

答案令人沮丧地简单:成本高、复杂。

自己建基础设施意味着购买硬件、确保电力稳定、维护专用带宽、雇佣安全专家、建立地理冗余、设计灾难恢复方案、进行24/7监控。这需要大量资金和持续的运营开销。

使用Cloudflare只需提供信用卡信息,几分钟内即可部署。

创业公司追求快速上市。投资者要求资本效率。每个人都偏好便利而非韧性。

直到便利变得极其不便——而且显然,18个月内四次重大故障还不足以改变行为。

存在去中心化的替代方案:Arweave存储,IPFS分布式文件传输,Akash计算资源,Filecoin去中心化托管。它们都未获得广泛采用,因为它们比中心化方案更慢、更复杂、成本也更高。

行业口头上强调去中心化,但在原则与便利的真正权衡面前,仍然系统性地选择中心化方案。

监管者看到的——以及为何开始关注

30天内发生的三次重大故障引起了政策制定者的注意,他们终于意识到:少数几家科技公司可以关闭关键基础设施。

他们提出的问题:

  • 控制全球互联网20%的公司是否应被认定为“系统重要性机构”?
  • 互联网基础设施是否应作为公共事业受到监管?
  • “大到不能倒”的平台会发生什么?
  • 当故障在所谓的独立供应商间蔓延时,哪里还有冗余?

在之前的基础设施故障中,政策专家曾明确指出:当单一供应商失败时,媒体变得无法访问,安全通信停止,支撑数字社会的基础设施崩溃。

各国政府开始认识到,互联网基础设施的集中带来系统性风险。

但仅靠监管无法解决根本问题。真正的解决方案是行业自发采用去中心化基础设施——这需要让集中式故障带来的痛苦超过便利带来的好处。

谁都不愿回答的问题

2025年11月18日的故障并未“失败”——区块链协议依然在运行,节点保持共识,交易依然有效。

行业的集体自我欺骗破灭了。

这种欺骗在于相信:

  • 你可以在“可阻止”的基础设施上构建“不可阻止”的应用
  • “抗审查”在三家公司控制访问通道时毫无意义
  • “去中心化”在单一Cloudflare配置文件决定数百万交易时不成立
  • “无需信任的系统”在信任外包给中心化中介时不成立

如果区块链持续产生区块,但用户无法提交交易,它还能算在正常运作吗?技术上是的。实际上?不算。

行业没有应对基础设施在关键时刻失败的应急方案——比如市场崩盘时每秒都至关重要,或身份验证系统同时宕机时。

目前的“灾难恢复策略”很简单:等待Cloudflare修复问题,等待AWS恢复服务,等待微软发布补丁。希望故障不会碰巧发生在关键市场时刻。

这不是计划。这是伪装成业务连续性的瘫痪。

下一次的必然性

11月18日的故障之后,还会有下一次基础设施失效。可能源自AWS、Azure、Google Cloud,或是Cloudflare的其他配置变更。

可能下个月发生,也可能下周。

基础设施没有变化,依赖关系没有变化,行业激励也未改变——集中式方案仍然比分布式方案更便宜、更快、更方便。

没有任何结构性措施能阻止下一次故障,因为阻止它需要投入大量复杂性和冗余,而这些在真正需要时才会体现出价值。

当那一刻到来——当故障与关键市场事件、身份系统或最大财务损失同时发生时——行业将再次发现,“去中心化”仍然只是一种理念,而非架构。

而那些建立在假设基础设施永远可用的应用开发者,将会深刻体会到,这个假设其实是建立在沙子上的。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)