解码数据与市场中的相关性

为什么交易者关心相关性

在投资中,相关系数是管理投资组合风险和检测资产之间关系的关键工具。这个单一指标——范围从-1到1——告诉你两只证券的走势有多么紧密地同步。低相关或负相关的资产有助于分散持仓,而高度相关的资产会放大波动性。对于量化分析师和投资组合经理来说,理解哪些股票、债券或商品对(一起变动)或相反变动,直接影响对冲策略和仓位规模。

基础知识:相关系数衡量什么

从本质上讲,相关系数将两个变量之间的关系压缩成一个易于比较的数字。接近1的值表示两个变量同步上升和下降。接近-1的值显示它们朝相反方向运动。围绕0的值则表明线性关系微乎其微。

这个指标的魅力在于标准化。无论比较不同货币对、商品期货还是股指的价格变动,-1到1的尺度都可以直接比较,而不受基础单位或数值大小的影响。

三种主要方法:皮尔逊、斯皮尔曼和肯德尔

皮尔逊相关系数在金融分析中占主导地位。它精确衡量两个连续变量之间的线性关联。然而,它对线性关系的假设可能限制其应用。

当关系是单调但非严格线性,或数据中存在异常值和非正态分布时,斯皮尔曼等级相关更为可靠。这种基于等级的方法识别一个变量相对于另一个变量的升降是否保持一致,而不假设完全线性。交易者在分析价格行为不规则或市场压力时期的证券时,常偏好使用斯皮尔曼等级相关。

肯德尔tau提供另一种基于等级的替代方案,特别适用于样本较小或数据中有大量平局值的情况。两者在传统假设不成立时,优于皮尔逊。

选择合适的方法很重要:高皮尔逊值仅确认线性关系。曲线型或阈值依赖的关系,除非切换到斯皮尔曼等级相关或其他非参数技术,否则难以察觉。

数学原理

皮尔逊公式看似简单:

相关系数 = 协方差(X, Y) / (SD(X) × SD(Y))

这种标准化将依赖单位的协方差转化为-1到1的范围。

举例计算

取四个配对观察值:

  • X:2, 4, 6, 8
  • Y:1, 3, 5, 7

步骤1: 计算均值。X的平均值为5;Y的平均值为4。

步骤2: 计算每个值与均值的偏差。

步骤3: 将配对偏差相乘并求和,得到协方差的分子。

步骤4: 分别对偏差平方求和,开平方得到标准差。

步骤5: 将协方差除以两个标准差的乘积。

在此例中,r趋近于1,因为Y与X成比例上升。实际操作中,统计软件能瞬间完成这些计算,但理解逻辑有助于避免误解。

数字解读:基准阈值

没有统一的界限将“弱”与“强”区分开,但常用参考点包括:

  • **0.0到0.2:**几乎无关联
  • **0.2到0.5:**关系较弱
  • **0.5到0.8:**中等到强关联
  • **0.8到1.0:**非常强的联系

负值遵循相同尺度,但表示反向运动。比如-0.7表示相当强的负相关。

情境非常重要。物理学要求相关性接近±1才有统计意义。金融中,由于固有的噪声,通常接受较低的相关性作为有意义的。社会科学的标准则更低。

投资中的相关性:实际应用

###经典配对

**股票与债券:**美国股票与政府债券历来表现出低或负相关性,在股市下跌时为投资组合提供缓冲。

**油气公司:**直觉认为油企收益与原油价格紧密相关。数据常显示相关性适中且不稳定——提醒我们简单关系常常误导。

**货币交易:**不同货币对的相关性因经济周期、央行政策和资本流动而异。

战略用途

相关性用于配对交易(利用暂时偏离)、因子投资(管理系统性风险)、统计套利(寻找定价错误的关系)。量化团队不断监控历史相关性是否成立,关系破裂时调整仓位——尤其在危机期间,分散化的好处往往在最需要时消失。

避免的关键陷阱

**相关≠因果:**两个变量一起变并不意味着一个导致另一个。可能有第三个因素驱动两者。

**皮尔逊忽略曲线:**强烈的曲线关系在皮尔逊分析下可能表现为弱相关。斯皮尔曼等级相关常能揭示隐藏的非线性关系。

**异常值影响大:**单个极端数据点可能大幅改变r值,在数据受污染时,等级相关方法更稳健。

**样本量重要:**样本少时,相关性不可靠。10个观察值与10,000个的数值意义截然不同。

**分布需匹配:**非正态数据、类别变量或序数尺度违反皮尔逊假设。应使用列联表和Cramér’s V等指标。

快速计算相关性

Excel提供两种简便方法:

单一相关性: =CORREL(range1, range2) 立即返回皮尔逊r。

**相关矩阵:**启用分析工具包,从“数据分析”菜单选择“相关性”,输入范围。结果为所有系列两两相关系数的完整矩阵。

提示:仔细对齐范围,考虑标题,计算前检查异常值。

R与R平方:区别何在

R (相关系数)显示线性关系的强度和方向。值为-0.6,表示关系中等偏强且为负相关。

R平方 (R²) 将R值平方。R²=0.36意味着一个变量的36%的变异可以用另一个变量线性预测。R²反映解释能力;R代表拟合的紧密程度及方向。

保持更新:何时重新计算

市场环境变化。多年来有效的相关性在危机、技术变革或经济结构调整中可能崩溃。使用陈旧的相关性会导致对冲效果差、分散化效果虚假。

解决方案:每季度或新数据到达时重新计算相关性。更佳的是使用滚动窗口相关性,捕捉趋势,发现关系失稳。这种警觉能防止因过时假设导致的投资组合崩溃。

依赖相关性前的检查清单

  • 绘制散点图,确认线性关系合理
  • 检查异常值,决定是否剔除或调整
  • 确认数据类型和分布符合所用相关方法
  • 进行显著性检验,尤其样本较小时
  • 监控滚动时间窗口内的相关性稳定性
  • 若分布非正态或关系非线性,考虑使用斯皮尔曼等级相关

最后总结

相关系数是评估两个变量关系的实用捷径。它支持投资组合设计、风险管理和探索性分析。但它不是万能的。不能建立因果关系,在非线性关系中表现不佳,且易受样本大小和异常值影响。

应将相关性视为起点。结合散点图、斯皮尔曼等级相关等替代指标和显著性检验,构建更稳健、更可靠的决策。在市场中,这种严谨的方法常能将盈利策略与代价高昂的错误区分开来。

IN2.47%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)