CDA考试专区 加入小组

915个成员 593个话题 创建时间:2017-12-06

进行主成分分析(PCA)之前,如果变量的取值范围相差很大,应当如何处理数据?

发表于2024-02-19 631次查看

进行主成分分析(PCA)之前,如果变量的取值范围相差很大,应当如何处理数据?

A.    直接使用协方差矩阵计算主成分。

B.    先对每个变量进行中心化,然后使用协方差矩阵计算主成分。

C.    对数据进行中心标准化,然后使用相关系数矩阵计算主成分。

D.    仅对取值范围大的变量进行中心化,然后使用协方差矩阵计算主成分。
参考答案: C
解析:当变量的取值范围不一时,直接使用协方差矩阵会导致方差大的变量对主成分的贡献过大,这会影响PCA结果的合理性。因此,应当首先对数据进行中心标准化(即减去均值并除以标准差),使得所有变量的取值范围在标准化后都具有可比性。中心标准化后,通常使用相关系数矩阵替代协方差矩阵来计算主成分,因为这样可以避免由于变量取值范围的差异对主成分分析结果的影响。

发表回复
你还没有登录,请先 登录或 注册!
话题作者
一站式数据科学在线教育平台