俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选合适的图、选合适的工具画图(例如能交互的图就比静态图更吸引人)。图形的选择可以参考CDA数据分析师认证一级教材中关于图表与分析场景的对应关系来选择合适的图。本文主要给大家分享一款绘...
“ 三种方法对比来看,非对称变量在聚类分析中选用百分位秩和 Tukey 正态分布比较多,在回归分析中取对数比较多。因为商业上的聚类模型关心的是客户的排序情况,回归模型关心的是其具有经济学意义,自然对数表达的是百分比的变化。”---摘自CDA数据分析师Level II教材6.3.6《连续变量分布形态转...
“ 常见的连续变量降维分为主成分分析、因子分析和变量聚类等方法。另外分类变量的降维则使用概化处理。”在CDA数据分析师Level II新教材《量化策略分析》第六章市场调研与数据预处理中有这样一个知识点,如下图。概化处理这个词你可能听的比较少,那么这项技术是如何实施,又为何需要呢?本文来带你详细学习。...
“分箱方法是通过考察数据的“近邻”来光滑有序数据的值,使有序值分布到一些桶或箱中。通常分为两种方法,分别是等深分箱和等宽分箱。“--摘自CDA数据分析师2级教材第六章《市场调研与数据预处理》。最近在做一个数据分析项目时,遇到了一个头疼的问题。从数据噪声,到分箱方法年前,我们手头有一组银行用户的交易数...
“在数据分析中,并不是所有变量都能直接用来计算,比如像“红蓝”这样的分类变量。在利用和处理这种分类数据时,经常不能直接拿来使用。“最近在球圈出了一个新闻:曼城俱乐部官方宣布签下埃及前锋马尔穆什!英超联赛官方预告,2月23日曼城主场迎战利物浦时,埃及前锋萨拉赫与马尔穆什有望同场竞技。曼城的新援马尔穆什...
当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督学习有Label Propagation和Label Spreading两种。他们的主要区别是第二种方法带有正则化机制。我们在上篇已经讲解了Label Propagation...
考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额外的未标记数据,更好地捕捉数据分布的潜在形状,并在新样本上的泛化能力更强。当我们只有非常少量的已标记数据,同时有大量未标记数据点时,这种算法可以表现得非常出色。在sklearn中,基...