10人加入学习
(0人评价)
04 客户画像

学习使用聚类分析算法的基本原理,说明银行业如何利用聚类技术来建立客群分析模型,让银行获利最大化。

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

群数的判断:

   陡坡图判断:如用华德法,各分群阶段SS系数可画成陡坡图。

   1..R-squared  。逐渐减小

2.semipartial R square:由小到大逐渐增大 

 

每次聚一次,都会有SS值。找到最优

 

3.找平均轮廓系数:Si = bii- ai/bi  轮廓系数大一点好,但有时也要考虑大小是否分布平均

[展开全文]

K均值法:找个虚拟点,算平均值。然后再找其他虚拟点,再算只能处理数值型字段。不是最佳。

 

男女分开用K均值法。

PAM算法:保证每次跑出来最佳。拿真正的数据点当群中心。找到SS值最小。

SOM算法:

[展开全文]

单一链结法:选距离小的  最接近的

完全链接法:选距离远的

平均链接法:距离平均。这个方法好。

阶层式聚类法:不适合数据

    中心法:

    华德法:把几个合在一起,如果组内SS值最小 ,则证明合适

[展开全文]

矩阵:距离的计算。   一共有N比数据

 

二元变量(两个属性):变量的值只有两个。如性别

计算两笔数据的距离:d(jack,mary):r+s/qrst相加

距离最小最有可能一样

 

输入属性有不同类型变量的距离计算:

 数值(interval)  类别(Nominal)。二元(binary)   顺序性(ordinary)

 

计算街区距离:也叫做直角距离 

     d(1,2)

 欧几里得距离:平方和开根号

 

如果两个数据集几个不同类型的变量:分别算几个类型的距离,然后加起来求平均值。如果有空值就忽略那个变量。

[展开全文]

授课教师

统计学博士/加州大学伯克利分校
课程顾问

课程特色

视频(9)
下载资料(2)
作业(1)