群数的判断:
陡坡图判断:如用华德法,各分群阶段SS系数可画成陡坡图。
1..R-squared 。逐渐减小
2.semipartial R square:由小到大逐渐增大
每次聚一次,都会有SS值。找到最优
3.找平均轮廓系数:Si = bii- ai/bi 轮廓系数大一点好,但有时也要考虑大小是否分布平均
K均值法:找个虚拟点,算平均值。然后再找其他虚拟点,再算只能处理数值型字段。不是最佳。
男女分开用K均值法。
PAM算法:保证每次跑出来最佳。拿真正的数据点当群中心。找到SS值最小。
SOM算法:
单一链结法:选距离小的 最接近的
完全链接法:选距离远的
平均链接法:距离平均。这个方法好。
阶层式聚类法:不适合数据
中心法:
华德法:把几个合在一起,如果组内SS值最小 ,则证明合适
矩阵:距离的计算。 一共有N比数据
二元变量(两个属性):变量的值只有两个。如性别
计算两笔数据的距离:d(jack,mary):r+s/qrst相加
距离最小最有可能一样
输入属性有不同类型变量的距离计算:
数值(interval) 类别(Nominal)。二元(binary) 顺序性(ordinary)
计算街区距离:也叫做直角距离
d(1,2)
欧几里得距离:平方和开根号
如果两个数据集几个不同类型的变量:分别算几个类型的距离,然后加起来求平均值。如果有空值就忽略那个变量。