10人加入学习
(0人评价)
05 K最近邻算法

最简单的机器学习算法 -K最近邻

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

Class::KNN  只能做分类型预测

 

neighbr::KNN  可以告诉你邻居有几个。但是它不能告诉你的机率值(probability)是多少。

做数值型预测:

训练集Train_set 需要包含序号字段和目标字段,而ClassKNN 的训练集不需要包含这两个字段。

测试集两个都一样。

 

建立模型:

neighbr:knn:    k = 5,  categorical_target=NULL,,

 continuous_value 预测值

comparision_measure 计算距离的方法。

 

broadband:电信网络数据集。找有意愿装电信网络的顾客,用KNN的

[展开全文]

K最近邻分类模型建置

1.根据五个条件字段预测判断目标字段(诊断结果)

  建立模型:病症相似的人  判断诊断结果。

K=3,三个最接近的邻居。

计算两个客户的distance

2.

将所有变量变成数值型变量(0-1之间)

 

训练集  测试集

 

类别型数据("1\2\3\4")要摊平成(1000、0100、0010、0001)

[展开全文]

K:通过已知顾客的兴趣电影与讨厌,推荐他未看过的电影。

 

通过邻居喜欢的电影来推荐给他电影

[展开全文]

K最近邻模型建置

一、数据的前处理

      属性有Scale的问题(数值型字段极值正规化)

二、距离的计算

直角距离:每一个字段的街区距离相加

欧几里得距离:距离平方和开根号,用得频繁

三、预测概率的推估

  预测此笔的目标属性值为a,概率为3/5.

[展开全文]

KNN:

可以用来预测性的分类,数字预测。

Scatter:显示浅色的购买,深色的未购买。

X年龄  ,Y收入两个输入属性。找距离最短的K个人,最相似的人。跟K相似,就能预测新进来的特征。

要选对输入属性,跟预测相关的。

 

数字预测:用K个人的平均值来预测

分类预测:K个人投票来预测

[展开全文]

授课教师

统计学博士/加州大学伯克利分校
课程顾问

课程特色

视频(5)
下载资料(1)
作业(1)