【你将会学到】
1、Spark SQL相关操作和Spark高级数据结构
2、机器学习基本思想、常用算法分类、算法库等,
3、Spark机器学习包ML和MLlib介绍
4、聚类分析
5、回归类分析
6、随机森林
7、感知机与svm
【课程内容】
第一章 Spark SQL与Spark Mlib
1-1 Spark SQL入门、DataFrame
1-2 Spark SQL入门、DataFrame
1-3 Spark SQL入门、DataFrame
1-4 Spark SQL入门、DataFrame
1-5 Spark SQL入门、DataFrame
2-1 DataFrame与RDD、Spark SQL读取外部数据源
2-2 DataFrame与RDD、Spark SQL读取外部数据源
2-3 DataFrame与RDD、Spark SQL读取外部数据源
2-4 DataFrame与RDD、Spark SQL读取外部数据源
第二章 Spark MLLib与机器学习算法实践
1-1 机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
1-2 机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
1-3 机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
1-4 机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
1-5 机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
2-1 聚类分析
2-2 聚类分析
2-3 聚类分析
2-4 聚类分析
2-5 聚类分析
3-1 聚类分析
3-2 聚类分析
3-3 聚类分析
3-4 聚类分析
3-5 聚类分析
3-6 聚类分析
4-1 回归类分析1
4-2 回归类分析1
4-3 回归类分析1
4-4 回归类分析1
4-5 回归类分析1
4-6 回归类分析2
5-1 回归类分析2
5-2 回归类分析2
5-3 回归类分析2
5-4 回归类分析2
5-5 回归类分析2
5-6 回归类分析2
7-1 随机森林
7-2 随机森林
7-3 随机森林
7-4 随机森林
7-5 随机森林
7-6 随机森林
8-1 感知机与svm
8-2 感知机与svm
8-3 感知机与svm
8-4 感知机与svm
8-5 感知机与svm
8-6 感知机与svm
第三章 可视化
1-1 python plotly 可视化
1-2 python plotly 可视化
1-3 python plotly 可视化
1-4 python plotly 可视化
1-5 python plotly 可视化
1-6 python plotly 可视化
【授课形式】
线上录播
【课程说明】
在日常工作中,PySpark将为我们提供数据处理的方法和函数,常用的数据处理方法主要有三种:RDD、DataFrame、Spark SQL。使用难度上Spark SQL 易于 DataFrame易于RDD。虽然PySpark的RDD方法有很强大的功能和健全的操作函数体系,他们的功能都类似于Python的Pandas。但相对于Pandas而言可读性比较差,需要有较强的程序设计能力。尤其是代码多达几百行时,我们想要理解代码逻辑将是一件非常困难的事。于是,我们通常使用Spark SQL来清洗这些数据以减轻工作负担。
Spark SQL可以使用熟知的SQL查询语句来进行数据分析和数据清洗,即使是非程序编程人员,只要懂得SQL语句就可以使用。Spark SQL是在DataFrame基础上衍生出来的,使用前必须要先建立DataFrame,然后通过登录Spark SQL temp table来使用Spark SQL语句。而DataFrame于RDD这种面向未定义数据方法不同,在建立时要求必须定义Schema,即定义每一个字段与数据类型。而这个定义好的数据实际能够极大的简化代码,增强程序的可读性。
Python机器学习主要模块是Pandas、Scikit-Learn,但在大数据时代有大量的数据,必须具有分布式存储以及分布式计算才能够处理。有了Spark之后使用Python开发Spark程序,可以使用HDFS进行分布式文件存储,还可以使用分布式集群来执行分布式计算,在加上Spark特有的内存运算,使执行效率大幅度提升。并且,Spark调用API接口代码非常简单,常用的机器学习API有两种:Spark MLlib(RDD-Based 机器学习API)和Spark ML Pipeline机器学习API。
Spark MLlib是基于RDD的机器学习计算模块,有点是可以发挥内部存储与分布式运算的优势,大幅度提升需要迭代的计算学习模块的执行效率,功能非常强大,能够完成Spark所有功能。MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。Spark的设计初衷就是为了支持一些迭代的工作, 这正好符合很多机器学习算法的特点。目前,MLlib支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤,在Spark整个生态系统中的地位十分重要。
Spark ML Pipeline是Spark受Scikit-Learn程序启发所设计的机器学习架构。其工作流程与石油管道类似,就是将机器学习的每一个阶段建立成Pipeline流程:利用Spark DataFrame提供的API轻松读取大数据中的各种数据源,通过Spark DataFrame与Pandas DataFrame相互转化,轻松实现数据处理、建模、预测,最后产生预测结果。
CDA大数据分析将Spark SQL和Spark Mlib作为重要课程内容,学员完成该阶段学习,应当能够熟练使用Spark SQL对数据进行清洗和分析。为学习Spark ML Pipeline、Spark MLlib机器学习和Spark GraphX图论打下坚实的基础。学员完成Spark Mlib内容的学习,能够掌握重要的Spark机器学习工具,能够在大数据集群上实现分布式机器学习运算,胜任大数据分析领域中中高级岗位。
【要求】
有一个稳定的运行环境
有一定的逻辑思维
有一定的分析能力和的洞察力
【本课程包括】
10天的线上录播课程
R语言编程与统计分析入门
9.90
大数据开发工程师周末就业班试听课
0.00
大数据分析入门到实战
0.00
大数据在企业中的应用
0.00
CDA A+数据分析师学位课程-公开课
0.00
Tableau数据可视化实战
299.00