首页 / Spark SQL与Spark Mlib
  • 54人
  • 分享
    收藏

Spark SQL与Spark Mlib

难度系数:★★★☆☆ 课程系列:CDA Level Ⅱ 数据分析师

价格 499.00
学习有效期 730天 (随到随学)

简介

【你将会学到】
1、Spark SQL相关操作和Spark高级数据结构
2、机器学习基本思想、常用算法分类、算法库等,
3、Spark机器学习包ML和MLlib介绍
4、聚类分析
5、回归类分析
6、随机森林
7、感知机与svm


【课程内容】
第一章  Spark SQL与Spark Mlib
    1-1  Spark SQL入门、DataFrame
    1-2  Spark SQL入门、DataFrame
    1-3  Spark SQL入门、DataFrame
    1-4  Spark SQL入门、DataFrame
    1-5  Spark SQL入门、DataFrame
    2-1  DataFrame与RDD、Spark SQL读取外部数据源
    2-2  DataFrame与RDD、Spark SQL读取外部数据源
    2-3  DataFrame与RDD、Spark SQL读取外部数据源
    2-4  DataFrame与RDD、Spark SQL读取外部数据源
第二章  Spark MLLib与机器学习算法实践
    1-1  机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
    1-2  机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
    1-3  机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
    1-4  机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
    1-5  机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
    2-1  聚类分析
    2-2  聚类分析
    2-3  聚类分析
    2-4  聚类分析
    2-5  聚类分析
    3-1  聚类分析
    3-2  聚类分析
    3-3  聚类分析
    3-4  聚类分析
    3-5  聚类分析
    3-6  聚类分析
    4-1   回归类分析1
    4-2   回归类分析1
    4-3   回归类分析1
    4-4   回归类分析1
    4-5   回归类分析1
    4-6   回归类分析2
    5-1  回归类分析2
    5-2  回归类分析2 
    5-3  回归类分析2
    5-4  回归类分析2
    5-5  回归类分析2
    5-6   回归类分析2
    7-1  随机森林
    7-2  随机森林
    7-3  随机森林
    7-4  随机森林
    7-5  随机森林
    7-6  随机森林
    8-1  感知机与svm
    8-2  感知机与svm
    8-3  感知机与svm
    8-4  感知机与svm
    8-5  感知机与svm
    8-6  感知机与svm
第三章  可视化
    1-1  python plotly 可视化
    1-2  python plotly 可视化
    1-3  python plotly 可视化
    1-4  python plotly 可视化
    1-5  python plotly 可视化
    1-6  python plotly 可视化

 

【授课形式】
线上录播

【课程说明】
在日常工作中,PySpark将为我们提供数据处理的方法和函数,常用的数据处理方法主要有三种:RDD、DataFrame、Spark SQL。使用难度上Spark SQL 易于 DataFrame易于RDD。虽然PySpark的RDD方法有很强大的功能和健全的操作函数体系,他们的功能都类似于Python的Pandas。但相对于Pandas而言可读性比较差,需要有较强的程序设计能力。尤其是代码多达几百行时,我们想要理解代码逻辑将是一件非常困难的事。于是,我们通常使用Spark SQL来清洗这些数据以减轻工作负担。
Spark SQL可以使用熟知的SQL查询语句来进行数据分析和数据清洗,即使是非程序编程人员,只要懂得SQL语句就可以使用。Spark SQL是在DataFrame基础上衍生出来的,使用前必须要先建立DataFrame,然后通过登录Spark SQL temp table来使用Spark SQL语句。而DataFrame于RDD这种面向未定义数据方法不同,在建立时要求必须定义Schema,即定义每一个字段与数据类型。而这个定义好的数据实际能够极大的简化代码,增强程序的可读性。
Python机器学习主要模块是Pandas、Scikit-Learn,但在大数据时代有大量的数据,必须具有分布式存储以及分布式计算才能够处理。有了Spark之后使用Python开发Spark程序,可以使用HDFS进行分布式文件存储,还可以使用分布式集群来执行分布式计算,在加上Spark特有的内存运算,使执行效率大幅度提升。并且,Spark调用API接口代码非常简单,常用的机器学习API有两种:Spark MLlib(RDD-Based 机器学习API)和Spark ML Pipeline机器学习API。
Spark MLlib是基于RDD的机器学习计算模块,有点是可以发挥内部存储与分布式运算的优势,大幅度提升需要迭代的计算学习模块的执行效率,功能非常强大,能够完成Spark所有功能。MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。Spark的设计初衷就是为了支持一些迭代的工作, 这正好符合很多机器学习算法的特点。目前,MLlib支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤,在Spark整个生态系统中的地位十分重要。
Spark ML Pipeline是Spark受Scikit-Learn程序启发所设计的机器学习架构。其工作流程与石油管道类似,就是将机器学习的每一个阶段建立成Pipeline流程:利用Spark DataFrame提供的API轻松读取大数据中的各种数据源,通过Spark DataFrame与Pandas DataFrame相互转化,轻松实现数据处理、建模、预测,最后产生预测结果。
CDA大数据分析将Spark SQL和Spark Mlib作为重要课程内容,学员完成该阶段学习,应当能够熟练使用Spark SQL对数据进行清洗和分析。为学习Spark ML Pipeline、Spark MLlib机器学习和Spark GraphX图论打下坚实的基础。学员完成Spark Mlib内容的学习,能够掌握重要的Spark机器学习工具,能够在大数据集群上实现分布式机器学习运算,胜任大数据分析领域中中高级岗位。

【要求】
有一个稳定的运行环境
有一定的逻辑思维
有一定的分析能力和的洞察力


【本课程包括】
10天的线上录播课程

学习目录

    学员评价

    暂无评价哦~
    授课老师

    赵娜0418

    CDA讲师团

    猜你想学

    R语言编程与统计分析入门

    9.90

    大数据开发工程师周末就业班试听课

    0.00

    大数据分析入门到实战

    0.00

    大数据在企业中的应用

    0.00

    CDA A+数据分析师学位课程-公开课

    0.00

    Tableau数据可视化实战

    299.00