CDA数据分析师 出品  编辑:Mika 作者:CDA持证人 郭荫娇

采访老师:大家好,今天我们邀请到了郭荫娇来参加CDA持证人线上专访。郭荫娇目前研三在读,更令人感到惊讶的是,她目前已经是一家上市公司校企合作数据挖掘项目的负责人,很是了不起。欢迎郭荫娇,可以和大家打个招呼。

嘉宾:Hello,我叫郭荫娇,目前就读于云南财经大学统计与数学学院,应用统计专业。今年研三,也是云南一家上市公司校企合作数据挖掘项目的负责人。

点击下方视频链接,先睹为快

https://edu.cda.cn/goods/show/3069?targetId=4986&preview=0

问题 1 :真不错啊,学业工作俩手抓,但是成功的背后一定付出了很多的努力吧。我看到了你在校期间参加了很多竞赛并获奖,能给大家讲讲这段经历吗?

嘉宾:我从本科开始、到研究生参加了挺多次数学建模比赛,包括校内的还有校外的。

我第一次参加建模比赛印象特别深刻,是我大二的时候,这次比赛算是全国大学生数学建模比赛也就是国赛之前的一个热身,叫做 Mathorcup 大学生数学建模挑战赛。

和其它本科生组的建模比赛一样,大赛要求在三天内根据给定的赛题建立模型并提交论文,我是和两个同班同学一起组队参加的。由于之前我们都没有建模比赛经历,在正式比赛之前并没有去具体的规划赛前要做哪些准备,只是看了往年的赛题及优秀论文,去学习别人是怎么做的。

但是到真正比赛的时候才发现,要在有限的时间里解决特定的问题并提交一篇优秀的论文并不容易。

首先是极其考验个人解决问题的能力,这包括平日里对知识的积累和应用;还有动手时间的能力,针对建模来说也就是编程能力,这一点不是说赛前几天或几周能够立刻学来的;其次是团队分工,数学建模比赛有三大块内容,分别是建模、编程和写作,每一块都需要有一个核心负责人,那一次比赛我们就是没有做好分工,严重影响了进度。最后一个是团队协作能力,对于初次参加比赛的同学,三天的时间应该是很紧张的,这个时候就需要队员之间同一步调、统一思路,一个和谐的团队氛围能很大程度上提升效率。

这次比赛的结果可想而知,我们没有拿到奖项,但另一方面,我们积攒了经验。所以在后来的全国大学生数学建模竞赛和亚太地区大学生数学建模竞赛中,我们养成了良好的备赛习惯,比如提前规定好几天看完一篇建模优秀论文,团队交流论文思路,学习编程模式等等,虽然比赛过程中偶尔会在实验室熬夜通宵,但最后都拿到了很不错的奖项,并且成了我一份很特别很宝贵的经历。

问题 2 :你本科学的是理学方向的统计学,研究生学的是经济学方向的应用统计,这俩个专业有什么区别,又有什么关联呢?

嘉宾:理学统计更注重理论知识的学习,去培养数学的思维,学习的课程大多都是数学相关学科和统计理论,比如数学分析、高等代数、微分方程、随机过程、高等数理统计、时间序列分析、多元统计分析、非参数统计等等。

应用统计的话就更强调去实践,除了统计理论,经济统计还需要去学一些经济学相关的课程,更多的是去将理论知识应用到实际问题中,如果是数据挖掘方向的话,就需要学习机器学习等类似的应用更广的模型及理论。

总结来说就是两方面,统计学偏向于学术研究,而应用统计学更偏向软件和具体领域问题的学习,更偏向实际,适合职场。

问题 3 :工作上你已经是项目负责人了,那第一次的实战项目肯定是记忆比较深刻的,可以和大家一起分享下吗?

嘉宾:是的,我是从从研一下学期开始就接触了导师这边的数据挖掘项目。当我得知要去做这个项目之前,我就抓紧寒假空闲时间学习 SQL,包括 Oracle 和MySQL。

一遍看视频,一遍去动手写,当时学完觉得自己掌握得挺好,但是当真正去到实际生产环境中,才发现问题的复杂性。

首先企业的数据不再是简单得几张表,而是成百上千张,并且相互之间逻辑联系紧密,其次,需要去结合具体的业务需求去分析,而不是简单的写SQL的问题。

刚开始做数据挖掘项目的时候,我潜意识里认为这和在学校建模应该差不多,应该更考验建模解决实际问题的能力,但实际接触下来发现不是。

数据挖掘包括信息收集、数据集成、数据清洗、特征工程、建模分析及评估等步骤,在项目开始之前,需要明确需求,并且去评估这些需求的合理性,能不能实现。

如果能实现,效果怎么样;在信息收集这一步,首先最重要的就是需要去全面了解公司的业务,因为数据是由业务产生的,通过了解业务去掌握公司的现有的数据及不同模块数据之间的联系;数据集成,需要把不同来源、不同格式的数据在逻辑上或是物理上做集中,这就很考验分析人员使用工具的能力了。

包括前面提到的写 SQL 的能力,在学校的时候我个人不太注重数据预处理这部分的内容,但来到实际环境中,才发现数据清洗及特征过程占了整个数据挖掘项目大部分的时间,异常值、缺失值怎么处理?怎样去构造特征?

这些问题的解决都考验理论知识的应用能力以及编程能力,并且都都不能脱离业务环境。还有一个难点是需要不断去学习之前没有接触的东西,除了学习新的模型,还有其它非统计建模的知识,比如我要把结果以接口的形式提供给公司系统,那我就需要学习后端知识,如果我要从不同维度高效的去评估我的模型效果,我就要去学习一些可视化分析工具,比如 Power BI 等等,这些都无形中使自己得到了很大锻炼和提升。

总之,一次完整的数据挖掘项目经历让人收获很多,也让自己更明确职业方向。

问题 4 :作为 CDA 持证人,你对于通过证书考试有什么好一点的备考攻略呢?备考的时间上你是怎么安排的?有没有遇到什么困难?

嘉宾:我从开始备考到考试大概半个多月的时间,期间会分出一如果之前没有考过CDA,上午的时间系统的看统计学相关的教材,然后其余每天再花 1~2 小时做题和错题分析。

不建议一开始就盲目看教材和视频,建议先看考纲,并且做两套真题,了解考试内容及题型,对出题内容有一个大概的把握,并在第一遍做真题过程中记下自己不会或不熟的知识点,后面在看教材的时候着重这些知识点;此外,研究透CDA老师给的两套模拟题,不止看错题,做对的题的选项要弄明白是什么意思,并做好笔记,因为真题大部分都脱离不了这些内容。

SQL 相关的知识,如果是有在做相关数据分析项目的同学,可以趁机练习,因为在实际中应用是掌握知识最快的方法;如果没有实际练习环境,在看视频学习时,可以自己先写一遍,再看老师的讲解,也可以网上找题库练习。

知识难点更多的集中在需要结合业务分析的内容中,比如报表工具、表连接关系等,这些都是我在学校学习和项目中接触很少的,也是需要多花时间的地方。

问题 5 :零基础,研究生才开始学习数据挖掘来得及吗?

嘉宾: 大家应该都听说过一句话,“种一棵树最好的时间是十年前,其次就是现在”,虽然有点鸡汤,但是只要你真正想去做,确定好目标并做好规划,稳扎稳打就肯定来得及。

研究生不像本科生,一是时间上更自由;二是需要主动学习,如果是零基础,在学习了基本的理论之后,建议去实践中学习,去着手一个数据挖掘相关的项目,会比单纯学习书本知识高效很多,实践是最好的老师。“

结 语

说的很好,种一棵树最好的时间是十年前,其次就是现在,有段时间在网络上也流传了这样一句话:未来的你,一定会感谢现在努力拼搏的自己。

我觉得郭荫娇现在应该能感受到目前的成就也是自己之前努力拼搏得来的,也祝愿你在数据分析工作道路上能够越走越远。

感谢郭荫娇接受我们的采访,希望更多人能够加入到数据分析数据挖掘领域的工作中,让数据发挥更大价值,让数据人才拥有无限可能,我们下期再见!