文字内容来自单艺老师在CDAS数据分析师行业峰会的演讲实录,时任猎聘CDO(首席数据科学家),毕业于清华大学和美国University of Arizona,获得了管理信息系统专业的学士和硕士学位。(PS:本文完整视频链接:https://edu.cda.cn/goods/show/2975?targetId=4868&preview=0

大家下午好。首先非常感谢经管之家邀请我,来做这样的一个分享。第二个,也感谢大家坚持到最后,这已经是主会场的最后一个演讲了,希望我能好好的讲。然后这个 save the best port last OK ,就是我今天演讲的主题是数据分析师的机遇和挑战。里面没有讲大数据,其实我觉得数据不分大小,只要有价值就是好数据。


图片来源于视频
这是一个工作背景介绍,刚才曹老师已经介绍过,我就不再去介绍了。想问一下,台下的坚持到最后的听众们,有多少是做数据分析的?想了解一下。还是有一批的。然后想问一下,就是有多少是学生,就是正在有志于这方面发展的,大概明白了,我们的听众主要是什么样子?今天先就是我演讲是对于我平时工作中的很多经验总结。平时我也遇到过很多的年轻的分析师,还有同行,他会问我,就是数据分析师这个职业未来发展怎么样,要成为一个优秀的分析师,要做什么?今天演讲主要就是围绕着这两个主题来做的。

首先介绍一下猎聘的这个背景,不了解猎聘是做什么的,能举一下手吗?没关系的,我们的品牌还做得不错,看大家都知道这个我们这家公司是做什么的。猎聘通过这么多年的发展,已经积累了很多的这个数据,这是我们的一个数据基础概况。现在目前的注册用户,已经是一个稍微过点时的信息了,注册用户已经超过了 2500 万,服务过 40 万家企业。在我们的网站上有猎头,20万个注册猎头,每天在线的职位超过了 75 万。每天我们通过数据流水线,收集的日志数量已经超过了 5500 万。这个数据对于很多人来讲觉得很大。其实在互联网这个世界里面,这还是一个不算特别大的数据。通过这些数据我们已经能够看到很多很有价值的信息,里边有一部分很重要的信息,就是关于个人的职业发展。

对于职业发展这方面的信息,是用一个什么方法去做的呢?跟传统的很多做职业发展研究的时候,通过问卷调研或者是一种主题比较主观的研究。小规小范围的深入访谈的方式,不一样我们是用基于大数据的方法。这个分析方法,我们的基本的思路是这样的。


图片来源于视频
对于我们网站的最正最重要的三类信息就是企业信息、职位描述和人才履历。通过一个文本挖掘也就是自然处理技术去处理,把它结构化,把它变成一个比较松散的自由的文本,以便于后期进行数据分析、挖掘的这样一个数据结构,分别叫做企业画像、职位特征和人才画像。说得比较抽象,具体讲一下,就是说在企业画像里边就包括了像企业的行业、规模、所从事的领域和它招什么样的人。从职位特征就包括比如说你的职位名称、职位薪资、职位行业职能所要求的技能。

通过分析他的职位描述,就可以得到一个很清楚的一个结果,在人才方面的需求,对于简历做一做了很多很细致的分析,从你的工作地点、薪资、工作履历、教育背景,还有你的求职意向,用户可以填写的,还有是比较简单的。另外的话我们做了很复杂的自然语言处理,你的技能你到底会什么?中国有 360 行?大家说 360 行,每行都有自己不同的技能的特征,通过艰苦的工作,把所有行业的这些核心的技能全部找到,形成了一个类似于知识图谱一样的结构。应用在很多领域,就一个具体的应用,就是把简历变成人才画像,描述他的的部分技能。

结合每个鲜活的用户在网站上的具体行为,就可以看到它们之间的关联。就用数据挖掘里边一些重要的算法,比如分类、聚类、抽样统计、可视化,最后形成了一个职业发展分析报告。通过这个报告,看得出每行每个职业现在的状况是怎么样,未来将会是怎么样。下边就具体的讲一下分析师这个行业,从分析师这个行业来讲,是非常非常令人兴奋的职能。从分析师职能上,从猎聘网的数据来看,在 14 年 1 月份的时候,在网站上整个就是这条底下的这个红线,它非常低,那时候在我们的网站上只有不到 300 个职位。这是 14 年 1 月份的时候,当来到了2016年 8 月份的时候,这个职位已经接近 3000 了,最新的数据是超过了 4000 个职位。


图片来源于视频
在猎聘网上有分析师的职位,那排除了说猎聘自己在高速发展,不断地吸纳新企业新的职位。进来之后,其实会看到这个比例也是在不断地增长,就是这条黄线,它是分析师职位,占所有的职位占比,也是在高速增长的。尤其是在 14 年的这个下半年,就是 10 月份之后,出现了一个高速增长,这个是和整个大数据领域还有数据分析的应用高速发展紧密关联。尽管猎聘发展很快,其实分析师这个职能这个行业发展得更快,就是现在这个需求决策量是高速增长的。


图片来源于视频
分析师的职位它主要集中在哪些行业呢?第一是互联网,第二个是金融消费,接下来是快消品和制药医疗等行业,从事这个行业人就比较好理解,因为这些行业里边除了这个制药医疗,这是做西药里边,很早就开始引用很多统计方法了。然后快消品的行业,因为面临广泛的人群,也要做很多统计的工作,做数据分析的工作。

在互联网和金融方面,是因为这两年数据积累非常的快,所以产生了大量的需求,就是有了很好的数据基础之后,就可以产生很好的应用。在整个行业来看,就是互联网和金融的占比已经超过了80%。所以大部分人会发现说分析师都在干这两个行业。在薪资方面,就是都很关心就是自己能挣多少钱,虽然谈钱有的时候觉得俗点,但这个我觉得还是一个很关键的。在这大家选择职业的时候,选择跳槽的时候都是很关键的。在分析师的领域,通过这张图我们可以很清楚地看到,就是企业愿意为分析师提供高于一个平均水平的一个薪酬。这张图里边的红线是互联网所有职位的平均薪酬,相对低一点。然后蓝线是分析师职位的薪酬,会看到横轴是他的工作年限,就是随着经验的积累,人的薪酬是不断往上升。

开始的时候,分析师职位跟普通职位平均的水平是差不多的。但是到了后来你会发现说,这个差距是缺口是越拉越大。就是说,如果能够把这个行业、这份专业坚持做下去,将来的待遇应该是不成问题的。是讲了一些机遇,就是现在做分析师是处在整个行业发展的黄金时代,是不是就是说只要学一些数据分析的课程,尤其是统计的方面内容,就可以成为一个很好的分析师。


图片来源于视频
答案不是这么简单,因为分析师职位,根据我的理解,在企业里是一个优秀的分析师就相当于是一个顶级军师的角色。要做好一个军师,做好一个企业的诸葛亮,是要具备很强的能力和很多的知识积累。

下面就开始谈一谈,通过我的这些年的工作,看到的一些挑战,是对于新入行分析师要特别注意的事情。首先,要理解业务。刚才有几位嘉宾也都谈到了,就是说做数据分析,其实出发点是要从业务出发,业务这个事情是变化无穷的,各行各业它都不一样。只是说关心我自己学的一些比较技术性的技能,比如数理统计、数据挖掘、机器学习这些东西,不去研究业务,在工作中会形成一个很大的障碍。

为什么呢?因为企业招你过来是需要你解决他的业务问题,他并不是说为了数据挖掘,为了这个一个高大上的专业把你这样的人才招过来,你这样的人才价格又不低?大家看到了就是薪资都要的挺高的,他是要你解决他的业务问题。作为分析师来讲,首先你要理解你的公司是干什么的,就是公司的使命是什么,公司的未来是在哪里。第二个,要去领会这个商业模式,甚至要比你的老板比 CEO 都要能两三句话把这个公司的核心商业模式说清楚,这样子,你才能够说去根据这个业务去做分析。还有我们在做具体的业务的时候,我们经常会打交道的是说市场策略,运营策略是什么,随时知道公司他在往哪个方向走,他用什么样的方法、布局,去解决现在面临的业务挑战。还有最后一点,觉得是说财务方面也是很关键的,其实做了大部分的业务都是这个收益是有关系的,这时候你要有财务方面的背景知识,觉得会对自己的这个业务发展深入完成企业交给你的任务有很大的帮助。经常看到的年轻的分析师,其实不只是分析师、技术人员,都有一个通病,太技术了,就是想来想去都是一些技术问题,不去关心,可能关心的不够公司的产品到底是什么样子,有没有可以改进的地方?公司的商业模式有没有什么问题,有没有可以做得更好的地方?这些来讲才是你真正做事情的出发点。

第一个,收集数据是个挑战,就是做个数据分析。第一步得先有数据,数据来自哪里呢?就是数据收集获得。数据收集听起来是个比较 low level 比较琐碎的事情,但是影响就是至关重要的。首先数据的质量,如果数据里边有大量的错误,大量的噪音,会对你后边的分析工作形成一个很大的问题挑战和困扰,甚至分析不出来东西,或者说得出一个错误的结论。

第二个,要有足够的覆盖,就是能够把你的业务能包含的关键数据全部拿到,能够得到一个全面的认识。还有一个是成本,就是数据收集这件事情是有成本的,数据不是就是自然而然就跑到你这边,像猎聘,建了很复杂的一套数据流水线,能够把 ERP 系统、财务系统、销售系统、客服 concenter 的数据,还有我们的网站数据,全部汇集到一起,这个成本是挺大的。这个时候要想办法能够说降低成本地获得高质量的数据,也是蛮有挑战性。另外的话就是日常工作中,数据部门虽然很重要,但是还不是业务一线,所以很多时候觉得给你的、为你提供的数据,不是他的优先级,排第二、第三。这又是一个很大的挑战。比如:典型的互联网工程师,在互联网公司里面,工程师首要的工作是把这个功能开发出来,然后才想到要给这个数据,给你送过去。就经常有问题,就是有的时候产品上线了没数据,或者产品上了线,发现数据埋点不对?错了,找他去改,他又很忙,这个时候就会非常痛苦。这个时候一定要想办法,在这个公司里面,首先要建立这么一种就是重视数据文化。接下来在技术上,在流程上,保证你的数据能够很稳定地获得。另外,就是要考虑一些先进的技术,比如埋点的一些方法,比如 growing IO ,他们这方面的技术我觉得是可以去研究一下,看看适不适合你的应用场景。虽然不是使用的相对容易一些,但也不是说所有的场景它都适合,要根据你的应用场景去研究一下。

还有一个数据收集,要关注异常值,异常值往往预示着这个系统,你的业务可能发生变化了,你的技术系统出现一些问题?接下来一个挑战,觉得是编程和技术做数据分析的,它的原来的背景并不是学计算机的,就会在编程和技术上面相对弱一些。

这个时候你就会发现,传统的数据分析人员,往往会熟悉 Excel spss SaaS ,但是这个实际分析数据过程中,会有越来越多的应用像 Python 这样的开源系统,因为第一,成本低,第二,社区很丰富,能够提供很多东西。还有一个关键的东西,数据分析离不开关系型数据库,数据分析师要 90% 的工作都要用到像关系型数据库的这一类的工具,所以你会写 SQL 也是很关键。另外最新的发展,就像大数据,这个我就不多提了。最后一点,你要了解数据是怎么来的,如果不了解技术背景,当你去追踪数据收集问题的时候,是跟对方讲不清楚的,对方很难跟你沟通,所以技术是一个对于很多非计算机专业出身的分析师要注意的挑战。接下来是指标体系的设计,指标体系是一个问题,很多企业有很多报表,但是没有成型一个指标体系的报表,只是业务部门从某一个业务角度提出来设计的,不能代表整个业务,一个好的分析师要能够从全局去把握这个业务,根据你的业务设定一个相对完整的一个指标体系。


图片来源于视频
像这张图,就是猎聘一个简化的用户获取模型。在我去之前,那边只有一些零碎的报表,不能够全面的看业务,后来我们建了一套指标体系,这个是简化版本。业务部门首先在数据上的要统一口径,指标的口径统一了。第二个,获取数据的时候也会简单很多,就用的时候临时手忙脚乱地去提取数据。对于我们理解业务、分析业务提供了很多的帮助,还有一个挑战是监控,就是数据分析师往往是会担任的一个职责,就是说是帮助业务线的领导,去发现业务线里的出现的问题、异常。同时,做报告还要做分析,这个事情说起来听起来好像是比较简单的事情,其实不容易,尤其是你的业务一复杂,就可能有数十个 KPI 的时候,就像数十个跳蚤一样,它都在跳,每天都在变,所以怎么盯住它们。

首先第一个,像我就要求分析师每天都是要早上。就是看自己的dashboard,培养观察能力和敏感性。也建立一套自动化异常发现的系统,最终目标是建立一个分析系统。发现异常以后,找异常背后的原因是困难的。在方面也正在做一些尝试,能够自动地发现说一种一些常见的 pattern ,接下来一个挑战,项目管理分析师的工作很多时候是跨团队的,就是因为单独的一个不可能做一件事情。经常需要去推动别人去做事情,所以跨团队的协作能力对于普遍性格内向一点的分析师是个挑战,所以要分析师主动地跨出自己的所谓舒适区域 comfortable zone ,学会去跟别人主动沟通,主动去推动事情,主动去这个抓项目,而且学会一些常用的项目管理手段。

还有就是这个影响力的问题。分析师其实在公司里,如果你没有影响力,就可能沦为前面讲的这个表哥表姐,只有说你能够影响业务,能够取得业务线上的信任,而且能够帮他更好地做业务,这时候你才能产生影响力。这个时候需要自己去深入业务,第二个去不断地去提供策略,去帮助改进这个业务。

数据可视化是现在一个比较热的话题,对于很多分析师来讲仍然是个挑战,通过这些简单的图,不用扔给最终用户一堆枯燥的数据,一堆报表,而是通过一个简单明白的图,就可以让他明白业务在发生什么问题。、分析师也要懂可视化。懂可视化是一种专门的语言。如果你要就是说学一门外语其实是不容易的,所以学好可视化也是一个挑战。


图片来源于视频
最后一点,就是这个话题炒得太热了。对于分析师来讲,就是你不是要一头扎进到机器学习这个领域去,而是要从你的应用角度去选择,对你有用的机器学习的算法,把这个算法去把它研究透,吃透背后的假设,怎么应用,会有什么这个缺陷都要搞清楚,而不是要学一堆的算法,好像学了很多其实没有明白。

这张图是摘自 scikitlearn ,就是一个开源机器学习的包,里面就有一个很清楚的就是说遇到问题,选择什么算法。根据这套图,可以找到对自己有帮助的算法,然后深入研究,而不是就要学很多算法,结果什么都没有学精。


图片来源于视频
讲了这么多挑战的话题,其实回头看到这些挑战都是可以归结成是分析师的技能的金字塔,从底层的这个业务理解一直到最高层的商业决策,一层层走上去,每一层都是不容易的,都是像升级打怪一样。做好一个优秀的分析师并不容易。如果你对这个行业有数据分析领域有特别强的兴趣。然后又想成为一个数据分析师的话,可以就是参考一下这张技能金字塔,一步一步地把自己的基础打牢,把自己的这个业务做好,把自己能够真正能成为企业的一个诸葛亮。


图片来源于视频
最后总结一下,现在已经来到了这个数据的时代,在戴明教授是做质量管理的,他是发明人,这个致富,他本身也是一个统计学的教授,他讲了一句话,我一直非常欣赏,就是他说 in god which has all others must spring data ,在这个时代数据已经具备了就相当于你是个分析师,你就具备了像相当于一个上帝的使者,上帝的这种解说员,这样的一个角色作为分析师来讲未来,是一个非常非常有意思的一个领域,也是有一个非常棒的未来。谢谢大家。