文字内容来自于吴喜之老师在CDAS数据分析师行业峰会的演讲实录,吴喜之老师是中国人民大学统计学院教授、博士生导师,北卡罗来纳大学统计学博士,本科毕业于北京大学数学力学系,曾在美国加利福尼亚大学、北卡罗来纳大学、密西根大学以及南开大学、北京大学等多所著名学府执教。在本次峰会现场,吴喜之教授以独特的视角,从数据科学思维、发展前景入手,由传统统计学到今天的数据科学,吴喜之教授指出未来统计学的发展,要从基于模型思维转变到基于数据思维的转变。同时,强调数据科学的学习,首先要适合做这一行,其次是保持学习能力,不断挑战自己,需要有批判性思维,不轻易给自己贴标签。最后的结语以“什么人最快乐结尾”发问,启发大家深层次思考。(PS:本文完整视频链接:https://edu.cda.cn/goods/show/2927?targetId=4803&preview=0

吴喜之:其实我什么头衔也没有,现在教授没有、博导也没有,就是教师,所以很怕人家说我是什么什么,更不敢说是领军人物。因为中国管理界领军人物应该是许宝騄这些老前辈,我不算。而且现在有些另类,所以更不应该把我看成是领军人物。

我今天讲课的主题跟上午的不太一样,上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的,怎么样的理念,怎么样的管理。我是给学生,给年轻人说的,因为我觉得这些是最根本的。如果你管理阶层再好,你找不到人也是什么也没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位,这是两回事。


图片来源于嘉宾演讲PPT
这是一些调查的结果,数据科学家的年薪是多少,这是美国的了,在中国不知道。程序员的平均年薪是多少,所以说这个不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?早晨起来我说的可能有点过分,说统计总局怎么样,但是我必须这么说,因为现在的统计,特别数据统计问题很严重。

这个是美国的一个调查报告,说人才缺口很多,在美国很多,说明在美国培养这样的人数也不够,可以用大数据来做的缺少的更多。所以说美国是这样,中国将来肯定也是这样,现在实际上有很多缺口,现在就怕跳槽,人就怕找不着,所以我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,谁都想要你,不是因为你是他的亲戚或者学生,他想要你这才是价值,我们要的是价值,而不是所谓的成功。

图片来源于嘉宾演讲PPT
如果你擅长数学,有很清晰的逻辑思维能力,文科的人是没有的。但是可以训练,因为大部分知识都是自学的,我可以强调这一点,这不是在课堂上学的。如果你有这样的技能组合,就可能当上数据科学家。这个投票显示,数据分析和数据挖掘是最大的求职法宝。这个统计分析一会儿我再说是什么意思,数据科学火爆的原因,尽管这些高级科技团队都有自己的数据科学团队,高级科技公司,但是那些非科技公司和很大的公司也需要做这些东西,今天上午讲课你们都明白了,他们需要的这些东西,现在关键是人,就是你们怎么样把自己做到是被需要的人。

数据科学家专业人才干什么呢?对这些公司来说他们可以挖掘新的信息,帮助公司开源节流,每个公司都是要这样的,所以它需要的是人才,关键是人才。我们说数据科学,当然科学也有艺术,这两个都有关系。科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆旧的理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。

数据科学有很多很多定义,最基本的定义就是这个,就是Computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。一般对于你们来说,你们现在不可能细到那么细的程度,我们应该变成一个通材,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。大数据,所谓大就是这个样子,然后更细,你怎么说都可以,你弄的越细越专门,对于年轻人来说只要你专门,还是聚集到最基本的东西上来,越专的话那是CEO管的事,那是领导阶层管的事。

三部分:数学、统计、领域知识。


图片来源于嘉宾演讲PPT
数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。


图片来源于嘉宾演讲PPT
统计学学的是批判性思维,数据统计要教好的话你知道批判性思维,比如说我具体假设这是批判性思维。但是现在有些人不能接受,这是大错误,永远是错的,你只能说证据不足,而不能拒绝,不能说接受。就像我抓个小偷把东西扔了,你就证明他不是小偷,你只能说我证据不足。所以说不是你们在统计学,或者数据统计学课本上学到的70年前、100年前的知识,建议回归100年前就有了。是前计算机时代的东西,那时候没有那么多计算机,数据量不大,所以他做什么都假定来做结论。不能现在的统计研究,在中国的数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。

所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗?能认为这是小概率吗?区间估计就更难说了。

预计20年发展的,这是我们所要学的,所要知道的,最近20年发展而且仍然在发展的最新的机器学习方法,这是最根本的,机器学习方法,这个书上不说但是还是很重要的,像我现在正在寻找经典方法比机器学习方法好的例子找不着,我每天都在算数据,我就想找这样的例子,当然简单的例子没法儿说了,说只有十个数,那当然好说了。我举个例子,对于处理多重共线性的方法,lasso回归、岭回归什么的那一大堆方法,我如果做的话,我没找到一个例子,就是说用这些方法比神经网络做的更好的。所以我说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从基于预测经验出发。

有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,那么研究生们说,这个系数有什么意义啊?他说共线的变量的系数,没有任何意义,只要这个方法对预测好,那就是好。中国人学呆了。像回归分析,在别的变量不变的时候,我这个量增加不增加?别的变量肯定不变的,特别经济统计,没有两个变量是完全独立的。


图片来源于嘉宾演讲PPT
另外,计算机科学,不是一两个盗版傻瓜软件+点鼠标就是计算机科学了。我现在不用SAS那些,就是我不用具体的盗版,我不想犯法。我其实用SAS用的很早,30多年前都在用了,那时候在美国念书的时候。还有加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念,我用了很多编程理念没有一个是在课堂上学的,就是自己在编的时候自己领会,再加上这些东西,你慢慢做,也是可以的。一切东西依赖于自学,而不是依赖老师,这可能跟我的经历有关。


图片来源于嘉宾演讲PPT

图片来源于嘉宾演讲PPT
这是2015年的一个网站调查,用的最多的是R,这是2014年的,R在图片当中是最多的,其他的软件加起来是17%,底下这个是2014年,也是R,为什么是这样?第一,它们是开源的,它们的代码是公开的。商业软件有一个好处是做商业保险,就是如果你错了错它给你赔偿,按照它是黑匣子,你怎么证明它出错,而且怎么打官司,这个在中国90%是盗版软件,跟谁打官司去?这是计算机的亲和性,还有SQL,亲和性很大,就是它的语言你懂一个,再学一个,直到后来一天一个就学下来了,真是这样的,不是开玩笑。我不想说SAS,我在美国的第一个研究就是SAS,它的亲和力小。实际上现在很多R,很多会R的都可以去做东西。这也是转换性的,就是R跟Python转化的多,所以第一学的编程语言应该是R,然后Python,然后是其他的语言。其他点鼠标的语言是用不着学的。


图片来源于嘉宾演讲PPT
这是计算机,最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,你不了解统计,你可以做很多荒谬的事,不了解实际问题。比如说,吃冰激凌,冰激凌的消费量跟火灾的发生率是密切相关的,或者吃冰激凌造成的火灾,或者是火灾造成冰激凌消费量大。这都是荒谬的理论,这要有比较深的领域知识。

原来有一个例子,这是在医学杂志发表的一个很有名的文章,如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。如果没有领域知识主导的人分析肯定有误导,无论什么地位。在中国院士到哪儿都去发表理论,就像金正恩到哪儿都发表指示一样,很可笑的,就是你会就是不会,不会就是不会。所以用数据来说话,其他的一切都是废话。做一些莫名其妙假定,我每年看到很多很多的文章,包括一些大赛,这个赛那个赛,好多都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。


图片来源于嘉宾演讲PPT
作为科学就这么多内容,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了,那就是扩展了也不是没意义,不要钻进去出不来了。你离得越远看得越清楚,站得越高了解的全局越好,不要太具体了,不要迷信这些炒作的新名词、新概念。搞金融界的喜欢搞新概念,我有个堂弟,在香港科技大学讲金融新概念的东西,你一些常识都知道,要用一些名词就是哗众取宠,这些东西没有意义。用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,但不是现在。如果你要跟风就意味着永远是跟随,也绝对不会有出息。


图片来源于嘉宾演讲PPT
炒作没人管,只要有观众给你鼓掌,当然观众回去一脑袋浆糊,但是每个人自己不能糊涂。第一原料就是数据,什么是数据?照片也好,都可以变成数据,都是数据。思维就是我说的基于数据的批判性思维,而不是基于主观经验、权威或者是局部的知识,也不是迎合取宠式的思维。在中国取宠思维很厉害,你说GDP增加多少就是多少,这不是说的,要有人做。工具就是刚才说的能力加计算机系统加泛型。

个人要有快速的自学能力和对数据分析的爱好,我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我觉得有价值,第二天就放到课堂上了。只有这样,只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,显示你的记忆力好,那不是好老师。

另外是不是做数据科学家的材料?你专长于任何特定编程语言相比,泛型变成技巧更重要。那时候计算机跟这个牌子一样大,晶体管计算机呢,是从那个时候开始,根本没有这样的屏幕。最重要的素质就是能快速学习东西,在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途,你有这个潜力你能干什么事。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧?但是硬盘没有创造力。


图片来源于嘉宾演讲PPT
如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,如果你对这样的工作感兴趣你就适合干这行。现在我没事就处理变成数据,我看了这个以后觉得自己有点像。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣,这个不是玩儿的。我有一个朋友,他就被上级陷害之类的坐牢了,现在坐牢很容易。他后来就跟我说,他觉得这件事情很享受,就是你怎么看这个问题了。你要是发愁过一天也是一天,高高兴兴的过一天也是一天,所以你要考虑怎么活才合适。


图片来源于嘉宾演讲PPT
真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心理也应该这样想。


图片来源于嘉宾演讲PPT
还需要什么呢?刚才我说了,学习能力比知识更重要,欢迎挑战、乐于攀登。我是如果没有挑战了,没有古怪的数据,别人干不了了的我觉得很无聊,有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长,我们国家从来不倡导这个,为什么咱们不宣传这个?

不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。


图片来源于嘉宾演讲PPT

图片来源于嘉宾演讲PPT
你看这是总一本书上摘的,这是根据基因的聚类分析,北方中国人在这儿,那个地方是阿勒泰,这个是土耳其,乌孜别克,这边尼泊尔,这是韩国,这怎么归类,不是一个人种啊。这一部分是西藏的人,这还有日本等等的。你看下一页是南方中国人的,这旁边是越南的苗族,上面是泰国什么的,所以南方中国人基本上是马来人种。北方是阿勒泰人种。你说连个人种都不是,你能是一个民族吗?现在网上到处骂这个是汉奸,那个是汉奸,到底谁是汉奸呢?因为汉人这个词出现是在元朝出现的,当时人分六种,蒙古族最高,色目人第二,汉人是第三,这是北方的,这样就很莫名其妙了。当时蒙古族,是乌兰夫觉得谁是谁就是,谁不是就不是,这就变成政治化了。所以我说什么事都要动脑子。


图片来源于嘉宾演讲PPT
什么人最快乐?被人需要,这是很重要的,就是你得有价值。因为你的专长,能力、善良、尊重、爱心、品质、性格、智力、分享。今天早上他们也讲了,就是在公司里跟人家能相处,至少你得是可爱的,而不是那些人。还要关心他人,能让别人快乐的人是快乐的。如果买点东西在宿舍里藏在被窝里吃,那高兴吗?如果跟别人分享的话会更高兴。尊敬别人的人是快乐的,一定要尊敬别人,如果大家都尊敬别人的话,社会上任何犯罪都没有了,因为犯罪都是偷、抢、杀,侮辱别人这都是不是尊敬别人的。诚实坦荡的人是快乐的,这就是不能撒谎的,永远不能撒谎。还要心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,如果人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。