Kaggle机器学习大调查:中国从业者平均25岁,博士工资最高,最常使用Python

笔者按:Kaggle 是互联网上最著名的数据科学竞赛平台之一,用户数量超过了100 万人。最近,这一社区首次进行了机器学习/数据科学现状调查,向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。

在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。

报告包括以下重点内容:

Python可能是当前最常使用的机器学习工具,但更多的统计学家仍然用R语言。

总体来说数据科学家平均年龄在30岁左右,但随着不同国家这个具体数值也在变化,例如,印度的受访者总体比澳大利亚平均年龄小9岁。

受访者学历占比最多的似乎是硕士,但是工资最高的(年薪150K以上)则更多是博士学位获得者。

雷锋网编译和解读报告内容如下,后台回复关键词“Kaggle调查”获取。

一、数据工作者是什么样的?

观察数据从业者的方式有很多,但本文将从人口统计学信息也就是数据科学从业者的工作和背景开始。

你的年龄是?

如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。中国机器学习从业者年龄分布较为集中在20-45之间,中位数年龄非常年轻,在25岁左右,而美国的年龄分布则较为广泛,从图表上看起来,不乏百岁长者和稚子。

你目前的就业状况如何?

受调查者中,有 65.7% 表示自己有全职工作。但当将国籍选定为中国之后,这一数字的比例下降到53.5%。

你的职位是什么?

我们发现,数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。在中国,最流行的头衔前三位是“机器学习工程师”、“数据分析师“以及”数据科学家“。

你的全职年薪是多少?

中位数$55,441,不过由于很多人没有全职工作,所以这一数字不见得准确。

就平均收入来说,美国的机器学习从业者薪资最高,年薪11万美元。中国则明显低于这个数字,平均不到$30K.印度则只有$11K,

你的最高学历是什么?

总体来说,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。

中国的机器学习从业者学历以本科(39.5%)和硕士(40.5)为主,博士学历仅占比11.2%。美国对应的学历百分比则分别为26.5%,44.5%,和20.7%。

总体来说,被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000 左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。

二、数据科学家的工作内容是什么?

我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。

这一部分的问题受访者不再以国籍分类, 而是以所在公司规模、行业等。

工作中你使用什么数据科学方法?

Logistic 回归是工作之中最为常用的数据科学方法,不过军事领域和国家安全领域中神经网络使用则更为频繁。

总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。

工作中你使用最多的工具语言是什么?

Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家对R 语言仍保持着较高忠诚度。

在工作中你常用的数据类型是什么?

关系型数据是开发者在工作中最常用的数据类型,大多数产业工程师都十分关注。而学术研究者和国防安全产业则更关注文本与图像。

如何分享工作中的代码?

超过一半数据工作者(58.4%)使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。而初创公司可能需要在云中共享以保持更加敏捷的反应。

工作中遇到的障碍主要是什么?

脏数据(dirty data)以占据接近一半的比例位列第一,脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。

紧随其后的是“缺乏数据科学天赋”、“缺乏资金和管理支持”“缺乏一个能明确回答的问题”以及“数据不可用或无法获取”。

值得注意的一点是,当调整公司规模到中小型企业,“缺乏资金组建数据团队”这一选项立刻跃居第三。看来资金和人才始终是创业公司面对的一大难题。这也意味着新的数据科学家很幸运。他们进入了一个抢手的行业。

三、数据科学家新手如何入行?

寻求新的职业发展时,看看别人的成功秘诀往往很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何“成功”的。以下是我们觉得较好的几条建议:

你建议数据科学家新手最先学哪门语言?

每一位数据科学家对于如何选择第一门语言都有自己的想法。事实证明,那些使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们推荐 Python 给你的概率可能会大两倍。

你们使用哪些数据科学学习资源?

数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内顶尖的位置,从而不断提升自己的竞争力。已经在数据科学领域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在这个新人辈出的行业保持与时俱进。如果想要发布内容或开源软件,请记住,刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。

你们在哪里获取开源数据?

没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。我们很高兴的得知,我们的数据集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正发展为数据科学社区成员中最频繁使用的工具。

你们怎么找工作,以及怎么找到的?

找工作的时候你可能会到公司网站上,或寻找指定技术方向的招聘信息,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而通过建立自己在这个行业的关系网络、直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。

注:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问源网页查看。原报告后台回复关键词“Kaggle调查”获取。