朝乐门:怎么成为“数据科学家”
发布时间:2021-09-14 17:36:42 所属栏目:大数据 来源:互联网
导读:大家好!今天我讨论的专题是《如何成为数据科学家》。数据科学家是近几年兴起的热词,如: 2012年《哈佛商业评论》上刊登过一篇文章,该文章说:数据科学家是21世纪最性感的职业。值得一提的是,这篇文章的两位作者都是牛人:一个是Davenport,是知识管理
大家好!今天我讨论的专题是《如何成为数据科学家》。“数据科学家”是近几年兴起的热词,如:
2012年《哈佛商业评论》上刊登过一篇文章,该文章说:数据科学家是21世纪最性感的职业。值得一提的是,这篇文章的两位作者都是牛人:一个是Davenport,是知识管理领域领域非常著名的人物,也是注意力经济和流程再造等概念的提出者;另外一个是Patil,是后来成为美国白宫第一任首席数据科学家的著名人物。我对数据科学的关注也是从这篇文章开始的。我之前做的是基于Semantic Web的知识管理,偏重于知识工程。Davenport是知识管理领域非常有名的教授,我当时一直在关注和跟踪他的动态。有一天,偶然发现自己崇拜的偶像Davenport开始转向Data Science。这让我很郁闷,我的奋斗目标都转移了,我怎么办呢?我自己感到很不解和迷茫。经过一番思考和调查之后,我也看到了Data Science的前景。因此,我正式进入数据科学领域也是在2012年。
2015年,我们又看到一则重要新闻。美国白宫专门设立一个“数据科学家”的岗位,并聘请Patil作为首席数据科学家。从此,数据科学家和Patil成为全球人们讨论的关注点。
那么,数据科学家的收入水平如何呢? John king等在做持续性研究。这是2015的数据,在美国,数据科学家的年薪可达15万,可以这样理解,相当于一个程序员的2倍,还是很高的。
未来我们缺不缺数据科学家呢?多家咨询机构做过调研,都证明缺口很大。
例如,麦肯锡全球研究院认为,到2018年,美国经验熟练数据科学家短缺口高达18万左右。
.我们再看看数据科学家所属的数据科领域的前景如何呢?这是著名的Hype Cycle for emerging technologies图--gartner的 技术成熟度曲线,
是2014版本的。从图中看出,每个技术的发展经历这样一个生命曲线。数据科学正处于炒作期的末端,很快,2-5年之后,就投入实际应用。
.现在开始进入正式内容,我们内容按以下顺序组织:
♦什么是“数据科学”
♦如何学好“数据科学”
♦如何讲好“数据科学”
♦数据科学家是如何炼成的
首先,从数据、数据科学、数据科学家等三个方面讨论数据科学的内涵。
注意,数据与数值是两个概念,如上图。数据不仅包括数值,还包括文字、图形、图像、语音、视频、多媒体...当有人问我你的数据科学和数学有什么区别时,我就有点晕~~
那么,到底什么是数据科学呢?用一句话讲,数据科学可以理解为大数据科学。数据科学是大数据背后的科学。为什么这么说呢?大数据时代的到来是“数据科学”这样一个新学科出现的直接导火线。当然,数据科学有很多种定义方法,比如这书给出了四种定义。今天我们不讲定义,而讨论一些更深层次的问题,共同探讨本质性问题。
一个根本问题是,我们如何正确认识“数据”?以往,我们把数据当做一个死的东西,看到的是它的被动属性--是个符号而已,是死的东西,我们并没有太多关注(如数据本身有什么规律、数据能告诉你什么、数据能做什么等)。但是,大数据时代到来后,人们对数据的发生了变化。什么变化呢?开始关注数据的主动属性?什么是数据的主动属性 ?我用几个大数据时代的 热词来解释吧?数据驱动、让数据说话、数据业务化、数据密集型、数据分析式、数据洞见等。换一句话说,数据科学研究的是人类对数据的系统性认识,尤其是数据的主动属性 。我说的主动属性这个提法不一定很合适,可以说是active 属性。
那么,什么是大数据思维呢?说白了,大数据思维是历史经验主义。在传统意义上,大数据时代到来之前,我们一直坚信的是“理论完美主义”,理论完美主义是“基于知识”的。然而,“历史经验主义”是“基于数据的”,直接用数据来解决问题,也就是说没有“把数据转换成知识”的前提下,解决问题。如上图所示。这个问题可以这样比喻,当遇到一个非常困难的问题的时候,有人喜欢找知识水平很高的教授或博士,也有人倾向于找知识水平不一定很高,但经验(数据)丰富的农民或工人等。前者属于传统的知识范式,而后者有点像大数据时代的数据范式。
这个图在数据科学领域的影响非常大。说的是什么呢?至少说了两个事情:
从外围看,数据科学家需要掌握三大方面的能力--数学与统计知识、领域实战经验和黑客精神,我总结成数据科学的三个要素--知识、实战和精神。从内核看,数据科学的主要理论基础是三个:机器学习、统计分析和领域知识。补充说明一点,黑客精神? 别害怕,这里说的黑客不是你想的黑客。国内术语翻译有问题,英文中的Cracker和hacker都翻译成了黑客,其实二者不同。Cracker是坏人, Hacker 是好人。所谓黑客精神就是“热衷挑战+崇尚自由+主张分享+追求创新”。简单总结一下,这个图说明了数据科学的另一个特点,即数据科学的三个基本要素”理论+实战+精神“。
大数据出现以后,似乎对每个学科领域的影响很大。大到什么程度呢?好像每个学科都开始“怕死”,都在高谈自己与大数据的“亲密关系”。结果呢,各学科都开始主动去“拥抱” 大数据,出现了很多新学科。
比如,新闻学和大数据交叉后产生了“数据新闻”,再如大数据金融、大数据社会等。那么,我们需要进一步深入思考,这些新的学科交叉会出现什么?或者说,这些新的学科中有哪些共同的理论呢?--那就是数据科学。从这里可以看出数据科学的另一个重要特点--专业中的数据科学和专业数据科学的差异性。
有人可能会问我,你讲了这么多,数据科学是不是一个空壳,有东西吗?有,这是我们构建建的数据科学领域本体,领域本体是学科存在的重要标志。目前,大概有160左右的重要词汇吧。今天时间不够,不讲了。
这是数据科学相关技术。这是著名的Big Data Landscape图,当然不是我画的。从这个图中也可以找到,数据科学相关的技术。
我们进入第三个小问题--什么是数据科学家。
理解数据科学家的一个重要障碍可能是我们分不清楚数据科学家和数据工程师的区别。我用一张图解释吧。数据工程师做的是"数据本身的管理",而数据科学家做的是"基于数据的管理"。数据科学家的工作重点不是管理数据本身。基于数据的管理是指“基于数据做事”,包括基于数据的管理/决策支持/预测/业务化等,用数据科学领域的术语说的话,就是“数据产品开发”。
数据科学家的职责是什么呢?看这个Slice。注意:对于数据科学家,可视化描述和故事化描述能力非常重要;数据产品开发能力也很重要;在数据科学中,数据产品是一个比较特殊的概念;在数据科学领域,“提出问题”比“解决问题”更重要,当然,这不是我说的,是爱恩斯坦说的。
我们分析一位具体的数据科学家吧。Patil是美国UM的应用数学专业phd ,曾在LinkedIn,GreylockPartners, Skype, PayPal, and eBay、美国国防部工作过。在数据科学领域写过两本书(Buildingdata Science Teams、 Data Jujisto)和一篇著名论文。2015年以后,他的事迹大家都清楚了,不讲了。
那么,有没有地方已经开始招聘数据科学家呢?有,左边是贝尔实验室,右边是IBM的招聘信息。
第二个大问题--如何学好数据科学?我从三个方面讲。
学习数据科学,首先应了解数据科学的发展简史。Peter Naur是著名的计算机科学家,图灵奖获得者,大家学过BNF语法吧,BNF中的N就是他的名字中的N。 另外,大家还应重视贝尔实验室在数据科学领域的重要贡献。
那么如何学好数据科学更好呢?有很多中说法,说什么的都有,有合理的,也有不合理。我也不绕圈子,直接给你一个符合中国人的学习路线图吧。
第一步,读三本书。这些工作都做好后,你会发现,有所收获。但要注意,这才是刚刚找到通往数据科学家的大道,详见这个ppt的最后一个slice,你还会看到此图。
我是按照数据科学的三个基本要素“理论、实战和精神”推荐的。第一本书是讲数据科学理论的最好的书;第二本是将实际操作的最好的书,都是目前为止;如果英文不好,或理论操作同时进行,或者再补充一些新的知识,可以用第三本。
推荐三门课,分别是...。推荐理由有两个,一是系统性强;二是不仅可以访问具体内容,而且对方是第二次开这门课。另外,我也要在做公开课程的准备工作,是用心做的课程,即将公布,大家可以关注。
推荐大家做三种练习......
3在需要掌握三个基本本领。这也符合,我们之前说的,数据科学的三个基本要素:理论+实战+精神。
数据科学家都长的什么模样?会不会伤身?.我发现搞数据科学的大牛都是很帅的,看来还有美容养颜的作用。因此,呼吁大家,每天早上饭前看两遍数据科学,中午饭后半个小时......
在此,为什么要说注意事项呢?有两点考虑:一是数据科学与传统科学不一样,它有自己的特殊性,比如:三分理论、三分实战、三分精神;二是目前数据科学领域处于混乱状态,说什么的都有...所以,数据科学的学习很容易迷失。我针对数据科学的这一特点,提出了四点建议,为了方便理解和记忆,名字是数据科学的“四则运算原则”--分别是乘、除、加、减........
第三个问题也很关键。因为,老师是数据科学的普及与发展中具有不可替代的作用。因此,应优先培养教师队伍.....我们需要做的事情很多,担心的事情也很多。为此,我做过一些调研,最后总结成了10大问题。
最后,我们回到主题--如何成为数据科学家。大家可能注意到了,现在我把“如何成为数据科学家”改成“数据科学家是如何炼成的”,原因在于成为数据科学家并不那么简单.。
炼成数据科学家是一个漫长的过程,必须依次经历上图所示的三个关键阶段--刚开始学习时的幸福(理论),进入实际运用时的痛苦(实战)以及过了很多年之后的第三阶段......“让10年后的你,感谢今天的自己吧”....
![]() (编辑:信阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |