对话LinkedIn数据科学负责人许亚,技能素养和学习资源完全手册

图片 1

图片 1

本文由SocialBeta根据一亩三分地Warald
(Email:
iamxiaoning@gmail.com;博客:http://www.1point3acres.com)数据科学系列文章、Todd
Wasserman《So you wanna be a data scientist? A guide to 2015′s
hottest
profession》和知乎网友Han
Hsiao《如何成为一名数据科学家》话题答案编译整理。

大数据文摘出品

你是精通数学、擅长Python并对某一特定行业有着深入理解的Geek么?

编辑:易琬玉

如果你的答案是Yes,不妨考虑一下21世纪最性感的职业——数据科学家。

作为全球成立最早的数据科学团队之一,LinkedIn对于“数据科学和数据科学家”都有着不一样的认识。目前,LinkedIn拥有超千人的庞大数据团队,“嵌入式”的工作模式和强大的数据驱动文化也使得领英在数据团队建设方面独树一帜。(之前文摘对领英前中国数据科学团队负责人周洋进行了独家专访)

领英最近评选出了2014年前25大最受欢迎职场技能,其中“统计分析与数据挖掘”名列第一。

领英数据科学团队介绍:

图片 2

六月底,在北京的数据科学和AI技术论坛上,领英中国总裁陆坚和领英全球数据科学负责人许亚进行了对谈,对数据科学家的业务需求、行业变化、未来数据的创新进行了交流,许亚也对期待进入数据科学领域的求职者提供了建议。

而根据Glassdoor的报告显示,数据科学家的平均薪水高达118709美元,与之相对应的是,程序猿的平均薪水只有64537美元。麦肯锡的研究预测,截止2018年,美国将面临14万到19万拥有深度分析技能的人才缺口,同时懂得运用大数据作出有效决策的分析师和经理也将会有150万人次的短缺。由此可见,未来数据科学家的前景将非常乐观。本文就从数据科学家的定义、工作内容和所需技能讲起,告诉你如何踏上数据科学家之路。

下面是对于谈话内容的摘录。

数据科学家的定义

数据科学(Data
Science)是从数据中提取知识的研究。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。

营销人最为关注的数据驱动营销(Data Driven
Marketing)就是数据科学在营销领域的运用。在此引用一亩三分地W大的博文《现在很火的数据科学到底是什么?你对做DATA
SCIENTIST感兴趣吗?》,阐述一个与广告和营销密切相关的应用场景:

一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social
media、传统媒体,到底应该把钱投入到那里会带来最大的回报?

至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn
Profile里的skills &
projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data
science。

数据科学家,顾名思义就是数据科学的从业者。这个头衔首次出现于2008年,由D.J.
Patil和Jeff Hammerbacher所提出,他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。目前已经有数千位数据科学家供职于创业公司和成熟的大型企业。数据科学家在行业中的忽然走俏,反映了这样一个现状,企业需要处理的信息正以从未遇见过的规模和渠道涌现。

曾经投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。

陆坚:数据科学家这个职位在近年来非常火爆,据我所知这个职位起源自最早硅谷的互联网公司,能不能给我们讲讲这个职位在硅谷起源的故事,是在什么契机下有数据科学家这个职位应运而生的?当时的业务需求是什么?

数据科学家主要做什么

数据科学家能够驾驭多种职责的工作。《数据之美 Beautiful Data》的作者Jeff
Hammerbacher在书中提到:

“对于 Facebook
的数据科学家,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:

在任意给定的一天,团队的一个成员可以用 Python 实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了数据科学家这个角色。”

游戏公司Playstudios 的数据科学家Jon
Greenberg说:“每天我都管理着一堆与业务相关的Dashboard——用以向公司汇报我们的用户正在做什么。”如今担任经理的Jon比从前花在编程上的时间更少了。通常,他将数据从Hadoop中提取出来,然后用R来运行,最终以可视化的形式来呈现。

Jon热爱的是这份工作本身。“想成为数据科学家,首先,你得有一个分析型的头脑,你需要头脑灵活、有好奇心、充满创意,并且总能想到多种解决问题的方法。这份工作的缺点是清洗数据所花费的时间太长,这一部分并不那么令人兴奋。”

数据科学家的工作可能不像人们想象得那样酷炫有趣。由于Data是一切分析的基础,所有公司都会雇佣一些人集中做最基本的数据收集和整理,主要用SQL,可能写一些简单的程序、做一些粗浅的分析,但是整体上工作比较枯燥无聊,也可以说是“底层人群”;用Machine
Learning或者统计建模的则属于高级人群;同时,分析数据要用到各种软件工具,可能需要高级的软件系统来支持experiments,自然也就需要软件工程师来支持。分析结果最终要用来帮助公司盈利,所以公司的管理层和直接带来盈利的部门(sales、marketing、business
development)也会参与,并作出最终的决策(decision making)。

许亚:想必大家都听过DJ Patil,奥巴马团队的首席数据科学家,他当时任
LinkedIn数据产品团队负责人,和Facebook的朋友Jeff
Hammerbacher都管理着当时公司的数据团队。2008年他们觉得这个对数据和科学都有非常深刻了解的团队需要一个正式的名称,所以整体地称为数据科学。DJ
Patil作为奥巴马的首席数据科学家,对整个国家数据的重视程度非常之高,在数据领域也有非常大的影响力。

数据科学家所需的技能素养

“数据科学家应该是艺术和科学的结合体。科学的部分是显而易见的:数学/统计、编程等等硬技能。艺术的部分也是同等重要——创造力、深层语境理解。两部分组合在一起才能造就一个出色的问题解决者。”独立数据科学家及咨询顾问Anmol
Rajpurohit如是说。他同时认为,对于数据科学家来说,懂得通用的编程技能比成为某一特定语言的编程大师更为重要,因为技术发展的速度令人惊奇,而且总有新的程序语言会冒出来代替旧语言。

图片 3

数据科学家知识谱系图

数据科学家需要具备的能力,可以用Thomas H.
Davenport(埃森哲战略变革研究院主任) 和 D.J.
Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结:

•数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心)

•把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力)

新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力

•数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力)

•当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通)

•他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力)

•他们会把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。(决策力)

Han
Hsiao在知乎《如何成为一名数据科学家》一帖中将数据科学家的硬性技能作了如下归类,并附有资源链接,供有志于成为数据科学家的朋友参考:

(1) 计算机科学

一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

零基础学习 Hadoop
该如何下手?

想从事大数据、海量数据处理相关的工作,如何自学打基础?

(2) 数学、统计、数据挖掘等

除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The
Comprehensive R Archive
Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statistical
libraries,NumPy,SciPy.org,Python
Data Analysis
Library,matplotlib:
python
plotting
**

如何系统地学习数据挖掘?

做数据分析不得不看的书有哪些?

怎么学习用R语言进行数据挖掘?

(3) 数据可视化(Visualization)

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

有哪些值得推荐的数据可视化工具?

(4) 跨界为王

麦肯锡认为未来需要更多的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行,同时连接的IT ,数据分析和业务部门的团队。如果缺少“translators“,即使拥有高端的数据分析策略和工具方法也是于事无补的。

天才的“translators”非常罕见。但是大家可以各敬其职,数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法,分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。

那当时为什么会从商业角度有这样的需求呢?数据科学其实并不是一个全新的行业,可以追溯到50多年前,一个统计学家John
Wilder
Tukey第一次把数据和科学的研究结合在一起。然而50年中数据没有那么多,来到互联网的时代,一下子用户在网上产生了源源不断向四处流动的数据,我们需要从这些数据当中去了解用户的需求是什么,了解到怎么样为用户提供更好的产品,同时也是怎么样用数据推动增长。在LinkedIn早期的时候推出了你可能认识的人(People
You May
Know)这样的功能,推荐潜在的可能认识的联系人,这个功能关键性地推动了领英当时的病毒式增长。除了这个,还有工作推荐等功能都帮助了领英核心的商业表现,所以当时在LinkedIn就产生了更多的关于数据科学的业务需求,公司对数据科学的重视程度不断提升,建立了数据科学的团队,来驱动领英早期商业表现和增长。

哪些公司在招聘数据科学家

谷歌、亚马逊、Netflix和Uber这类数据驱动型科技公司都拥有数据科学小组。而现在,连Neiman
Marcus、沃尔玛、Clorox和Gap这样的非科技公司也开始寻觅数据科学家来为公司找到新趋势下的商机。

一亩三分地W大对美国工业界也颇有了解,他在《美国哪些公司招聘DATA
SCIENTIST?看重数据科学家什么方面的背景?》一文中提到,Information
Technology、Insurance、Marketing/BI这三个行业是招募数据科学家的主力。而在不同的公司,同样是做data
scientist或者analytics的工作,要求的技能和工作的内容也非常不同。

比如Google前段时间招聘quantitative
analyst跟marketing部门合作,这个部门据说有40多个PhD,来自各个专业,设计各种模型和实验来帮助google盈利;最让人惊奇的是,Google每年收200万份简历,HR筛选不过来,干脆也招个做machine
learning的高手,要用机器学习来处理世界各地提交的简历;微软Online Service
Division有跟marketing更接近的Data
Scientist,也有很多学统计或者IE出身的Applied Scientist做randomized
controlled experiment;而LinkedIn、Facebook的data
scientist感觉要求Java编程技术熟练,可能学Computer
Science出身的最适合;Amazon强大的recommendation
system,你浏览了啥产品,amazon立刻customize你的页面,全是极其相关的东西推荐给你买。

Insurance行业招的是Predictive
Modeler,他们的总体目标就是要基于数据,预测在不同客户身上收多少保险费能最大化收益、optimize
profits,所有相关专业的它们都考虑,比如波士顿城里的liberty
mutual这家大公司,predictive analytics
team里,OR、Stat、Math、Economics、Machine
Learning等各种背景的人都有,论资历、学历,从比较新的博士到有经验的硕士都有。

同时,传统行业也在加强analytics(他们一般不叫data
science),比如做Texas一家工业废油处理公司的analytics
team,目前只是用很基本的统计分析对市场做合理的segmentation,就让公司在某个地区的利润增长超过20%;俄亥俄生产化肥的公司、常春藤大学里校友办公室负责募捐的、美国全国各地的超市等,都在过去的两年里尤其是2012年,拼命的组建或者扩充自己的analytics team,分析数据,用数据来支持决策。这类工作,一般更接近Business
Intelligence(BI)和Marketing。

陆坚:从2008年到现在十年多间,数据科学家在LinkedIn或者硅谷有什么变化?

数据科学家的前景

《哈佛商业评论》引用Gartner最新的研究报告指出,67%的营销部门准备在未来两年内增加与技术相关的预算。更具体的数据是,61%的营销部门准备提高在技术上的资本投入额度,而65%则准备提高支付给技术服务供应商的费用。

未来,更多的商务决策会建立在data
analytics的基础上,今后会有一些能力很强的data
scientist,借着风头,从技术人员成长为business
leaders。而且加盟传统行业、做统计分析,会更容易出头。

总的来说,作为一个有广阔前景、代表着未来方向的职业,data
scientist今后发展空间很大,同时这类工作又需要多个专业的技能,最近几年开始做data
scientist的,大体都算是有first mover advantage,前景很好。

许亚:这是个非常好的问题。早期的时候数据科学家职位的定义很宽泛,一个数据科学家可能是从非常底层的数据的基础建设做起,到数据分析的每个过程都会接触。那个时候大家什么都做,什么也都做得特别快。后来随着领英用户的增长,也随着我们的产品更加的成熟,最需要的已经不是很快地完成你的项目,而是怎么样更好地应对从十万到几百万这样的用户增长规模,为用户提供更好的服务。

数据科学家相关专业、课程和资源

哥伦比亚大学

Master of Science in Data
Science

西北大学

Master of Science in
Analytics

纽约大学

Master of Science in Data
Science

伊利诺伊大学香槟分校

Master of Science in Statistics: Analytics
Concentration

Coursera.org:统计学。

Coursera.org:机器学习。

Coursera.org:数据分析的计算方法。

Coursera.org:大数据。

Coursera.org:数据科学导论。

Coursera.org:数据分析。

名校课程,需要一定的英语基础和计算机基础:

Statistical Thinking and Data
Analysis:麻省理工学院的统计思维与数据分析课。概率抽样,回归,常见分布等。

Data Mining | Sloan School of
Management:麻省理工学院的数据挖掘课程,数据挖掘的知识以及机器学习算法。

Rice University Data
Visualization:莱斯大学的数据可视化,从统计学的角度分析信息可视化。

Harvard University Introduction to Computing, Modeling, and
Visualization:
哈佛大学,如何在数学计算与数据交互可视化之间架起桥梁。

UC Berkeley
Visualization:加州大学伯克利分校数据可视化。

Data Literacy Course —
IAP:两个MIT的数据研究生,如何分析处理可视化数据。

Columbia University Applied Data
Science:哥伦比亚大学,数据分析方法。需要一定的数据基础。

SML:
Systems:加州大学伯克利分校,可扩展的机器学习方法。从硬件系统,并行化范式到MapReduce+Hadoop+BigTable,非常全面系统。

数据科学这个行业的组成也是非常多元化的,可能有的人比较擅长策略和洞察,有的人可能比较擅长从算法及其影响的角度去考虑问题,有的人比较擅长写代码和编程,但是从个人的角度来说,现在的数据科学家比之前都要更加的专业化。并且我觉得这个不止在LinkedIn,在整个工业界都有这样的趋势。

业界有名的数据科学家名录

Larry Page,谷歌CEO。

Jeff Hammerbacher,Cloudera的首席科学家和DJ
Patil,Greylock风险投资公司企业家。

Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家。

Elizabeth Warren,Massachusetts州美国参议院候选人。

Todd Park,人类健康服务部门首席技术官。

Sandy Pentland,麻省理工学院教授。

Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家。

参考链接:

So you wanna be a data scientist? A guide to 2015′s hottest
profession

哈佛商业:21世纪最性感的职业-数据科学家

如何成为一名数据科学家?

现在很火的数据科学到底是什么?你对做DATA
SCIENTIST感兴趣吗?

数据科学家data scientist需要的三大核心技能:Data Hacking、Problem
Solving and
Communication

想成为数据科学家Data
Scientist,需要申请读什么专业?

美国哪些公司招聘Data
Scientist?看重数据科学家什么方面的背景?

MARKETING IS THE NEXT BIG MONEY SECTOR IN TECHNOLOGY,
需要统计分析+软件编程人才(上)

Marketing is the next big money sector in technology,
需要统计分析+软件编程人才(中)

Marketing is the next big money sector in technology,
需要统计分析+软件编程人才(下)

数据科学家的职业发展前景如何?

(原文:

陆坚:从你加入到现在,数据团队在规模上或者其他层面的变化是什么样的?

许亚:在LinkedIn数据团队是属于工程师团队的,我加入LinkedIn的时候整个工程师团队里的工程师也就一千人不到,我所在的数据团队也就一百个人。而现在数据团队已经到达一千三百多个人,而工程师已经是有四五千人。从规模上看过去的六年翻了很多倍。早期的时候很多事情需要大量的人工操作,比如要做一个实验,就会花很长的时间去校对和分析。而在过去几年当中有一个很重要的工作是让数据科学团队市场化,让更多的工程师加入这个团队,从而慢慢建立起了非常强大的平台化优势。比如LinkedIn整个数据的系统,我们从网页上面的tracking,流动到数据中心,再处理,这一整套在线过程都非常的统一和标准化。这样的平台优势极大地提升了整个团队及公司的生产力。

陆坚:我们再从业务角度上来看,能不能大概介绍一下整个数据科学团队驱动什么方面的业务?

Leave a Comment.