想做数据科学家?快来看看你还差在哪儿

科技云报道原创。

《2017大数据及人工智能人才发展报告》显示,截至2017年12月,大数据及人工智能人才需求迅猛增长,增幅高达795%。据专家估算,未来五年,中国大数据人才需求至少为100万人,反映出了我国大数据产业相关人才极度匮乏的现状。

据IDC统计,全球数据总量以每两年翻一番的速度爆发式增长,预测同时自然催生出了大量与大数据处理相关的职位,其中最吸引人的要数被誉为“21世纪最性感职业”的数据科学家。 

数据科学家与传统数据分析人员的本质区别,在于其所需具备的综合多样的专业素养。他们是大数据价值发现与挖掘的主力,是融合统计学、计算机科学、情报学、心理学等多学科背景的综合性人才。

数据科学家作为数据科学理论体系的实践者与发展者,是当下AI、数据链等新兴科技领域中至关重要的角色。

大数据人才平均固定年薪达38万

数据科学家的工作领域十分广泛,从政府职能部门到金融机构和互联网企业。

他们需要以综合性、交叉性学科背景,兼具统计、数据挖掘和工程技能,有能力从海量多样的数据洪流中挖掘、识别和提取应用价值。

再通过可视化、易于理解的方式传达给客户或管理层,高效创建数据驱动的行业解决方案,并且在不同的行业领域,所具备的能力也各有侧重。 

据Glassdoor的报告显示,美国数据科学家的平均年薪高达118709美元,而普通程序猿的平均年薪仅有64537美元。

而在中国,根据《2017大数据及人工智能人才发展报告》显示,大数据及人工智能薪资整体高企,平均固定年薪达38万。人工智能薪资溢价尤其明显,起薪突破19万每年,高出互联网普通技术人员134%。由此可见,未来数据科学家的就业前景将非常乐观。 

待遇优需求高理应吸引更多人才汇聚于此,但实际情况却是近年来全球范围的“大数据人才荒”。

麦肯锡调查显示,到2018年,整个北美地区有150万的数据分析和数据科学相关人才的缺口,包括大数据、金融、传统零售超市等领域。

人才的缺失即是教育的缺失,正所谓“十年树木百年树人”,人才培育自有其规律,大数据领域的人才发展亦不能脱离。 

三大指标界定数据科学家能力

数据科学家作为一种稀缺的数据人才,具体应该具备怎样的能力,是大数据人才培养首先需要明确的目标。

数据科学家通常被认为是比软件工程师更擅长统计,比统计学家更擅长软件工程的人。但实际情况是,行业对于数据科学家的要求远不仅止于此。 

综合分析国内外多家数据研究机构对于数据科学家能力指标的界定,主要将其能力结构划分为三大板块:领域知识、工程技能和数据科学知识。同时三大板块能力又可以综合归纳为两大类:“技术硬指标”和“人文软实力”。 

领域知识方面,需要了解从事行业的职能以及专业领域数据的收集、分析和利用方式;同时应具备一定的项目管理能力,协调调动并发挥成员优势,保证项目顺利进行,实现目标。 

工程技能方面,掌握Python,C/C++等编程语言基础上,要熟悉Apache系列产品,掌握SQL为基础的结构化查询语言,了解数据库设计管理基础知识并具备一定的实战经验。在数据处理方面,掌握Flare、HighCharts等可视化工具也是数据科学家不可或缺的必备技能。

数据科学知识作为其基础能力指标,要求数据科学家具备矩阵计算、扩散几何等数学基础,并能理解和熟练运用统计学分析方法和R语言等核心统计工具。知晓如何运用相关性分析、多元回归以及糅合各种数据从不同角度进行预测性和规范性建模。

‘T’字型人才备受推崇

在数据科学家能力要求方面,过去更多强调的是其扎实的技术硬指标所反映的能力水平,但从职业长远发展来看,人文软实力的重要性更为凸显。这也是T型数据科学家能力模型备受业界推崇的重要原因之一。 

“未来的人才必须是‘T’字型人才”,美国数据科学家——Taste Analytics创始人Derek Wang曾在采访中表示,“ ‘T’的一横代表着他们对多领域和行业有着跨行业的基础知识和视野,而一竖代表着他们对技术专业的理解和纵深积累。” 

T型数据科学家模型最早由O‘Reilly出版公司的H.D. Harris等学者提出,该模型从能力广度和领域专长两个方向对数据科学家能力体系进行构建。

其中,能力广度的培养开始受到更多关注,主要包括:学术好奇心、讲故事能力、产品意识和工程经验。 

“学术好奇心”和“讲故事能力”作为“人文软实力”的代表成为资深数据科学家与一般数据分析从业者的关键分水岭。 

学术好奇心是对未来态势的强烈预测,通过分析可用的数据,找到解决公司问题的实验方法或模型。

讲故事的能力则是有效将研究发现传达给非技术型利益相关者,这也必须调用其视觉艺术和设计的深厚功底,以专业可视化设计师和沟通交流专家的身份,以明确的方式向非数据分析专业人士清晰地展示、表达业务价值。

IBM将数据科学家的角色形容为“一半分析师,一半艺术家”,即数据科学家应该是科学和艺术的结合体。科学的部分是显而易见的:统计学知识外加编程、工程技术等硬技能。艺术的部分也是同等重要——创造力、深层语境理解。两部分的完美糅合才能造就一个出色的问题解决者,数据世界的开拓者。

【科技云报道原创】

微信公众账号:科技云报道