数据科学及其对信息科学的影响(3)
2.2 理论体系
数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容有数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图1所示[13]。如果我们将数据科学比喻成“鹰”,那么:
·统计学、机器学习和数据可视化:相当于“鹰”的翅膀或脚。脱离了统计学、机器学习和数据可视化,数据科学这一“鹰”就“飞不起来”,也“落不了地”。也就是说,统计学、机器学习和数据可视化是数据科学的理论基础。当然,统计学和机器学习不是完全正交的两个学科,近年来二者也呈现出了深度融和的趋势[14]。但是,笔者认为,从研究责任及其在数据科学中的作用角度看,二者是不可相互替代的不同思路。另一个需要补充提出的是,也有部分学者认为,除了统计学的其他数学类知识(如概率论、线性代数等)也是数据科学的理论基础。
·基础理论、数据加工、数据计算、数据管理、数据分析、数据产品开发:相当于“鹰”的躯体,也是数据科学的核心内容。其中,基础理论主要涉及数据科学中的新理念、理论、方法、技术、工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等核心问题。数据加工(Data Wrangling 或Data Munging)强调的是数据处理中的增值活动,即如何将数据科学家的创造性设计、批判性思考和好奇性提问融入数据加工过程之中。数据计算、数据管理、数据分析主要讨论的是其大数据挑战及主要变革。数据产品开发是数据科学区别于其他科学的重要研究责任。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等新特征。
·领域知识:相当于“鹰”的头脑,决定着数据科学的主要关注点、应用领域和未来发展走向。脱离于领域知识或领域应用,数据科学的研究与学习将变得盲目和无趣。也就是人们常说的“与领域知识的高度融合是数据科学的重要特征之一”[6,13]。
图1 数据科学的理论体系
2.3 现状与趋势
目前,数据科学的理论研究主要体现在以下三个方面:
· 数据科学的基础理论,如包括数据科学的研究问题、研究方法、技术与工具在内的数据科学特有的核心问题的系统研究[15-16]以及某一细节性课题的侧重研究,如数据质量[17]、数据加工[18]、数据柔术[19]、大数据分析[20]、数据产品开发[19]、数据驱动型决策、数据密集型应用、基于R或Python的数据科学实践等。
· 数据科学的应用研究:主要涉及数据科学在决策支持[16]、预测分析[21]、商务智能[22]、智慧城市、健康医疗、软件开发、工业生产和产品设计中的应用。
· 数据科学的人才培养问题:如数据科学课程开发[23]、数据科学与大数据技术专业培养方案的制定以及数据科学家的培养。
与此同时,数据科学相关的学术组织与社会活动越来越多,比较有代表性的是:
· 出现了一些以数据科学命名或面向数据科学的学术期刊,如The Data Science Journal(ISSN 1683-1470)、Data Science and Engineering(ISSN 2364-1185)、International Journal of Data Science and Analytics(ISSN 2364-415X)、International Journal of Data Science(ISSN 2053-0811)、Journal of Data Science(ISSN 1680-743X)、EPJ Data Science(ISSN 2193-1127)、Big Data Research(ISSN 2214-5796)、Journal of Big Data(ISSN 2196-1115)、Big Data & Society(ISSN 2053-9517)和大数据(ISSN 2096- 0271)等。
· 举办了一系列以数据科学命名或面向数据科学的国际会议,如IEEE数据科学与高级分析国际会议(IEEE International Conference on Data Science and Advanced Analytics)、ACM IKDD数据科学会议(ACM India SIGKDDConference on Data Sciences)、数据科学与工程国际会议(International Conference on Data Science and Engineering)、数据科学国际会议(The International Conference on Data Science)、数据高峰论坛(Data Summit)和开放数据科学会议(Open Data Science Conference)等。
· 成立了一批以数据科学命名或面向数据科学的专业研究机构,如伦敦帝国学院数据科学研究所、哥伦比亚大学数据科学研究所、纽约大学数据科学中心、加利福尼亚大学伯克利分校数据科学中心以及一些大数据企业(如IBM、Google、Facebook等)的数据科学部门。
近年来,数据科学研究呈现出了两个重要趋势:一是数据科学作为一门新学科,从统计学和机器学习等理论基础中独立出来,逐渐发展成一门新的学科领域——专业数据科学,重点提炼其理念、理论、方法、技术、工具和最佳实践;另一个是,在各传统科学中,大数据现象和数据科学作为一种新的研究方向或子学科——专业中的数据科学。例如,数据新闻(Data Journalism)[24]是新闻学与大数据交叉后产生的一个新研究方向。但是,数据科学是一门快速发展的新兴学科,其研究深度和广度尚未达到期望值。从理论深度看,数据科学的一些关键问题(如大数据的变化规律、数据驱动型应用、数据密集型计算、数据产品研发方法等)有待进一步深入研究;从理论广度看,数据科学与其他学科(包括信息科学)之间的融合程度不够,数据科学的学科地位与科学贡献尚未明确。
文章来源:《档案学研究》 网址: http://www.daxyjzz.cn/qikandaodu/2021/0107/390.html
上一篇:绿色档案馆照明节能综述
下一篇:专业认证背景下档案学专业应用型人才培养研究