数据科学及其对信息科学的影响(9)
目前,学术界已对数据科学(Data Science)的内涵基本达成共识——数据科学是一种以数据为中心的科学。朝乐门[6]在其专著《数据科学》中从以下四个方面较为全方位地解释了数据科学的内涵:
· 是一门将“现实世界”映射到“数据世界”之后,在“数据层次”上研究“现实世界”的问题,并根据“数据世界”的分析结果,对“现实世界”进行预测、洞见、解释或决策的新兴科学;
· 是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算、数据分析和数据产品开发等活动的交叉性学科;
· 是一门以实现“从数据到信息”、“从数据到知识”和(或)“从数据到智慧”的转化为主要研究目的的,以数据驱动、数据业务化、数据洞见、数据产品研发和(或)数据生态系统的建设为主要研究任务的独立学科;
· 是一门以“数据时代”,尤其是“大数据时代”面临的新挑战、新机会、新思维和新方法为核心内容的,包括新的理念、理论、方法、模型、技术、平台、工具、应用和最佳实践在内的一整套知识体系。
从上述四种定义可看出,数据科学的最终研究目标是实现数据、物质和能量之间的深层转换,即通过数据利用的方式降低物质/能量的消耗或(和)提升物质/能量的利用效果和效率。具体来讲,数据科学的主要研究目的可分为:
(1)大数据及其运动规律的揭示。从“(小)数据”到“大数据”涌现出了很多新的特征。但是,目前而言,我们对大数据的这些新特征的认识尚不透彻,有待进一步深入研究,如表1所示。
表1 从“(大数据中的)数据”到“大数据”的涌现方式涌现方式 (大数据中的)数据价值涌现 从大数据中随机选出的一条(或若干条)数据往往被认为没有价值或价值不大大数据大数据在整体上价值很高价格涌现 从大数据中随机选出一条(或若干条)数据之后,对其定价非常困难 大数据在整体上容易进行定价知识涌现 在大数据中的一条(或若干条)数据为基础推导出新知识的难度大(或可信度低)以大数据基础容易发现新知识信度涌现 从大数据中随机选出一条(或若干条)数据之后,可能发现是一条错误、异常或缺失数据少量错误、异常或缺失数据的存在并不影响整体大数据的可信度
(2)大数据的资产化利用。大数据产业的兴起,促使人们终于认识到了数据的“资产”属性。例如,Lohr[7]在《纽约时报》上发文表示,“数据将会是类似于现金和黄金的一种新型经济资产(Asset)”。这种认识上的转变突破了传统信息科学中经常提到的“数据是一种资源(Resource)”的认识范畴,使用权、利用权、经营模式、交易方式和定价策略将成为大数据独有的重要议题,且成为相关领域实践中亟待解决的新课题。此外,如何将数据转化为智慧以及如何实现数据洞见(Data Insights)成为大数据的资产化利用的主要挑战。
(3)基于数据的行动范式。不管是Jim Gray提出的第四种范式[8],还是目前广为流行的量化自我(Quantified Self)[9]行动以及数据驱动型决策支持(Data-Driven DSS)[10]均遵循数据科学特有的行动范式——基于“数据”的行动范式,而不是传统科学中常用的基于“知识”、“目标”或“假设”的行动范式。数据科学的这种行动范式具有其独特的应用价值,将与基于知识的行动范式形成互补,共同组成人类两种基本行动范式。
(4)数据产品的研发。所谓的数据产品是指基于数据的各种产品,而其产品形态和载体不再仅限于数据。基于大数据开发出“数据产品(Data Products)”是数据科学的最直接目标,也是当今最为广泛流行的应用。例如,Google在其大数据的基础上开发出了诸多产品,如拼写检查、语音识别、禽流感趋势分析、Google眼镜、市场商机洞见等。因此,如何以大数据为基础开发出数据产品将是数据科学研究的主要目标之一。
(5)供给侧改革。德国提出的“工业4.0(Industry 4.0)”[11]和美国提出的“工业互联网(Industrial Internet)”[12]均反映了数据科学研究的重要意义在于供给侧,而不是消费侧。如何在供给侧一端将大数据转换为能量与材料是数据科学的另一个研究目标。
(6)数据生态系统的建设。从长远看,数据科学需要研究包括大数据、数据科学家、Cyberspace、政策、法律、文化、传统、规章制度等不同要素在内的一个完整的生态系统的设计、孵化、维护、优化与管理,进而为现代组织机构创造出良好的大数据生态环境。
文章来源:《档案学研究》 网址: http://www.daxyjzz.cn/qikandaodu/2021/0107/390.html
上一篇:绿色档案馆照明节能综述
下一篇:专业认证背景下档案学专业应用型人才培养研究