科技名词
数据科学
Data Science
定义:一门以数据,尤其是大数据为研究对象,并以机器学习、统计学和数据可视化等学科为主要理论基础,重点研究数据的加工、计算、管理、分析以及数据产品开发等关键活动的交叉性学科。
学科:计算机科学技术_计算机交叉学科_数据科学
相关名词:大数据 统计学 计算机科学 人工智能
来源:全国科学技术名词审定委员会
【延伸阅读】
当前,大数据的飞速发展使大数据和传统知识之间的矛盾日益凸显,大数据在量级、类型、价值密度以及处理速度要求等方面均已超越了传统知识解释和解决问题的能力,而现阶段人们所掌握的知识尚未普遍地随之产生改变。如何解决这一矛盾已经成为重要的研究课题,并因此催生出一门新的学科——数据科学。
从研究目的看,数据科学的根本研究目标是实现数据、物质和能量之间的转化,即如何通过“数据的利用”降低“物质/能量的消耗”或(和)提升“物质/能量的利用效果和效率”。具体而言,有以下几个方面:1.大数据及其运动规律的揭示;2.从数据到智慧的转化;3.数据的分析与洞察;4.数据的业务化;5.数据驱动型决策支持及辅助决策;6.数据的管理与治理;7.数据产品的开发;8.数据生态系统的建设。
从知识体系看,数据科学以统计学、机器学习和数据可视化为主要理论基础,其核心研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析、数据产品开发以及与领域知识的融合应用(如下图所示)。此外,数据科学还涉及一些人文与管理问题,如数据治理、数据管理、项目管理、数据安全、数据偏见、数据隐私以及数据伦理与道德等。
数据科学的知识体系 图片来源:《数据科学理论与实践》
从生命周期看,数据科学流程主要包括数据化、数据加工、数据分析、数据呈现与应用以及数据产品的部署与运维等关键活动。其中,数据化是采用物联网、移动互联网、新型生产制造设备与科学仪器以及业务信息系统等技术手段,计量和记录现实世界,并将现实世界中的事物转换为数据世界中的数据的过程;数据加工是通过业务理解、数据理解、数据预处理和数据模态转换等活动,将目标数据转换为规整数据的过程;数据分析是采用机器学习算法、统计学模型及人工智能方法,从规整数据中发现有价值的数据洞见的过程;数据呈现与应用是采用数据可视化、数据故事化以及其他数据产品开发方法,将数据洞见转换为数据产品的过程;数据产品的部署与运维是将数据产品应用于实际业务和决策的过程,进而达到解决现实世界中的数据密集型问题、实现数据驱动型决策支持以及发挥数据的生产要素作用等目的。
目前,数据科学在健康医疗、新闻出版、材料科学、农业种植、市场营销、软件工程、金融保险、交通管理、公共政策研究等领域得到广泛关注与应用。
(中国人民大学副教授/博士生导师 朝乐门)