科技名词

您当前的位置: 首页  >  科技名词  >  科技名词
文本挖掘
发布时间:2021-05-08     作者:   来源:全国科学技术名词审定委员会   分享到:

文本挖掘

text mining

定义:利用计算机从非结构化的文本中自动发现隐含的、未知的、有价值的信息或知识的过程。典型的文本挖掘方法包括文本分类、文本聚类、概念/实体抽取、观点分析、文档摘要和实体关系模型构建等。

学科:语言学_计算语言学_应用系统

相关名词:文本 网络挖掘 数据挖掘

来源:全国科学技术名词审定委员会


【延伸阅读】

文本挖掘是从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式或知识的过程,我们可以把它看作数据挖掘或数据库中知识发现的延伸。由于目前存储信息的最一般形式是文本,通常一些视频和音频文件也都会转换成文本信息,所以有人认为文本挖掘的商业潜能甚至比数据挖掘还要高。对文本信息的挖掘主要是以数理统计学和计算语言学为理论基础,让计算机发现某些文字出现的规律以及文字与语义、语法间的联系。文本挖掘处理的对象是非结构化的文本数据,这是一件很复杂的工作,涉及多个学科领域,如信息检索、文本分析、信息抽取、自动聚类、自动分类、可视化技术、数据库技术、机器学习和数据挖掘等。

文本挖掘是机器学习中尤为重要的一部分,但不同于全文检索。全文检索提供信息定位的功能,而文本挖掘是抽取有用的、有效的、可理解的、散布在文本中的有价值的知识,并利用这些知识更好地组织信息的过程。大数据时代,人们可轻松获得并利用技术资料、商业信息、新闻报道、自媒体短文本、娱乐资讯等多种类别和形式的文档,构成一个异常庞大的具有异构性、开放性特点的语料库,通过文本挖掘技术的分析提取,常常会获得巨大的商业价值。目前,在网络舆情、风险管理、情景广告、商业智能、垃圾邮件过滤等领域都广泛应用了文本挖掘技术。