文本挖掘的基本步骤
文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。
(1)文本收集
需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。
(2)文本分析
与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实。本节对《粤港澳大湾区发展刚要》进行文本挖掘与分析。
(3)关键词词云分析
词云就是对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使用户只要一眼扫过文本就可以领略文本的主旨。好的数据可视化,可以使得数据分析的结果更通俗易懂。“词云”就是数据可视化的一种形式。
(4)知识图谱
又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。可以将文献题录数据通过共现分析获得共现矩阵,然后通过前文介绍的社会网络分析方法,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域,为学科研究提供切实的、有价值的参考。