基于的我国档案学主题结构与演化研究(6)
2 主题抽取过程
2.1 数据获取
本文选择了档案学研究的两种CSSCI期刊《档案学通讯》和《档案学研究》2007年至2016年所刊载的研究论文为主要分析对象,数据来源选择CNKI网络期刊总库。在数据的获取上,由于范围明确,因此直接以来源期刊进行数据检索,《档案学通讯》近10年共载文1535篇,《档案学研究》共载文1279篇。在数据获取的基础上,进一步对所有论文进行内容分析,通过手工筛选获得2811篇研究论文及其关键词、摘要数据作为文本挖掘的基本对象,数据检索时间为2017年1月10日。
2.2 文本主题挖掘过程
本文在研究过程中主要是先通过中文文本分词,进一步利用主题模型对档案学近十年的研究成果进行内容分析。中文文本的分词工作是进行内容挖掘的基础步骤,在研究过程中,本文利用中国科学院计算所自然语言处理研究组张华平博士开发的NLPIR2016,在此基础上通过编写python程序利用ctypes调用NLPIR API的相关库文件中函数间接实现分词[7];在分词过程中,本文还依据档案学论文的关键词,通过相应的筛选机制建立了词表作为分词依据。在主题模型分析方面,本文主要利用斯坦福大学自然语言处理研究组开发的主题模型工具包Stanford Topic Modeling Toolbox(简称TMT)实现[8];该工具包主要面向非计算机专业人士和社会科学领域学者的主题模型分析需求,提供可视化的操作界面如图1所示,用户可以通过利用TMT运行编写的脚本实现主题的挖掘[9]。
图1 Stanford TMT的操作界面
TMT的主要操作可以直接针对CSV格式的文本数据实施,图2给出了利用TMT分析的文本基本格式。由于本文的研究主要针对题录数据进行挖掘,因此文本主要包括题名、关键词和摘要三个字段;同时,由于需要对主题演化情况进行分析,因此也包括了文章的发表年代信息。
图2适用于TMT分析的CSV文档格式
TMT在帮助文档界面提供了主题挖掘过程需要的原始脚本下载,用户可以根据自身的实际需求对代码进行修改以实现所需的分析。在TMT中进行主题挖掘主要通过主题模型的学习和推理两个过程实现。图3是主题模型学习过程脚本的核心内容。脚本的第1行给出了加载文件的名称,本研究中为try.csv,文档中的第一列为ID。代码的第3—8行定义分词器,由于中文文本的分词已经通过NLPIR实现,因此需要使用TMT内置的WhitespaceTokenizer分词器,第7行表示在文本处理过程中忽略短于2个字符的词。
脚本的10—19行是有意义词的提取过程,第12行表示从原始文档的第3、4、5列进行文本内容的提取,由于出现频率过于频繁的某些词和较为罕见的词无法作为判断文档相似性标准,因此第16行表示去除在少于4篇文献中出现的词,17行则删除了最常见的40个词,同时,18行又舍弃了整个文本长度低于5个词的记录。进一步的,脚本第21—25行给出了LDA的训练过程,本文中经过多次试验后选定了15个主题(第22行),并采用Gibbs抽样进行LDA模型训练(第25行)。
图3主题模型学习过程核心脚本
图4给出了主题模型推理过程以及进行时间切片的核心脚本。其中第1行加载了图3代码运行成功后获得的模型文件夹名称,脚本3—13行用已载入模型的分词器进行了进一步的分词工作。原始脚本中给出的其他代码可以实现在潜在主题上词和文本分布的推测,用户在使用过程中可以不进行修改。由于要进行主题的发展过程分析,因此还需要获取每个主题在时间上的分布切片,在本文进行分析的文档中(见图2),时间信息位于第2列,因此在脚本的第16行明确时间切片为文本的第2列。代码修改完成后就可以直接用TMT进行加载分析,获取主题抽取结果。
图4模型推理及时间切片核心脚本
3 结果分析
用中文文本分词与主题模型对所有研究成果进行内容挖掘,经过对主题数量的反复测试,当主题数量设为13时,所得到的结果具有相对明显的区分度。TMT的分析结果分别给出了各个主题下主要专业词汇的分布,以及各个主题在每篇文献上的分布情况,因此,一方面可以根据主题下词汇的分布为主题命名,另一方面则可以根据主题载荷较大的文献具体解析每个主题的内容;此外,还可以通过各个主题在时间上的分布,获得主题发展过程分析的结果。
3.1 主题挖掘结果
利用TMT主题模型对档案学研究论文的主题挖掘结果如表1所示;同时,由于TMT分析结果给出了各个主题在所有研究中出现的频率,因此可以获得各个主题在全部研究中的受关注程度。图5是各个主题的受关注程度的可视化分析结果。
文章来源:《档案学研究》 网址: http://www.daxyjzz.cn/qikandaodu/2021/0803/605.html
上一篇:基于双聚类算法探测档案学研究领域知识基础及
下一篇:西方档案学被引资源分析研究