基于的我国档案学主题结构与演化研究(2)
图3 主题模型学习过程核心脚本
图4给出了主题模型推理过程以及进行时间切片的核心脚本。其中第1行加载了图3代码运行成功后获得的模型文件夹名称,脚本3—13行用已载入模型的分词器进行了进一步的分词工作。原始脚本中给出的其他代码可以实现在潜在主题上词和文本分布的推测,用户在使用过程中可以不进行修改。由于要进行主题的发展过程分析,因此还需要获取每个主题在时间上的分布切片,在本文进行分析的文档中(见图2),时间信息位于第2列,因此在脚本的第16行明确时间切片为文本的第2列。代码修改完成后就可以直接用TMT进行加载分析,获取主题抽取结果。
图4 模型推理及时间切片核心脚本
3 结果分析
用中文文本分词与主题模型对所有研究成果进行内容挖掘,经过对主题数量的反复测试,当主题数量设为13时,所得到的结果具有相对明显的区分度。TMT的分析结果分别给出了各个主题下主要专业词汇的分布,以及各个主题在每篇文献上的分布情况,因此,一方面可以根据主题下词汇的分布为主题命名,另一方面则可以根据主题载荷较大的文献具体解析每个主题的内容;此外,还可以通过各个主题在时间上的分布,获得主题发展过程分析的结果。
3.1 主题挖掘结果
利用TMT主题模型对档案学研究论文的主题挖掘结果如表1所示;同时,由于TMT分析结果给出了各个主题在所有研究中出现的频率,因此可以获得各个主题在全部研究中的受关注程度。图5是各个主题的受关注程度的可视化分析结果。
12个研究主题中,受关注程度较高的主要是档案学科范式、专门档案管理、政务信息公开、电子文件管理和档案专业教育研究,口述档案与历史档案、民族档案、档案保护、档案信息资源建设等主题受到的关注程度相对较低。从内容上看,12个主题涵盖了档案学理论研究和事业发展的各个方面,各主题之间表现出较为明显的区分度的同时,联系也非常紧密。档案学学科范式与专业教育密切相关,学科范式的研究为专业教育的发展提供了重要参考依据。非物质文化遗产主题的研究特别强调保护, 这与档案保护研究密切相关, 但同时由于其对象的特殊性,表现为独立的主题;同样的,电子文件是档案的一种类型,其管理问题应该同样属于档案管理研究,但我国档案界对电子文件管理的研究侧重于技术方面,与传统的档案管理的侧重点存在差异,因此在主题模型分析结果中,两者表现为不同的研究主题。档案资源的建设、档案信息公开、档案信息服务三个主题构成了档案工作的主要组成部分。此外,民族档案、档案法、口述档案与历史档案的研究虽然在近十年的档案学研究中占到的比例并不大,但也表现为比较具有区分度的独立主题。下文将依据在主题上载荷较大的具体文献对各个主题的具体内容进行进一步分析。
表1 近十年我国档案学研究的主题编号主题名称高频词汇1档案学科范式理论研究、范式、研究成果、研究方法、档案学科、档案职业、文件运动、学术研究2专门档案管理人事档案、管理模式、企业档案管理、科技档案、管理系统、文档一体化、信息化建设3政务信息公开与档案公开政府信息、信息公开、开放利用、隐私权、利用服务、开放存取、《政府信息公开条例》4电子文件电子文件、长期保存、元数据、电子文件管理系统、OAIS、文件管理、电子文件长期保存5档案专业教育人才培养、档案教育、档案专业、高等教育、实践教学、课程建设、教学改革、专业发展6档案信息服务信息服务、知识服务、数字档案资源、服务模式、弱势群体、档案用户需求7非物质文化遗产非物质文化遗产保护、档案资源、非物质文化遗产档案、数字遗产、来源、集体记忆8档案法治《档案法》、档案行政执法、档案法规、所有权、非国有档案、国家档案资源、档案立法9档案资源建设资源建设、资源整合、政府信息资源、档案整理、档案著录、档案编纂、质量控制、EAD10档案保护档案安全、突发事件、耐久性、自然灾害、档案服务社会化、保障体系、档案保护、评价11民族档案少数民族、文化遗产、民族档案、档案史料、文化传承、民族地区、文化遗产保护12口述档案与历史档案口述档案、真实性、口述历史、知识产权、历史档案、社会记忆、古代文档、文档名词
图5 各主题受关注程度可视化结果
3.2 主题内容分析
文章来源:《档案学研究》 网址: http://www.daxyjzz.cn/qikandaodu/2021/0803/605.html
上一篇:基于双聚类算法探测档案学研究领域知识基础及
下一篇:西方档案学被引资源分析研究