基于的我国档案学主题结构与演化研究(5)
政务信息公开与档案公开主题的研究逐渐减少,正如前文提及,信息公开主题的研究主要围绕政府信息公开,而《政府信息公开条例》于2007年公布,经过十年的发展,相关研究逐渐走向成熟,这可能是导致近年来相关研究数量减少的主要原因。
4 总结与展望
本文主要研究了如何基于文本挖掘的主题模型对学科发展结构与演化过程进行分析,并以近十年档案学领域两种CSSCI核心刊所载研究论文为分析对象,多角度揭示了近十年我国档案学研究的知识结构,验证了主题模型在学科领域结构和演化分析中的作用。本文的研究结论如下:
(1)基于内容挖掘的主题模型能够有效识别学科领域的主题结构。相对于利用共词、共被引[49]等方法进行的知识结构分析,主题模型方法获得的学科结构更加全面,且由于各个主题直接基于载荷较高的关键词进行命名,对比纯粹依赖分析者本身的认知,显得更加客观与准确。由于主题模型分析结果直接给出了具体研究论文的主题分布,因此可以依据主题载荷较高的论文,对主题的具体研究内容进行细致的分析。
(2)从主题演化的角度来看,通过对识别出的主题加入时间维度进行分析,能够避免传统演化分析中将整个学科发展趋势与主题发展趋势混合分析的问题;通过对各个主题在时间上的分布分析,能够有效识别学科研究领域中各个具体研究方向的发展历程,从而把握整个学科的发展趋势。
虽然主题模型具有各种优势,但是同样存在许多缺陷。目前已经有许多研究给出了各种优化模型,但是主题模型的局限性并不仅仅是模型的有效性问题。本研究认为,利用主题模型进行学科知识结构分析的缺陷主要体现在:①在主题识别的过程中,主题载荷十分依赖于词的出现频次,但是词的频次在某种程度上并不完全等同于重要性,而是更加侧重于热点程度;②虽然主题模型分析结果可以得到各主题下载荷较高的论文,但是这些论文只是更加符合特定的主题,并不代表在整个研究中很重要;③各主题在时间上的分布并不能仅仅依据直接的频次,而是需要充分考虑在单个时间节点上所占的比例,且基于主题模型的演化分析并不能很好地反映主题交叉。
本研究认为,主题模型的利用需要分析者保持高度的关注。在具体分析过程中,应当明确自身的分析目标,如果需要分析学科结构中各个主题的重要性,应当加入其它类型的重要性测量指标,如论文的被引次数等,使分析结果更加准确合理;在进行主题的演化分析时,需要充分考虑词本身所代表的知识内容变迁,分析相同关键词在不同时间节点所代表的语义内涵,并以此反映学科主题的交叉现象。上述问题的解决也是本文未来进一步探索的方向。
1 引言
学科主题识别研究一直以来都是图书情报领域,特别是计量分析的主要工作内容之一。在传统的计量研究中,学科主题的识别方法总体而言可以分为两类:第一类是通过学科研究论文外部特征如期刊[1]、作者[2]、机构[3]等构成的共现网络,在进行社区识别的基础上,依据研究人员的主观认识进行学科主题揭示;第二类是对与主题直接相关的内容要素单元进行的分析,如共词分析[4],研究人员依据关键词和主题词构成的网络或矩阵,通过多元统计中的降维方法或社会网络分析,能够较容易地发现关键词群所构成的主题。上述两类方法中,共词方法显得更为直接,但是其局限也十分明显:关键词容易被划分到单一主题而导致语义反映单一化、孤立词归属不准确、频次难以反映语义强度等问题[5]。
主题模型[6]较好地克服了共词分析中存在的问题,逐渐被广泛应用于学科主题的识别中。在主题模型的基本假设中,词和文本之间设立主题层,通过不同的概率分布,将词映射到主题空间,并假设文本由多个主题依据特定概率组成,抽取文本集合中的主题及其分布,能够有效反映文本的语义内涵和主题结构;进一步通过加入时间维度,主题模型的分析结果能够通过时间序列分析有效地反映主题的发展过程。
档案学作为图书馆情报与档案管理一级学科下的一个二级学科,经过长期发展已经逐渐形成了较为明确的学科结构,但目前对于档案学研究的分析多依据传统的定性分析方法或常规的计量分析方法,难以准确识别学科整体发展的主题内容,对学科主题的发展过程揭示也存在不足。本文以我国档案学研究论文为分析对象,通过文本内容分析揭示学科主题结构和主题发展过程,并在此基础上分析档案学研究的发展方向,以期为相关学科分析和方法研究提供参考。
文章来源:《档案学研究》 网址: http://www.daxyjzz.cn/qikandaodu/2021/0803/605.html
上一篇:基于双聚类算法探测档案学研究领域知识基础及
下一篇:西方档案学被引资源分析研究