Skip to content

leonaxiongxin/TDC

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 

Repository files navigation

TDC of CSSCI Journal(2013-2017)

数据收集

思路:选择具有代表性的团体

  1. 本学科的CSSCI核心期刊,一流期刊之间的比较(参考学姐学科之间比较的研究,高(考古学)、中(艺术学)、低(马克思主义)值的期刊各选两种期刊),也可以和自然科学进行对比

策略:

  1. 平台:CNKI(有摘要数据)的期刊数据库;

  2. 检索:文章来源=<期刊名>,精确匹配

  3. 时间:2013, 2017

  4. 格式:EndNote,每份期刊单独建立一个子文件夹

  5. 注意:可能有英文记录

数据处理

思路:保持各期刊的术语数量的大小范围尽量一致,且在计算能力范围内

  1. 不同矩阵(术语空间)是不能相互比较值的,都是相对值

  2. 由于双月刊、月刊、半月刊导致的文章数目不一致,需要按照最小值进行抽样

  3. 术语空间的大小应限制在2万左右,若超出可在题名、关键词、摘要字段中做出取舍

策略:

  1. SAIT软件,勾选去重,中文分词功能可不选,把EndNote标记格式转换成XML标记格式

  2. 运行xml2tuple.py,先把XML转换成结构化的CSV,再利用NLPIR进行中文分词,如果根据停用词表(结合哈尔滨工业大学停用词表、四川大学机器智能实验室停用词库、百度停用词表)对分词后的文本去除停用词,结果还是有很多对实际检索没有意义的虚词,故最终选择结合停用词表,并只保留实词(去除数词),转换成元组格式并存储在triple文件夹

可以去除某些没有检索意义的词
去除:
'particle', 'punctuation mark', 'conjunction', 'preposition', 'adverb', 'noun of locality', 'pronoun', 'modal particle', 'onomatopoeia', 'string','suffix', 'interjection', 'numeral', 'prefix', 'classifier','status word'
保留:
名词,动词,形容词,地名,时间词,distinguishing word
  1. 分层抽样。实际有效文章数的最小值是中国图书馆学报361,于是按照年份分层对每份期刊在每个出版年抽取40个样本

  2. 运行tuple2DTM.py,遍历得到术语去重后的列表,并记录各期刊各术语在术语列表中的位置,不考虑词频得到期刊-术语矩阵DTM,存储在DTM文件夹。在DTM-log文件中获取期刊的术语特征数。

数据计算

运行tdc.py,先把DTM转置成TDM,用术语在期刊文档中的共现情况(余弦相似度)来表示术语,得到术语-术语矩阵TTM,存储在TTM文件夹;

  1. 计算每个术语到中心术语(均值)的欧式距离(修正的欧式距离),计算均值得到该期刊术语空间的术语密度density
密度越大,说明该术语空间内的术语分布越分散,区分度越好;反之,区分度越差
  1. 去掉某术语T后再计算该期刊的术语密度density_t

  2. 该期刊的平均术语密度为

density_avg = np.sum(np.fabs(density_t - density)) / size
  1. 计算该术语空间内每个术语的区分度
tdc = (density_t - density) / density_avg
若TDC为负,则说明去除该术语后,该文档空间的密度减小,对术语区分度有负向影响;反之,有正向影响

TDC,术语区别能力,用于描述信息空间中术语个体之间的差异(或区别)程度,TDC越大,说明术语较其他术语之间的综合差异越大,内容更独特个性更鲜明,作为索引词的检索效果将更明显

数据分析

运行track2txt.py, 把npy文件中的TDC值与每个期刊对应的术语、文档频次等相关起来,并存储到term文件夹中的txt文件里,并绘制期刊的TDC箱图

运行npy2csv.py将npy文件存储的IS-tdc-17,IS-tdc-13-17转换为csv文件存储

  1. 描述统计 期刊的TDC最大值/最小值、正/负值百分比 将TDC值导入到SPSS中绘制TDC频次分布直方图
  2. One-way ANOVA 分析,比较平均值,ANOVA
  3. Two-way ANOVA 一般线性模型, 单变量,固定因子(X轴),随机因子 出版年对TDC值的影响 对出版年和期刊做双因素方差分析,线条有交叉重叠
  4. 对每个期刊的出版年进行单因素方差分析
  5. 对斜率聚类

画图

  1. 一般 FontName='Arial' FontSize=9,从matlab粘贴过来的字可能会显小,可适当调大
  2. 在word中插入图片不要拉伸,可先粘贴至画图工具Visio,再复制、粘贴到word中
  3. 流程图尽量在word中画

某些发散的思路

meditor中介变量,索引词影响下载量,下载频次影响被引频次(文献被引的第一次高峰在发表后两年内),被引频次是期刊影响因子的重要因素

  1. 复合影响因子 以期刊、学位论文、会议论文为复合统计源文献计算,被评价期刊前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比; 复合包括硕博士论文、会议论文、期刊引用的次数计算
  2. 综合影响因子 主要是指文、理科综合,是以科技类期刊及人文社会科学类期刊综合统计源文献计算,被评价期刊前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比; 是综合只包括期刊引用的次数计算

About

Term Discriminative Capacity

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published