胡志刚++林歌歌++孙太安++侯海燕
摘要:通过研究产出和研究偏好两个维度,揭示我国各省市自治区之间的科研差异性。在研究产出方面,基于CNKI数据库,统计了中国31个地区(不包含港澳台)的论文产出量。在研究偏好方面,使用余弦距离计算地区之间的研究偏好相似度,并根据研究偏好将31个省市自治区聚成了2个大类和6个小类。最后,借助VOSViewer软件绘制各地区的研究领域热点图。这种视图可以直观展现各地区在科学研究中的优势领域,对于识别我国各地区的研究特点和偏好,具有重要的应用和启发。
关键词:研究偏好;中国;CNKI;聚类;VOSviewer
中图分类号:G322 文献标识码:A DOI:10.3969/j.issn.1003-8256.2017.04.007
Research on Spotlights Analysis for Different Regions in China by VOSviewer
HU Zhigang, LIN Gege, SUN Taian, HOU Haiyan
(Institute of Science Studies and S&T Management, WISE Lab, Dalian University of Technology, Dalian 116024,Liaoning, China)
Abstract:Revealing China's regional disparity both in research productivity and preferential research areas is thepurpose of this study. Thus, we investigated the research outputs of all 31 regions (Hong Kong, Macao and Taiwan not included) in mainland China. The investigated dataset was sourced from CNKI, one of the largest China's domestic academic databases. To measure two regions' difference in research preferences, we used the function of cosine distance rather than Euclidean distance. Clustering method was employed to classify the regions according to their similarity/disparity.In the end, two group and six clusters were generated. Each cluster is different in research preferences. In the end, VOSviewer is employed to visualized the spotlights of different regions in China.
Keywords:Research preference; China; CNKI; Cluster; VOSviewer
0 引言
近年來,随着科技投入的不断加大,我国科技产出规模和水平持续增长。2015年,在汤森路透的Web of Science数据库中,中国发表的论文量约为30万篇,占全球的16.6%,已经是连续第七年排在第二位。其中,高质量论文增长势头明显,中国各学科论文在2005~2015年10年段的被引用次数处于世界前1%的高被引论文有15011篇,占世界份额的11.9%,排名世界第四位。在论文的被引次数方面,2005~2015年间中国国际科技论文被引用次数为1287.6万次,排在美国、英国、德国之后位列第四。
虽然科技发展的总体成就令人振奋,但是各学科领域的发展水平和速度并不一致。按照Nature出版集团发布的2015年Nature Index China报告[1],中国的科学论文产出主要集中在化学、物理等几个特定的学科领域。来自比利时联合国大学的学者Lili Wang的研究[2]也表明,中国的研究优势在于硬科学领域,像工程、能源、材料科学、计算机科学等,而在心理学、艺术与人文、社会学等软科学方面仍远远落后于世界先进研究水平。此外,官建成及其团队使用Web of Science数据对中国在个别学科上的表现做出了一系列的研究[3-7]。
除了学科之间的差异之外,各地区之间的科技水平和科研竞争力也不尽相同。正如经济社会发展的不均衡一样,中国各省市自治区在科技产出也存在着较大差异[8-11]。根据Nature Index China 2015报告,北京、上海、南京等排在前十位的城市贡献了我国73.2%的高质量研究论文。而根据在Web of Science中检索得到的数据,2015年我国发表的SCI论文中有大概1/4来自北京。目前,北京已经成为全球论文产出量最大的城市,超过了伦敦、东京、巴黎、纽约、旧金山和波士顿。
各地区的科研差异不仅体现在科研产出规模上,也体现在科研产出结构和优势领域的分布上。例如,中国科技水平最高的两个城市,北京和上海,在侧重的科研领域上却大相径庭。北京更侧重于基础研究和人文社科领域的研究,而上海则更侧重于生物、化学等高新产业技术方面的研究。
为了揭示我国各地区的科研水平和优势领域,本文基于CNKI数据库中的发文量数据,统计分析了我国31个省市自治区(不包括港澳台)在各学科中的科研表现和产出规模,并根据其优势领域的分布进行区域间的聚类,最后,借助可视化工具VOSviewer绘制各地区优势科研领域的热点图。endprint
1 数据与方法
1.1 数据来源:CNKI
利用科学论文产出量[2]和引用次数[12-15]来对一个国家和地区的科研水平进行评价是科学计量学中的常用方法。此前关于中国学科表现的研究中多使用Web of Science、Scopus、Engineering Village (EI)等国际文献数据库。然而一个明显的事实是,大部分中国学者的研究仍然主要用中文写作,发表在国内期刊而不是国际期刊上。尤其是人文社科领域研究,因为研究问题往往太过“中国”化,而很难在国际期刊上发表。2002年,爱思唯尔出版集团首席科学家Moed等人曾分别使用中国本地数据库——科学引文数据库(CSCD)和国际期刊数据库——汤森路透的SCI数据库比较了我国在国内外的科研表现[16],得出了两个截然不同的优势领域图景。周萍等人的研究[17,18]也表明,基于国内期刊数据库进行统计分析可能比基于国际期刊数据库的分析更为准确和全面。
基于上述原因,在本文中我们选用CNKI文献数据库做为数据来源。CNKI数据库是全球最大的中文期刊论文数据库,共收录了10116本期刊,论文总数超过5100万篇。在CNKI数据库中共划分了10个专辑,分别是基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑、农业科技、医药卫生科技、哲学与人文学科、社会科学Ⅰ辑、社会科学Ⅱ辑、信息科技、經济与管理科学。这10个专辑又进一步被细分为168个研究领域。每一篇论文依据其标题、摘要、关键词等信息被划分到一个或多个领域。也就是说,和Web of Science这种基于期刊(Journal-based)的学科划分不同,CNKI数据库中的学科划分是基于论文(Article-based)的。
本文查询得到了2015年我国31个省市自治区在168个研究领域中各自的论文发表量。为去除掉质量不高的论文,这里我们只统计发表在北大核心期刊中的论文。在CNKI中,核心期刊占总期刊比例约为19.5%。
1.2 方法:相似度计算和聚类
首先,计算各省研究主题的相似性。相似性,是指各省在研究主题多维空间中的距离的大小,距离的测量方法有欧几里得距离、马氏距离、余弦距离等[19]。由于本文研究的是各省的研究偏好而非绝对数量,因此在测量距离时使用的是余弦距离,而不是欧式距离。后者的结果会受到研究主题论文产出绝对量的影响,而余弦距离则只依据各学科的比例。两省之间的研究领域的排序越相似,其余弦距离越小。
然后,基于各省在研究倾向上的相似性,使用层次聚类法对31个省市自治区进行聚类。层次聚类法是一种自下而上的聚类方法,通过逐级合并的方式进行聚类,距离相近的省份首先被合并为一个聚类,最终形成一个层层聚集的树状结构。
最后,我们使用VOSviewer工具绘制各省份的研究领域热点图。VOSviewer是由莱顿大学的CWTS研究中心的Van Eck和Waltman在2010年开发的一款文献分析和知识可视化软件[20]。热点图的展现视图是这款软件中的一大特色。热点图视图是通过颜色光谱展示研究热点的强度,红色暖色调的表示热点领域(红海),蓝色冷色调的表示冷门领域(蓝海)。因此这一视图非常适合用来展现各省的研究侧重,即在哪些领域相对较热,哪些领域相对较冷。
2 结果
2.1 各地区的研究论文产出
表1是2015年各省市的论文产出情况。北京市以87718篇的论文产出量排名榜首,超过排名第二位的江苏省(论文产出量53577篇)约63.7%,上海以30707篇的论文产出量排在第三。排在前三位的省市中,北京和上海是中国最发达的两个城市,江苏省的人均GDP(国民生产总值)在中国各省(除去直辖市)中排名第一位,在经济、科技、教育、文化等诸多领域处于国内领先地位。江苏省省会南京市拥有两所985高校(南京大学和东南大学)和六所211高校(南京航空航天大学、南京理工大学等),另外还有中科院系统下的南京土壤研究所、地理与湖泊研究所、地质古生物研究所等,这些高校及科研机构为江苏省的科学发现和技术创新做出了很大的贡献。
根据表1中各地区的论文产出量可以绘制中国的科研分布地图,如图1所示。在图1中,各地区中颜色的深浅表示该地区2015年在CNKI中的论文发表量,颜色越深,说明该地区的论文发表量越多。可以看出,中国的科研论文产出主要集中在江苏、广东、山东、浙江等东部沿海地区和位于长江流域的湖北、四川等中部省份,这些省份贡献了超过80%的论文产量。而位于西部的西藏、青海、甘肃、宁夏等省份或自治区,科研水平和论文产量较低。
2.2 研究领域的规模
表2展示的是2015年CNKI数据库中的各研究领域所包含的论文量。论文量最高的研究领域是“环境科学与资源利用”,该领域的论文量为18182篇,其次是“建筑科学与工程”(17332篇)、“轻工业手工业”(17321篇)、“电力工业”(17144篇)等领域。我们发现,热门研究领域的分布与我国当前的热点问题相吻合,例如,近十年来备受关注的环境问题、基础建设、轻工制造、电力工业等都在热点研究领域中得到了突出体现,尤其是“环境科学与资源利用”领域,其论文量在全部168个学科中的排名从2008年的第5位直线上升至2015年的第1位。
2.3 各地区的研究偏好
进一步统计各地区的高产研究领域,以展现各地区的研究偏好。表3列出了北京、江苏、上海和西藏等地区发表论文量最高的主要研究领域。可以看出,各地区的高产研究领域各不相同:北京市的研究主要集中在地质学、电力工业、环境科学与资源利用等领域;江苏省的研究主要集中在中等教育、环境科学与资源利用、建筑科学与工程等领域;上海市的研究主要集中在建筑科学与工程、电力工业和环境科学与资源利用等领域;而西藏自治区最高产的研究领域则是畜牧与动物医学、地质学和生物学等与第一产业有关的学科。显然,地区的研究偏好与当地的经济社会发展阶段和需要有密切关系。endprint
2.4 各地区研究偏好的相似度
本文通过余弦距离来测度地区之间研究偏好的相异度(间接反映了相似度)。余弦距离计算产生的邻接矩阵如表4所示,矩阵中的值代表各地区之间的相异度的大小。例如,安徽省和北京市的余弦距离是0.1066,与重庆市的余弦距离为0.0857,与新疆的余弦距离是0.3217。这说明在研究偏好方面,安徽省与重庆最接近,与北京市的相似度次之,与新疆最不相似。
表5列出了余弦距离最小和最大的地区。从表中看出,江苏和浙江这两个相邻省份的余弦距离最小, 只有0.0390, 研究偏好最为相似。其次是上海市与天津市(余弦距离为0.0402), 这两个直辖市有着相似的经济地位和经济结构。排名第三位的是北京市与湖北省(0.0483)。湖北省武汉市是世界上大学生最多的城市,也是中国高校最多的城市之一,武汉市共有69所本科院校,仅次于北京市的87所,因此武汉市和北京市的的研究领域覆盖率都比较广,理工农医人文社科各学科领域齐头并进向前发展。所以湖北省和北京市在研究领域分布上非常相似。
2.5 各省市按研究偏好聚类
使用层次聚类法,基于表4中的邻接矩阵进行聚类分析,得到的聚类结果如图2和图3所示。图2是聚类结果的树状图,展现了各地区是怎样根据相似度的大小一步步进行合并的成一个聚类的。按照Y轴的值(代表聚类之间的距离)为1.0进行切分,可以得到6个聚类;按照Y轴的值为2.0进行切分,6个聚类进一步合并为两个组。为了更好的展现聚类结果,我们还在地图上用不同的颜色对聚类结果进行了标注。
聚类A包含6个省份,包括东北地区的黑龙江、吉林,华北地区的山东、河北、河南。这些省份既是我国重要的农业大省,又具有较好的工业基础。因此,该聚类中的省份的研究领域比较均衡,分布在生物学、金属学、环境科学与资源利用等与第一产业和第二产业有关的领域。
聚类B是六个聚类包含省份最多的。它包含了11个省市,大多位于中国经济最活跃的华东地区和华南地区,其中包括长三角(上海、浙江、江苏)和珠三角(广东)各省,另外还包括福建、江西、湖南和安徽等。聚类B的研究侧重主要集中于轻工业、电力工业、化学、中等教育等,反映了这些地区在轻工业领域的经济实力。
聚类C中包含了5个省份,主要包括北京市和位于中西部腹地的四川,湖北、陕西、山西各省。这些地区的高等教育较为发达。除了前面介绍的北京、武汉之外,陕西省的省会西安市和四川省的省会成都市都是高校、名校林立。这使得聚类C中的地区研究覆盖的领域一般比较广,自然科学、技术科学、人文社科发展比较均衡。
聚类D、E、F三个聚类比较小。聚类D包括内蒙古、甘肃、宁夏、云南和贵州五个省、自治区,这些位于西北和西南少数民族聚集的地区,大多经济发展水平不高,研究领域侧重于农林畜牧业和一部分轻工业。聚类E只包含海南省,研究领域侧重于热带作物和植物学研究。聚类F包含新疆、西藏和青海,这三个地区都属于地广人稀的欠发达地区,研究领域侧重于畜牧业和少数民族问题研究,具有鲜明的研究特色。
在更高的阈值上,聚类A、B、C中的22个省或市可以归为组I,而聚类D、E、F中的9个省或自治区归为组II。显然,组I主要位于东部或中部发达地区,而组II主要位于西部欠发达地区。
2.6 各地区的研究领域热点图
基于每个地区的研究偏好使用VOSviewer软件绘制各地区的研究领域热点图。热点图可以更好的展现出各地区在研究侧重上的不同。由于篇幅限制,本文只选取组I中的湖北省(图4)和组II的内蒙古(图5)作为案例进行展示。
图4和图5基于相同的底图进行绘制,即各研究领域的坐标完全一致,以方便对二者进行比较。图4展现了湖北省的研究热点分布,可以看出湖北省的研究热点主要集中在位于图谱上方的地质学,位于中间的电力工业、环境资源与科学利用,以及位于底部的高等教育、图书情报与数字图书馆等。
内蒙古自治区拥有中国面积最大的草原,经济上以畜牧业和农业为主要构成,此外内蒙古还是资源大省,煤炭、天然气、稀土资源储量丰富。因此,内蒙古的热点领域集中在位于图谱上方的矿业工程、农作物,位于中间的金属学及金属工艺、畜牧与动物医学等。内蒙古的人文社科研究也比较活跃,包括教育学、少数民族研究等。
3 结论
本文基于CNKI数据库中的核心期刊论文产出数据,对我国31个省市自治区的研究偏好进行了分析和解读,并通过VOSviewer软件绘制了各地区的研究领域热点图,更直观的展现了各地区的研究偏好及特点。
研究发现,各地区之间的差异不仅表现在科研产出的规模方面,在研究领域的偏好方面也有很大差异。通过计算和比较各地区之间的研究偏好,我们将31个省市自治区进行了聚类,划分了6个聚类和2个大组。不同聚类的省份在研究偏好上具有不同的特点。例如,位于组I聚类C中的湖北的竞争优势在于地质学,而组II聚类D则在畜牧和动物医学方面相对较强。
从研究偏好的特征可以看出,一个地区的研究偏好和该地区的经济格局有很大的相关性。市场力量在科学技术发展中发挥着非常重要的作用,中国工业化程度最高的省份,如江苏、浙江和广东等,在电力行业、轻工业行业、建筑行业中具有较大的需求,其科研投入和产出水平也明显较高,这反过来又进一步巩固了这些地区的工业化地位。而在西部相对贫穷的省份,如西藏、新疆、青海等,其经济来源仍然以畜牧业和農业为主,这使得该区域的研究产出主要集中在农作物、畜牧业和动物医学等相应领域,以满足当地第一产业的发展需求。
参考文献:
[1] MCGHEE K, PHILLIPS N. Nature index 2015 China[J]. Nature, 2015, 528(7582): S165.
[2] WANG Lili. The structure and comparative advantages of China's scientific research: quantitative and qualitative perspectives[J]. Scientometrics, 2016, 106(1): 435-452.endprint
[3] GUAN Jiancheng, MA Nan. A bibliometric study of China's semiconductor literature compared with other major Asian countries[J]. Scientometrics, 2007, 70(1): 107-124.
[4] GUAN J, HE Y. Patent-bibliometric analysis on the Chinese science—technology linkages[J]. Scientometrics, 2007, 72(3): 403-425.
[5] GUAN J, GAO X. Comparison and evaluation of Chinese research performance in the field of bioinformatics[J]. Scientometrics, 2008, 75(2): 357-379.
[6] GUAN Jiancheng, WANG Gangbo. A comparative study of research performance in nanotechnology for China's inventor-authors and their non-inventing peers[J]. Scientometrics, 2010, 84(2): 331-343.
[7] GAO X, GUO X. SYLVAN K J,et al.The Chinese innovation system during economic transition:A scale-independent view[J]. Journal of Informetrics,Elsevier Ltd, 2010, 4(4): 618-628.
[8] LEYDESDORFF L, PERSSON O. Mapping the geography of science: distribution patterns and networks of relations among cities and institutes[J]. Journal of the American Society for Information Science and Technology, 2010, 61(8): 1622-1634.
[9] BORNMANN L, LEYDESDORFF L, WALCH-SOLIMENA C,et al. Mapping excellence in the geography of science: An approach based on Scopus data[J]. Journal of Informetrics, 2011, 5(4): 537-546.
[10]BORNMANN L, WALTMAN L. The detection of“hot regions” in the geography of science—A visualization approach by using density maps[J]. Journal of Informetrics, 2011, 5(4): 547-553.
[11]ANDERSSON D E, GUNESSEE S, MATTHIESSEN C W, et al. The geography of Chinese science[J]. ENVIRonMENT AND PLANNING A, 2014, 46(12): 2950-2971.
[12]KOSTOFF R. Comparison of China/USA science and technology performance[J]. Journal of Informetrics, 2008, 2(4): 354-363.
[13]MOIWO J P, TAO Fulu. The changing dynamics in citation index publication position China in a race with the USA for global leadership[J]. Scientometrics, 2013, 95(3): 1031-1050.
[14]ZHOU P, LEYDESDORFF L. A comparison between the China scientific and technical papers and citations database and the science citation index in terms of journal hierarchies and interjournal[J]. Journal of the American Society for Information Science, 2007, 58(2): 223-236.
[15]YANG S, MA F. SONG Y,et al.A longitudinal analysis of citation distribution breadth for Chinese scholars[J]. Scientometrics, 2010, 85(3): 755-765.
[16]MOED H F. Measuring China's research performance using the Science Citation Index[J]. Scientometrics, 2002, 53(3): 281-296.
[17]ZHOU Ping, THIJS B, GLAENZEL W. Is China also becoming a giant in social sciences?[J]. Scientometrics, 2009, 79(3): 593-621.
[18]ZHOU P, LEYDESDORFF L. The emergence of China as a leading nation in science[J]. Research Policy, 2006, 35(1): 83-104.
[19]JAIN A K, MURTY M N, FLYNN P J. Data clustering:a review[J]. ACM computing surveys(CSUR),Acm, 1999, 31(3): 264-323.
[20]VAN ECK N J, WALTMAN L. VOSviewer: A computer program for bibliometric mapping[J].Scientometrics,2010,84(2):523-538.
(編辑:张萌)endprint