期刊選擇學術論文內容的分類

時間:2022-05-09 03:59:26

導語:期刊選擇學術論文內容的分類一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

期刊選擇學術論文內容的分類

1引言

在數(shù)據(jù)采集技術和數(shù)據(jù)存儲設備得到快速發(fā)展的大環(huán)境下,多種針對數(shù)據(jù)分析、挖掘的應用應運而生。在學術研究過程中同樣需要數(shù)據(jù)分析的應用,例如期刊論文的分類研究。然而,在論文文獻分類中目前還未有普遍使用的統(tǒng)一標準。由于期刊數(shù)量和投稿人數(shù)量逐年增加,論文的增長趨勢也不容小覷[1]。長期以來由于審稿周期較長、稿件本身的時效性使得一些投稿人未能遵守底線,一稿多投和一文多刊的現(xiàn)象層出不窮[2]。早期在有關期刊投稿指南的相關研究中,研究者往往僅給投稿者提出一些主觀的期刊投稿建議,例如“了解認識期刊”、“了解同行評審和稿件要求”等[3],這些建議缺乏可執(zhí)行性,在具體操作時仍不能給予投稿者切實有效的幫助。隨著,信息共享意識的覺醒以及信息系統(tǒng)的普及應用,相關學者提出了構建期刊投稿網絡系統(tǒng)的設想,希望通過多家期刊共同參與,建設一個科學、透明、共享的投稿平臺[2]。對一篇具體的論文而言,文獻篇幅一般較長,故其具有包含大量信息的特殊性。為了有效提取文本的關鍵信息,在進行文本分類時常選擇對能夠容納一篇論文最為核心信息的題錄信息進行處理[4],從而更精準地概括文獻的內外部特征、進一步挖掘出期刊收錄偏好特征。綜上,本文希望以圖書館、情報學學科SSCI核心期刊為例,獲取該學科期刊下十年內收錄文獻的題錄信息,挖掘收錄偏好特征相近的期刊進行聚類后構建層次體系結構,然后通過機器學習和深度學習的方法對該層次分類模型進行驗證,選擇最優(yōu)的特征組合和分類算法,根據(jù)以上分析結果考慮將內容相似度較高的期刊進行合并,從而獲得最佳的期刊投稿推薦意見。

2近期相關研究

我國對期刊類目劃分的研究呈現(xiàn)兩大明顯的操作路徑:一是基于期刊內容的類目劃分[5]。例如,沈立力[6]基于期刊搜索的關鍵詞將民國期刊分成詩歌、時政等共五個類目。二是針對期刊等級進行類目劃分[7],這種思路的類目劃分已經有十分成熟的理論且被學者廣泛應用于各類期刊等級劃分中,最典型的理論即為布拉德福定律。例如,蘭超英、張凌云[8]以我國旅游學術期刊為例通過期刊評價的各種指標找出了期刊合集中對應的分級層次。以上提到的期刊類目劃分思路大都基于人工統(tǒng)計和手動分類,近些年,一些基于機器和算法的方法才開始不斷涌現(xiàn)[9,10,11]。主流的文本聚類算法包括基于層次的聚類方法和基于劃分的聚類方法。除此之外,還有基于網格[12,13]、密度[14,15]、模型[16]的聚類方法。CURE[17]、ROCK[18]、CHAMELEON[19]是層次聚類中最具代表性的三種算法。層次聚類算法一般適用于小型數(shù)據(jù)集[20],張雅杰[21]、言迎[22]等曾利用層次聚類的方法對連州市和益陽市的土地進行劃分。最經典的劃分聚類算法當屬1967年提出的k-均值(k-means)聚類算法[23],后來大多數(shù)劃分聚類算法都是基于該方法進行改進。例如k-modes算法[24,25]、一致性保留k-means算法[26]。劃分聚類的方法應用得較為廣泛:李洋[27]將k-mean應用于對入侵檢測庫和安全級別的構建當中。邢留偉[28]通過k-means算法進行客戶數(shù)據(jù)建模達到了對客戶進行更精準細分的目的。眾多學者將機器學習算法和深度學習算法應用于文本分類研究,例如在專業(yè)期刊自動分類[29]、門戶網站文本情感分析[30]和新聞文檔的主題分類[31]中都曾得到良好的實驗效果。齊玉東[32]將軍事文本文檔進行分類實驗,分別利用SVM[33],CNN[34],RNN[35]等機器學習和深度學習的算法得到了較高的準確率,召回率和F1值。汪少敏[36]等對比了傳統(tǒng)機器學習分類算法和深度學習分類算法在文本分類中的效果,在進行測試的數(shù)據(jù)集上體現(xiàn)出了深度學習算法的優(yōu)越性。對以上期刊類目劃分研究的總結可以窺探出期刊類目劃分逐漸由人工向機器過渡。但在人工類目劃分標準下,主觀因素難免影響劃分結果。針對某一研究領域的期刊一般只有該專業(yè)學者才具有類目劃分的知識儲備,很難形成對多種學科領域具有全方位指導價值的方法體系。這時,機器劃分的優(yōu)勢得以體現(xiàn)。且很多學者已經利用機器學習、深度學習算法在多種文本實驗中得到良好的分類結果;一般情況下隨著文本量和語料豐富程度的增加,深度學習常常表現(xiàn)出比機器學習更具優(yōu)勢。在此背景下,本文提出利用機器方法和深度學習方法為期刊論文投稿的多分類問題提供解決方案,同時也為高水平期刊收錄內容的差別化探索提供思路。

3實驗設計和優(yōu)化

3.1研究框架。為了構建某一學科下的期刊分類體系,本文設計了總體研究框架如圖1所示。本文以圖書館、情報學(LibraryandInformationScience,LIS)學科英文期刊為研究對象,選擇題名(TIss)、關鍵詞(KWss)、附加關鍵詞(DEss)與摘要(ABss)四個字段的信息作為實驗數(shù)據(jù),經過數(shù)據(jù)預處理后得到每類期刊的期刊術語矩陣。采用余弦相似度的計算公式得到基于期刊題錄信息的層次聚類模型。在此模型基礎上,選取不同特征來源組合的期刊術語矩陣,按照一定的比例劃分訓練集和測試集,分別應用機器學習和深度學習分類算法的進行訓練并將輸出的結果與測試集的類別矩陣進行比較后得到相應的準確率,進而對不同特征來源組合和不同算法下的分類效果進行分析,確定最合適的特征組合和分類算法。在得到實驗結果后,筆者嘗試將分類結果中的某些易混淆的期刊進行組合,再次進行準確率的統(tǒng)計,以期獲得更好的分類效果。3.2數(shù)據(jù)來源與初始化本文數(shù)據(jù)來自WebofScience數(shù)據(jù)庫。檢索范圍為LIS學科于2014、2015、2016年連續(xù)三年進入前三區(qū)的26種期刊(分區(qū)標準參考《中國科學院文獻情報中心期刊分區(qū)表》),首先,確定檢索年限為2009-2018年,共得到20297篇文獻的題錄信息,具體信息如表1所示:將以上得到的題錄信息導入文獻題錄信息統(tǒng)計分析工具SATI[37]中進行預處理后,得到每篇文獻的題名(TIss)、關鍵詞(KWss)、附加關鍵詞(DEss)與摘要(ABss)的分詞結果以及對應的來源期刊(SO),最后為每篇文獻進行編號后得到其對應的六元組信息,以其中的一條記錄為例,詳見表2。構建期刊術語矩陣作為分類算法的輸入,其中期刊術語矩陣的構建方法形如其中,JTM為一個m*n維的矩陣,Cik和Cjk為術語權重值,m為術語向量的總個數(shù)(一個特征術語向量表示一個期刊),n為m個期刊所包含的術語總量,該矩陣是由<期刊編號,術語,術語權重>三元組轉化而來。其中,術語的選擇范圍為六元組中可以提供的題名、關鍵詞、附加關鍵詞與摘要信息的組合,術語權重表示方法采用根據(jù)實驗的具體需要進行適當選擇。3.3方法論(1)聚類算法聚類即通過獲取數(shù)據(jù)不同的特征將其劃分成不同的類別。本質就是通過一定的方法,使得同一類數(shù)據(jù)間相似度更高,不同類數(shù)據(jù)間相似度更低[38]。聚類的步驟一般如下:①文本分詞。即將文本分割成有意義的最小單元。②文檔特征表示。即用數(shù)學表達式的形式將文檔特征提取出來。③確定聚類模型。3.2小節(jié)提及,將收集到的數(shù)據(jù)。導入文獻題錄信息統(tǒng)計分析工具SATI中得到相應的分詞結果即可。文檔特征提取的方法一般有兩種思路:基于概率和基于語義的提取方式[39]。由于本文的實驗數(shù)據(jù)是論文題錄信息的分詞結果,詞與詞之間不存在語義聯(lián)系,故而首先排除基于語義的提取方式。文檔頻率[40,41]、互信息[42,43]、信息增益[44,45]都是常見的基于概率的文檔特征表示方法,但是基于已有研究[35]中互信息傾向于對罕見詞的提取以及信息增益方法操作的繁瑣程度,實驗最終敲定基于文檔頻率的特征提取方式。特征選擇的常見矩陣形式有0-1矩陣、TF-IDF、TFw、詞向量、文本卡方值等。此次實驗中,為了凸顯題名、關鍵詞、附加關鍵詞與摘要四種字段對于文檔特征的不同的表征程度,按照題名:關鍵詞:附加關鍵詞:摘要=4:2:2:1的權重構造TFw矩陣作為輸入數(shù)據(jù)。在選擇聚類模型時,筆者結合此次數(shù)據(jù)的特點對第2節(jié)梳理的兩種主流聚類算法進行取舍:首先,需要建立的期刊分類模型不需要提前給出具體劃分的類別數(shù)目,不符合劃分聚類算法的前提要求;其次,本次實驗數(shù)據(jù)規(guī)模較小,符合層次聚類算法的適用條件。因此最終選定層次聚類法進行實驗,進行SSCI期刊分類體系結構的構建。(2)分類算法分類是指將未標明類別的實驗數(shù)據(jù)分類到某一預定標簽的類別中。文本分類的步驟一般如下:①確定分類的類別。②清洗、分詞等工作。③確定文本特征表示方法。④應用文本分類模型訓練文本分類器。⑤評價分類器模型并進行文本分類。在此次文本分類實驗中,分類的類別已經通過聚類算法構建的分類模型給出。清洗、分詞的工作同。3.3.1節(jié)文本聚類的處理方法一致。文本特征的表示方法上,選取不同的字段組合作為此次實驗的因變量之一,考慮到實驗的復雜性,采用這些不同字段組合的0-1矩陣作為文本特征的提取。因此,本文分類實驗中核心的問題就落在“分類模型的選擇”和“分類效果的評價”上。選擇分類模型時,傳統(tǒng)的機器學習分類算法有樸素貝葉斯、決策樹、K近鄰、支持向量機(SVM)等。通過應用場景預判以及前人經驗支持[15],當需要分類的文本具有矩陣稀疏、維度較高的特點時,為了得到更好的分類效果和分類效率,SVM算法識別能力好、訓練效率高、穩(wěn)定性強的優(yōu)勢較為明顯,因此本文采用SVM算法進行機器學習部分的建模。隨著深度學習算法的日漸成熟,例如CNN,RNN等算法在多種數(shù)據(jù)集上都呈現(xiàn)出相較于傳統(tǒng)機器學習算法更明顯的分類優(yōu)勢,因此為了對比機器學習與深度學習算法在相同數(shù)據(jù)集上的實驗效果,在SVM算法的基礎上,本文嘗試使用CNN,RNN算法進行深度學習實驗部分的建模。在進行分類效果評價時,需要考慮以下幾個參數(shù):①TP_num:正例被分為正例的個數(shù)。②FP_num:負例被分為正例的個數(shù)。③FN_num:正例被分為負例的個數(shù).④TN_num:負例被分為負例的個數(shù)。定義TP_num+FN_num=P_num,即實際正例個數(shù);FP_num+TN_num=N_num即實際負例個數(shù)。

4SSCI期刊分類模型的構建

在十年的數(shù)據(jù)中選取2017年的數(shù)據(jù)共計2141篇文獻的題錄信息在Matlab中進行層次聚類后得到以下的層次分類圖,如圖2所示。根據(jù)以上層次聚類效果圖所顯示的聚類結果,可將26種期刊劃分為六個期刊分區(qū)分別為C_1、C_2、C_3、C_4、C_5、C_6,每個期刊分區(qū)中所包含的期刊分別如下表所示。結合期刊的具體內容進行得到:①C_1中的期刊主要為計量學和圖書館學領域的期刊。例如,在該分區(qū)下的期刊RE是一本跨學科的同行評審國際期刊,它的官方介紹中“科學計量學與研究評價之間存在著密切的關系”這樣的描述也印證了這一結論。②C_2中四種期刊都是信息系統(tǒng)領域的專業(yè)期刊。在數(shù)據(jù)爆炸的信息時代,信息系統(tǒng)的設計與研究也發(fā)展成為LIS學科一個重要的分支。③C_3中圍繞“信息管理”、“信息處理”、“信息技術”等出現(xiàn)的關鍵詞則將這其指向情報學這一領域的研究,因為情報學自發(fā)展初期就離不開信息管理、處理等環(huán)節(jié)。④C_4中的期刊更偏向計算機科學領域,這一趨勢是伴隨著計算機科學愈發(fā)走向成熟的產物。⑤C_5中的兩種期刊與健康學、醫(yī)學的聯(lián)系非常緊密,偏向醫(yī)學信息學領域相關的研究。⑥C_6中的兩種期刊與其他期刊不能聚成一類,故將這兩種期刊分為其他類。

5基于層次分類法的期刊論文自動分類

選取TIss、KWss、DEss、ABss字段表征單篇論文信息的內容。由于不同字段對論文的表征程度不同,因此不同組合對于分類的效果會產生不同程度的影響。一般認為,TIss字段最能展示論文的核心內容,因此被認為是表征能力最強的字段。KWss是作者挑選出來作為核心檢索字段的一組詞匯,也具有較強的反映文獻內容的能力。DEss是對關鍵詞的補充,和KWss所具有的表征內涵相似。ABss是對文章內容的高度概括,文章中出現(xiàn)的核心信息往往能在摘要中得到體現(xiàn)。但當摘要以句子的形式呈現(xiàn)時,往往會包含一些非核心詞匯,一定程度上會削弱其對文獻的表征能力[11]。在本文的實驗中,選取以上字段進行不同的組合作為分類算法的輸入。實驗分兩層展開,首先進行第一層分類,即將每篇論文映射到六種期刊分類(C_1、C_2、C_3、C_4、C_5、C_6)。然后對每一類中的期刊分別第二層的分類,即將每篇論文映射到該區(qū)下對應的期刊中。5.1第一層分類實驗在第一層次分類實驗中,先后選取TIss、TIss+KWss、TIss+ABss、TIss+KWss+DEss、TIss+KWss+DEss+ABss五種組合方式進行實驗,同時按照3.3節(jié)對分類算法的選擇,先后分別使用SVM,CNN,RNN進行分類,對應每組實驗的數(shù)據(jù)量如表4所示。(1)對整體Accuracy的分析在以上不同的特征組合和分類算法下進行實驗后,統(tǒng)計每組實驗的準確率,得到如圖4的結果:通過上圖正確率的比較可以發(fā)現(xiàn):①隨著語料的增加,即在特征來源的組合變得逐漸復雜的趨勢下,分類的正確率基本呈現(xiàn)上升趨勢。②特征來源僅為TIss時,SVM的正確率已經可達70%,說明TIss對于文獻的表征能力已經十分顯著。然而當語料較少時,CNN與RNN的分類效果不是特別理想,這與深度學習需要大數(shù)據(jù)量的要求一致。③特征來源分別增加KWss和ABss后,SVM分類的正確率分別提高了6%和3.68%,說明這兩種操作對于SVM分類的效果都呈積極影響,KWss的表征能力優(yōu)于ABss。對比來看,當使用CNN與RNN分類時,ABss的表征能力優(yōu)于KWss。④當語料增加為TIss+KWss+DEss+ABss時,正確率下降為49%。究其原因:ABss中一些詞的含義并不能十分準確地表征論文內容,有時甚至會干擾機器學習時的判斷能力,因此正確率會急速下降。和SVM分類效果不同,特征來源的組合達到最復雜的TIss+KWss+DEss+ABss時,兩種深度學習分類算法的效果都達到最優(yōu),CNN的分類結果可以達到80%以上。綜上分析,在使用SVM進行分類時,最佳的語料組合方式為TIss+KWss+DEss,在使用深度學習算法進行分類時,最佳的語料組合方式為TIss+KWss+DEss+ABss。對比兩種深度學習算法CNN和RNN的分類效果,在每組實驗中CNN分類效果都優(yōu)于RNN的分類效果,認為前者在區(qū)分期刊術語語料的能力上更強從而更適合此次實驗語料的分類。因此在以下實驗和分析中,在深度學習算法部分僅采用CNN算法進行實驗并對其結果進行分析。(2)對分類F1值的分析針對特定算法選定最匹配的語料組合后,對第一層的六個類分別進行F1值統(tǒng)計如下圖所示。在每一類的F1值中,CNN的準確率都要優(yōu)于SVM的準確率,這和上文中該層次的整體準確率對比的結果相一致。其中兩種分類算法下都是C_3的準確率最低,分別為63%和59%,C_5的準確率最高,分別為96%和89%。針對這兩組極值數(shù)據(jù)分析后得到以下兩個方面的影響因素:①參加實驗的文本數(shù)量的差異:統(tǒng)計C_3和C_5下參與實驗的文本數(shù)量后發(fā)現(xiàn),C_3的訓練和測試文本量相對較少,C_5的訓練和測試文本量相對較多。一般認為當訓練樣本充足時,訓練效果越好。且由于樣本量不均勻問題存在時,樣本量比例較多的類一般會收獲較高的準確率。因此,足以證明文本數(shù)量對于分類效果的影響較為明顯。②兩種期刊類別下收錄期刊內容的差異:考察C_3下的期刊內容發(fā)現(xiàn),其下共8種期刊,都為情報學相關研究,但是每種期刊的研究內容各有針對性。例如IP&M的文章大多是情報學領域偏向工程性的文章;ONR其收錄的文章偏向情報學與社會科學領域的交叉與應用;JOD的文章更多關注情報學傳統(tǒng)的研究領域——文獻學。故若同一分區(qū)下的期刊各自研究方向存在差別,收集到的題錄信息差異性大,則該類別的內聚性相對較低,與其他分區(qū)下的期刊內容混淆性較強,利用基于相似度計算的分類算法進行分類時效果相對較差。以同樣的視角觀察C_5,該分區(qū)是LIS學科下醫(yī)學信息學領域,其下僅有兩種期刊:JHC和JAMIA,這兩種期刊從內容上主題十分明確。統(tǒng)計這兩種期刊參與實驗的數(shù)據(jù)中高頻出現(xiàn)的10個詞分別為:health、record、patient、electron、data、clinic、inform、medic、system、care??梢悦黠@看出,這些單詞能夠輕易表征出醫(yī)學信息學研究領域的主題信息,所以可以認為該C_5的兩種期刊的內聚性很強,與其他期刊分區(qū)下的內容區(qū)分度較高。綜上,不同分類算法和特征來源的組合可以得到分類效果最佳的搭配。應用到具體的場景中,在進行論文投稿選擇期刊時,可以將論文先進行第一層次的大致劃分,考慮可以將論文投至哪一分區(qū),這樣可以選擇投稿的期刊范圍就可以進一步縮小,從而也更具針對性。5.2第二層分類實驗在進行第二層分類時,由于26種期刊中都包含的字段只有TIss和ABss,且第一層實驗中驗證了TIss+ABss的組合分類效果整體優(yōu)于其他字段組合,因此選擇TIss+ABss的組合進行實驗。在算法選擇上,由第一層實驗得出SVM和CNN的準確率相對較高,因此僅使用這兩種算法進行實驗。每一個期刊分類中參與實驗的數(shù)據(jù)量如表5所示。(1)對整體Accuracy的分析在選定TISS+ABSS該特征組合后分別使用SVM和CNN分類算法進行實驗后,統(tǒng)計每個期刊分類的準確率,得到如圖6的結果:通過上圖正確率的比較可以發(fā)現(xiàn):①第二層實驗的六組實驗中,實驗的正確率明顯下降,其中SVM分類在C_2的實驗數(shù)據(jù)中僅有36.61%,CNN分類的正確率也僅有41.07%。在C_1,C_3,C_4類的分類效果也不甚理想。究其原因,相比于第一層實驗中每次接近6000條數(shù)據(jù)的數(shù)據(jù)量,由于所能獲取的第二層實驗的數(shù)據(jù)量有限,直接導致算法學習得不夠充分,從而間接導致測試正確率不高。②在數(shù)據(jù)量一致的前提下六個期刊類別的實驗結果表明,CNN算法相比于SVM算法的優(yōu)越性仍然明顯。說明盡管本期刊題錄語料不能充分訓練的小樣本集上,深度學習仍具有機器學習算法未能超越的優(yōu)勢。③獲得更高正確率的兩個期刊分區(qū)C_5,C_6除了擁有相對更豐富的語料這一特征外,該類別下的期刊種類相比于其他類更少,僅僅有兩種期刊,這與分類算法在二分類上的分類效果優(yōu)于多分類的特性相符合。(2)對分類F1值的分析對第二層實驗中六個期刊分區(qū)下屬共計26種期刊分別使用SVM和CNN算法分類的F1值進行統(tǒng)計后繪制下圖。由于分類實驗已經深入第二層,相比第一層期刊分區(qū)的分類實驗結果這一層的準確性明顯下降。通過對六個期刊分區(qū)分別觀察并對比后發(fā)現(xiàn):①在不同的期刊分區(qū)中,下屬的期刊數(shù)不同則得到的實驗準確率也有相應差別。C_1、C_3分區(qū)下期刊較多,因此每一種期刊參加訓練的數(shù)據(jù)量相對較少,可以很明顯地觀察到有些期刊的分類準確率較低。由于C_5、C_6分區(qū)下僅包含兩種期刊,其準確率都達到了85%以上。②觀察以上六圖,SVM分類算法和CNN分類算法的優(yōu)劣對比明顯,在絕大多數(shù)的情況下,CNN算法都比SVM算法更適合于此次實驗的分類模型。5.3分類結果的優(yōu)化在得到第二層次分類實驗中直接對應到單個期刊的分類結果后,聯(lián)系實際期刊投稿的應用場景:在進行投稿時,不單給投稿者某一個特定期刊的投稿意見,而是給出推薦準確率排名前幾位的期刊,投稿投中的準確率往往會大幅提升。因此考慮對分類結果中錯誤分類期刊比例進行統(tǒng)計分析,將某一類期刊下最易混淆的某幾種期刊進行組合,即將期刊收錄內容相近的幾種期刊同時視為可以投稿的對象后觀察分類準確率的提升效果。本文僅以第二層次分類實驗中CNN分類結果下C_1的六種期刊為例,其他五個分區(qū)可參考其優(yōu)化思路。調查這六種期刊的錯分情況如表6所示,已知CNN算法對該期刊分區(qū)的分類整體正確率為66.07%。以80%為閾值,將分類錯誤數(shù)占該類錯誤總數(shù)比例超過該閾值的類別進行組合。按照這一規(guī)則,進行如下幾組實驗:觀察上圖發(fā)現(xiàn),將期刊進行組合后,每一種組合的分類準確率都得到了一定的提升,提升最為明顯的是實驗A+D,分類準確率提升至90.31%。應用到具體場景中,在提供期刊投稿意見時,若該篇文章被劃分至C_1,首先進行分類算法的應用,若該文章的研究主題更接近期刊C&RL或期刊JAL,可以同時推薦期刊C&RL和JAL給該投稿人,同理若該文章的研究主題更接近期刊JOI、RE和SCIM中的一種,可同時推薦期刊JOI、RE和SCIM作為目標投稿期刊。據(jù)此思路優(yōu)化后得到的C_1期刊分區(qū)新的層次體系如圖9所示。按照同樣的方法也可將其他期刊分區(qū)進行優(yōu)化。綜上分析,針對每一期刊分區(qū)下的已有的分類體系上,在保證準確率的前提下,可以將最易錯分的特定期刊作為一個推薦組合,建議投稿人向多個期刊投稿。這樣既能保證推薦結果的準確性又能保證針對性。

6結語

本文以LIS學科領域26種SSCI核心期刊為研究對象,進行面向期刊選擇的學術論文分類研究。核心步驟是收集這26種期刊下十年內收錄文獻的題錄信息,選擇其中一年的數(shù)據(jù),使用層次聚類進行層次模型的構建。在此基礎上使用機器學習和深度學習的分類算法對十年的數(shù)據(jù)進行分類。結果表明:①特征來源的多元化和數(shù)據(jù)規(guī)模的擴大可以增加語料的豐富程度,從而在一定程度上可以提高分類的準確性。在期刊分區(qū)數(shù)據(jù)量接近的情況下,期刊數(shù)目的增加對于分類的效果呈消極作用。②在語料充足、數(shù)據(jù)量一致的條件下,深度學習算法體現(xiàn)出相比于機器學習算法的優(yōu)越性,符合深度學習算法適用于較大數(shù)據(jù)運算量的特性。③將內容相近的期刊進行組合后有利于分類準確程度的提升。當然,本研究仍然存在以下不足之處:本文的數(shù)據(jù)僅僅是WebofScience數(shù)據(jù)庫中26種核心英文期刊十年內的數(shù)據(jù),在進行聚類時也僅使用了2017年一年的數(shù)據(jù)進行實驗,數(shù)據(jù)量的局限性可能會導致聚類、分類結果出現(xiàn)一定的偏差。關于以上提到的不足,在后續(xù)的研究中需要對此進一步優(yōu)化。例如可以通過擴大時間跨度來獲取更多的題錄信息進行實驗,則本研究的內容將更加科學合理。

作者:王鑫蕓 王昊 鄧三鴻 張寶隆 單位:1.南京大學信息管理學院 2.江蘇省數(shù)據(jù)工程與知識服務重點實驗室