護(hù)理學(xué)免費(fèi)資源實(shí)現(xiàn)研究
時(shí)間:2022-04-29 05:39:16
導(dǎo)語(yǔ):護(hù)理學(xué)免費(fèi)資源實(shí)現(xiàn)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1護(hù)理學(xué)免費(fèi)資源知識(shí)元組織的必要性
根據(jù)是否收費(fèi),Web上護(hù)理學(xué)電子資源分為收費(fèi)資源和免費(fèi)資源兩種。收費(fèi)資源如中國(guó)知網(wǎng)(CNKI)、萬(wàn)方等電子數(shù)據(jù)庫(kù),是護(hù)理學(xué)工作者獲取知識(shí)的主要途徑。由于其結(jié)構(gòu)嚴(yán)謹(jǐn),內(nèi)容準(zhǔn)確,為其知識(shí)組織方式由信息元過(guò)度至知識(shí)元提供了良好的基礎(chǔ),如CNKI數(shù)據(jù)庫(kù)已經(jīng)提供了知識(shí)元檢索途徑。在收費(fèi)電子資源發(fā)展的同時(shí),免費(fèi)資源的發(fā)展也是日新月異,主要包括三類:①基于電子圖書、期刊的開源資源,如道客巴巴、百度文庫(kù)等。從目前資源的種類和數(shù)量上分析,開源資源的電子圖書、期刊、博碩論文已經(jīng)與收費(fèi)數(shù)據(jù)庫(kù)大體相當(dāng);②護(hù)理學(xué)電子論壇如丁香園、天使之城等。電子論壇向所有護(hù)理學(xué)工作者敞開了大門,是廣大護(hù)理學(xué)工作者交流工作經(jīng)驗(yàn)、思想體會(huì)的主要陣地,在資源種類和內(nèi)容上與電子數(shù)據(jù)庫(kù)形成了良好互補(bǔ);③護(hù)理學(xué)百科知識(shí)網(wǎng)站,如百度百科、搜搜百科等。百科類網(wǎng)站的誕生為廣大互聯(lián)網(wǎng)用戶提供了新的信息獲取途徑,其發(fā)展理念強(qiáng)調(diào)用戶的參與和奉獻(xiàn)精神,內(nèi)容整體詳實(shí)準(zhǔn)確。可見從資源的種類和數(shù)量上分析,護(hù)理學(xué)收費(fèi)資源僅是免費(fèi)資源的一個(gè)子集。然而,在知識(shí)的組織方式上后者與收費(fèi)資源遠(yuǎn)遠(yuǎn)不能同日而語(yǔ),整體處于無(wú)組織的狀態(tài)。這是由于免費(fèi)資源分布過(guò)于廣泛,所有的內(nèi)容沒(méi)有統(tǒng)一的結(jié)構(gòu)格式要求,尤其是電子論壇信息的沒(méi)有審核的過(guò)程,不規(guī)范用語(yǔ)非常常見等等,在這種條件下,顯然信息元不可能成為免費(fèi)資源的組織方式。為了合理組織這些資源,知識(shí)元組織方式最佳的選擇。
2護(hù)理學(xué)知識(shí)元的標(biāo)引范圍
2.1限定開源資源的標(biāo)引范圍
目前國(guó)內(nèi)大型綜合類開源資源網(wǎng)站主要以道客巴巴、百度文庫(kù)和豆丁網(wǎng)為代表,筆者在3月19日以“護(hù)理學(xué)”為檢索詞向這三個(gè)數(shù)據(jù)庫(kù)的默認(rèn)檢索方式進(jìn)行檢索,分別得到956149、901090和401445個(gè)檢索結(jié)果,由于以上三者均是以電子期刊、電子圖書、學(xué)術(shù)論文、電子課件等作為資源收集的內(nèi)容,從資源數(shù)量可以簡(jiǎn)單的判斷道客巴巴的護(hù)理學(xué)資源最為豐富。因此,將開源資源的收集范圍限定在道客巴巴中,其他兩個(gè)數(shù)據(jù)庫(kù)沒(méi)有必要做重復(fù)的分析統(tǒng)計(jì)。
2.2限定電子論壇的標(biāo)引范圍
包括護(hù)理學(xué)在內(nèi),各種電子論壇的整體資源質(zhì)量與論壇服務(wù)時(shí)間往往成正比,如丁香園論壇始建于2000年7月23日,經(jīng)過(guò)多年的發(fā)展,吸引了大量高素質(zhì)醫(yī)學(xué)工作者的關(guān)注,內(nèi)容也較為準(zhǔn)確,信息每天都在動(dòng)態(tài)更新;相比之下大量小的醫(yī)學(xué)論壇不具有較強(qiáng)的吸引力,內(nèi)容的整體質(zhì)量較低,而且即使對(duì)其進(jìn)行標(biāo)引,這些論壇未來(lái)也非??赡鼙皇袌?chǎng)所淘汰,無(wú)法找到標(biāo)引所對(duì)應(yīng)的知識(shí)內(nèi)容,顯然對(duì)這樣的網(wǎng)站內(nèi)容進(jìn)行深入的知識(shí)挖掘幾乎沒(méi)有意義。因此有必要將論壇的范圍限制在2年以上,以此保充分提高對(duì)電子論壇知識(shí)元標(biāo)引的質(zhì)量和工作效率。
2.3限定百科全書類網(wǎng)站的標(biāo)引范圍
主流的百科全書類網(wǎng)站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通過(guò)名字即可發(fā)現(xiàn)這些網(wǎng)站均有一個(gè)共同的特點(diǎn),即先有搜索引擎,后有百科,每個(gè)所有引擎都會(huì)首要的引用自身的百科知識(shí),兩者相互促進(jìn)發(fā)展。以上百科類網(wǎng)站的知識(shí)內(nèi)容幾乎均涵蓋所有的學(xué)科范圍,種類和內(nèi)容沒(méi)有明顯差別,但由于百度搜索引擎是市場(chǎng)占有率最大,在2012年11月占有率高達(dá)72.84%[2],可以說(shuō)百度已經(jīng)成為多數(shù)人檢索信息的習(xí)慣。相應(yīng)的使百度百科自然成為百科類知識(shí)點(diǎn)擊率最高的網(wǎng)站,因此將范圍限定在百度百科中。
3知識(shí)元標(biāo)引過(guò)程
3.1護(hù)理學(xué)免費(fèi)資源的分詞
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程,將沒(méi)有間隔符中文詞語(yǔ)變?yōu)闄C(jī)器可以理解的詞語(yǔ)。常用的分詞方法可分為三大類:基于字符串匹配的分詞法、基于理解的分詞方法和基于詞頻統(tǒng)計(jì)的分詞方法?;诶斫獾姆衷~方法模擬了人腦的理解過(guò)程,目前還處在試驗(yàn)階段[3]。前文雖然對(duì)護(hù)理學(xué)免費(fèi)資源的范圍進(jìn)行了限定,但整體仍然是海量的,為了提高分析效率,保證分詞質(zhì)量,本文設(shè)計(jì)了一種曲線高效的分詞方法?!扒€”表示為首先不直接對(duì)免費(fèi)資源進(jìn)行分詞,而是以CNKI中的期刊數(shù)據(jù)庫(kù)、報(bào)紙數(shù)據(jù)庫(kù)、博碩論文數(shù)據(jù)庫(kù)、會(huì)議論文等數(shù)據(jù)庫(kù),和讀秀電子圖書數(shù)據(jù)庫(kù)為對(duì)象,采用字符串配算法進(jìn)行分詞方法對(duì)其內(nèi)容進(jìn)行分詞。其原因如下:①電子期刊、博碩論文、會(huì)議論文等數(shù)據(jù)庫(kù)是高端人才交流前沿知識(shí)的主要陣地。這決定其內(nèi)容整體具有極高的含金量,任何新的理論知識(shí)、高效的工作方法必然第一時(shí)間誕生在其中或必然有所體現(xiàn),保證了分詞結(jié)果的全面性;②整體內(nèi)容經(jīng)過(guò)作者和編輯部多次審閱和校對(duì),幾乎沒(méi)有錯(cuò)別字和奇異詞,不需要對(duì)詞語(yǔ)進(jìn)行語(yǔ)義理解的過(guò)程,保證了分詞結(jié)果的準(zhǔn)確性;三、文獻(xiàn)數(shù)量范圍進(jìn)一步縮小。筆者利用CNKI總庫(kù)檢索近5年發(fā)表的有關(guān)護(hù)理學(xué)方面的文獻(xiàn),檢索表達(dá)式為:主題=護(hù)理(出版年:2009年3月29日—2013年4月29日)進(jìn)行跨庫(kù)檢索,總計(jì)得到313643個(gè)檢索結(jié)果;以護(hù)理為檢索詞,在讀秀電子圖書中檢索得到35859個(gè)檢索結(jié)果,有限的內(nèi)容具備開展字符串匹配算法的基礎(chǔ)??梢娛召M(fèi)數(shù)據(jù)庫(kù)的特點(diǎn)完全彌補(bǔ)了字符串匹配算法的缺陷?!案咝А北憩F(xiàn)在以此分詞結(jié)果為基礎(chǔ),將整體分詞的結(jié)果作為字典,向免費(fèi)護(hù)理學(xué)資源采取詞頻統(tǒng)計(jì)分詞的方法進(jìn)行分詞,從而省去以往詞頻統(tǒng)計(jì)需要建立字典的復(fù)雜過(guò)程。分詞統(tǒng)計(jì)完成后減去中文停用詞表的分詞,就是最終的分詞結(jié)果。
3.2護(hù)理學(xué)免費(fèi)資源的關(guān)鍵詞提取
提取關(guān)鍵詞是知識(shí)元標(biāo)引的核心環(huán)節(jié),主要有兩種方法,分別根據(jù)分詞的重要性和出現(xiàn)頻率作為提取依據(jù)。根據(jù)護(hù)理學(xué)各種免費(fèi)資源自身物理結(jié)構(gòu)的差異,如開源資源和百度百科對(duì)內(nèi)容結(jié)構(gòu)有嚴(yán)格的格式限制,尤其是關(guān)鍵詞、摘要是前者必備組成部分,后者雖然沒(méi)有對(duì)結(jié)構(gòu)有如此細(xì)化的要求,但其內(nèi)容的每個(gè)段落均有段落標(biāo)題??梢娨陨蟽烧咴诮Y(jié)構(gòu)上就對(duì)分詞間的輕重程度即權(quán)重進(jìn)行了表達(dá)和說(shuō)明。因此以各個(gè)分詞的重要性為依據(jù)提取關(guān)鍵詞。在提取算法的設(shè)計(jì)上,作者傅雷在碩士研究生論文中提出了一種基于TFIDF算法的權(quán)重改進(jìn)型算法,即在TFIDF算法上,增加分詞的參考權(quán)重系數(shù)K,權(quán)重由標(biāo)題、摘要、關(guān)鍵詞和正文四項(xiàng)組成,權(quán)重值分別為2、1.5、3和1。在計(jì)算時(shí),被統(tǒng)計(jì)的文章所有分詞以此為參照物,若某一分詞與標(biāo)題、摘要等項(xiàng)的分詞相同,就附以相應(yīng)的權(quán)重值。以此進(jìn)一步體現(xiàn)出文章結(jié)構(gòu)與分詞重要性的對(duì)應(yīng)的關(guān)系,將結(jié)算結(jié)果前10名的分詞設(shè)為關(guān)鍵詞,并經(jīng)過(guò)實(shí)踐證明較為合理準(zhǔn)確[4]。本文在此基礎(chǔ)上,對(duì)權(quán)重系數(shù)K進(jìn)行了如下細(xì)化和修改。細(xì)化內(nèi)容為,根據(jù)標(biāo)準(zhǔn)格式的論文和圖書結(jié)構(gòu)中必有段落小標(biāo)題,這是對(duì)段落或部分內(nèi)容的總結(jié)性歸納,和美國(guó)學(xué)者P.E.Baxendale統(tǒng)計(jì)表明,反映段落主題的句子85%出現(xiàn)在段首,7%出現(xiàn)在段尾為原則[5],按著權(quán)重的重要性依次排序?yàn)槎温湫?biāo)題分詞>段首句分詞>段尾句分詞。相應(yīng)的對(duì)權(quán)重值進(jìn)行修改為2.5、2和1.5,即正文權(quán)重值1不變,新增三項(xiàng)依次以0.5遞增。標(biāo)題、摘要、關(guān)鍵詞的權(quán)重值依次增加1.5,分別為3.5、3和4.5。若某一分詞同時(shí)與權(quán)重項(xiàng)的多個(gè)相同,按最大值賦予權(quán)重系數(shù)。同樣取前10個(gè)分詞作為關(guān)鍵詞。最后在道客巴巴和百度百科中各隨即抽取50篇文章,通過(guò)自動(dòng)抽取的關(guān)鍵詞與人工抽取的關(guān)鍵詞相比較,計(jì)算出抽取精度、召回率和Fβ=1值分別為33%、87%和47.8%,較TFIDF權(quán)重改進(jìn)型的算法的值均有所提高,結(jié)果較為理想。從電子論壇內(nèi)容的格式分析,大部門內(nèi)容由一段話組成,內(nèi)容較少,甚至在百字以下。有限的內(nèi)容使其產(chǎn)生分詞與其位置幾乎沒(méi)有重要的對(duì)應(yīng)關(guān)系,這極大降低了知識(shí)元提取的難度。因此,選擇計(jì)算分詞出現(xiàn)頻率的方法提取關(guān)鍵詞,即依次計(jì)算每一個(gè)分詞的出現(xiàn)頻率取其平均值,將出現(xiàn)頻率高于平均值的分詞提取為關(guān)鍵詞。
3.3護(hù)理學(xué)免費(fèi)資源關(guān)鍵句的提取
由于關(guān)鍵詞雖然可以表達(dá)概念,但無(wú)法完整的表達(dá)語(yǔ)義,從而無(wú)法準(zhǔn)確的描述文章的知識(shí),也不符合人們慣用的對(duì)文章的理解過(guò)程,相比之下句子才是表達(dá)知識(shí)的基本單位。因此,知識(shí)元以句子作為基本對(duì)象,能夠更加合理、準(zhǔn)確、方便的描述知識(shí)元表述的內(nèi)容。具體過(guò)程如下:首先根據(jù)關(guān)鍵詞提取的結(jié)果,將關(guān)鍵詞還原至所在的句子。然后對(duì)句子進(jìn)行分析,判斷該句子是否能夠完整表達(dá)一個(gè)知識(shí)且不可再分,將符合條件的句子提取為關(guān)鍵句。由于以上過(guò)程較為簡(jiǎn)單,在這里就不再贅述。3.4護(hù)理學(xué)免費(fèi)資源知識(shí)元標(biāo)引按著知識(shí)元的結(jié)構(gòu)描述關(guān)鍵句就形成了知識(shí)元。隨著情報(bào)等學(xué)科對(duì)知識(shí)元研究的逐步深入,目前已經(jīng)誕生較為合理的知識(shí)元描述框架[6]。
4知識(shí)元樹型組織
本文設(shè)計(jì)分類器的思想是根據(jù)知識(shí)元結(jié)構(gòu)中的內(nèi)容屬性設(shè)計(jì)的,整體分類器由三級(jí)組成:①設(shè)置護(hù)理學(xué)理論知識(shí)元與實(shí)踐知識(shí)元分類器,對(duì)Web上免費(fèi)的護(hù)理學(xué)知識(shí)元進(jìn)行初次分類。通過(guò)對(duì)護(hù)理學(xué)知識(shí)元內(nèi)容的特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)以下詞語(yǔ)往往與護(hù)理學(xué)理論知識(shí)關(guān)系緊密,如分析、淺議、原理、概念、進(jìn)展等,將以上詞語(yǔ)組織構(gòu)建成為護(hù)理學(xué)理論知識(shí)分類器。以下詞語(yǔ)如治療、作用、效果、調(diào)查、步驟、比較、處置等與護(hù)理學(xué)實(shí)踐知識(shí)的內(nèi)容相關(guān),由此組成護(hù)理學(xué)實(shí)踐知識(shí)分類器。②在根據(jù)醫(yī)學(xué)廣義的內(nèi)、外、婦、兒的分類,設(shè)置二級(jí)分類器,如心梗、心絞痛、腎炎等詞語(yǔ)組成內(nèi)科護(hù)理學(xué)分類器等,同時(shí)根據(jù)護(hù)理學(xué)實(shí)際的研究和工作需要,增設(shè)護(hù)理學(xué)教學(xué)、護(hù)理學(xué)管理、護(hù)理學(xué)心里三個(gè)分類器[7]。③根據(jù)醫(yī)院科室的和醫(yī)學(xué)教學(xué)課程的設(shè)置,進(jìn)一步細(xì)化分類器,如將內(nèi)科護(hù)理學(xué)分類器細(xì)分為心內(nèi)科護(hù)理學(xué)分類器、神經(jīng)內(nèi)科護(hù)理學(xué)分類器等[8]。當(dāng)然,以上分類器的構(gòu)建是一個(gè)非常繁瑣的過(guò)程,需要護(hù)理學(xué)權(quán)威專家進(jìn)行仔細(xì)論證,受到作者水平能力的制約和篇幅的限制,只是進(jìn)行簡(jiǎn)單的框架描述,希望能夠起到拋磚引玉的作用。分類器構(gòu)建完成后,通過(guò)對(duì)護(hù)理學(xué)知識(shí)元的內(nèi)容屬性與分類器的詞語(yǔ)進(jìn)行比較和分析,采用決策樹分類挖掘算法進(jìn)行分類,將所有的知識(shí)元組織起來(lái)。
5未來(lái)努力方向
5.1對(duì)護(hù)理學(xué)隱性知識(shí)進(jìn)行標(biāo)引
知識(shí)元是顯性知識(shí)的最小可控單元,也就是說(shuō)本文是將護(hù)理學(xué)顯性知識(shí)作為研究的對(duì)象,忽略了隱性知識(shí)的標(biāo)引和組織。其實(shí)隱性知識(shí)與顯性知識(shí)相比更為重要,只是由于目前隱性知識(shí)的獲取和共享還存在許多實(shí)質(zhì)性的問(wèn)題,如部分隱性知識(shí)的顯性化存在一定的技術(shù)困難,加之缺乏合理的知識(shí)保護(hù)體系和鼓勵(lì)方法,限制了隱性知識(shí)整體的數(shù)量和質(zhì)量。但近年來(lái)基于隱性知識(shí)的研究已經(jīng)成為情報(bào)學(xué)等學(xué)科研究的重點(diǎn),在一些學(xué)科隱性知識(shí)共享平臺(tái)初見雛形[9]??梢砸灶A(yù)見不久的將來(lái),隱性知識(shí)共享平臺(tái)將是人們獲取知識(shí)的嶄新途徑。當(dāng)未來(lái)護(hù)理學(xué)隱性知識(shí)顯性化發(fā)展成熟時(shí),有必要將該部分內(nèi)容進(jìn)行知識(shí)元層面的標(biāo)引,擴(kuò)大和豐富護(hù)理學(xué)知識(shí)的標(biāo)引的范圍,將所有的護(hù)理學(xué)知識(shí)高效組織在一起。
5.2構(gòu)建學(xué)習(xí)組織
知識(shí)元標(biāo)引有效的解決了信息孤島的問(wèn)題,是目前知識(shí)組織的最佳方法,但并沒(méi)有將知識(shí)的生產(chǎn)者有效聯(lián)系在一起,知識(shí)生產(chǎn)之間就像在獨(dú)立的包房中進(jìn)行工作一樣,缺乏面對(duì)面的交流和協(xié)作。因此,本文計(jì)劃當(dāng)護(hù)理學(xué)免費(fèi)知識(shí)元標(biāo)引逐漸完善成熟時(shí),通過(guò)對(duì)用戶的檢索行為進(jìn)行分析,動(dòng)態(tài)的將查詢內(nèi)容向同或相近的護(hù)理學(xué)工作者組成學(xué)習(xí)組織[10],尤其是將以高校、科研院所為主的護(hù)理學(xué)研究人員和以醫(yī)院為主的護(hù)理學(xué)臨床工作人員組織在一起,為理論知識(shí)和實(shí)踐知識(shí)的相互轉(zhuǎn)化創(chuàng)造良好條件。
作者:王春利工作單位:吉林醫(yī)藥學(xué)院附屬醫(yī)院護(hù)理部