自然語言檢索中概念控制
時間:2022-03-16 11:53:00
導(dǎo)語:自然語言檢索中概念控制一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1概念控制及其實現(xiàn)基礎(chǔ)
1.1概念控制的目的
概念并不是孤立存在的,一個概念總是與其他概念之間存在著各種各樣的關(guān)系,如上下位關(guān)系、同義關(guān)系、反義關(guān)系等。關(guān)鍵詞也會出現(xiàn)一詞多義、一義多詞以及同一事物多種表述的情形。根據(jù)概念之間的相互聯(lián)系,在詞的概念含義層次上建立聯(lián)系,為檢索用戶提供相關(guān)的結(jié)果分析是概念控制的一個應(yīng)用前景。例如,“體育”這一概念根據(jù)上下立類的關(guān)系可以細分為足球、排球、奧運會、亞運會等,單純的字面匹配會漏檢甚至誤檢很多與之相關(guān)的信息。通過概念控制就可以將一個上位類的概念擴展為多個子概念。體育新聞的檢索就可以擴展為:體育新聞、球類(足球、籃球、排球)、田徑運動、體育賽事(奧運會、亞運會、世界杯)等概念,同時對那些具有下位概念的詞匯可以再次擴展,這樣就大大地提高了檢索效果。“計算機”和“電腦”是同一事物的不同表述,機械匹配的話就只能檢索到有關(guān)“計算機”或“電腦”的信息,采用概念控制的相關(guān)方法可以將這些相同概念的詞匯統(tǒng)一到檢索匹配中,這樣就擴大了檢索面,提高了檢全率。在自然語言檢索系統(tǒng)中進行慨念控制,就是把信息檢索從目前的基于關(guān)鍵詞層面提高到基于知識(概念)層面,能夠從概念意義層次上來認識和處理檢索用戶的請求,從而提高檢全率和檢準(zhǔn)率。
1.2概念控制的主要方法
目前雖然沒有一個檢索系統(tǒng)可以完全實現(xiàn)理想狀態(tài)下的高層次的語義檢索,但有些自然語言檢索系統(tǒng)已經(jīng)采用概念控制查詢。主要的方法是利用知識體系建立概念間的關(guān)系進行查詢擴展,深度匹配,優(yōu)化檢索效果。
概念控制的內(nèi)容包括:提問句概念語義塊的抽取,從提問句中切分出概念詞或詞組等語義單位;基于知識體系對抽取出的語義單元進行概念擴展;概念的組配,將選擇出的各檢索單位基于知識體系的組織信息轉(zhuǎn)換成體現(xiàn)概念關(guān)系的邏輯表達式。
概念抽取不等同于分詞處理,其中包括普通概念的識別和人名、地名、事件名等專有名詞的識別,并進行概念提取。對于普通的概念字串采用逆向最長匹配算法(或正向最長匹配算法),并綜合切割標(biāo)記等分詞手段切分就可以進行概念抽取。對于詞典中未收錄的概念詞,可以采取基于句模、句子結(jié)構(gòu)分析、詞和詞組構(gòu)成規(guī)則、句內(nèi)結(jié)構(gòu)性標(biāo)志字、標(biāo)點符號等來進行切分。除切割標(biāo)志外,已知的詞也可作切割標(biāo)記使用。
自然語言檢索系統(tǒng)的本質(zhì)是查詢滿足特定主題概念的文本,因此被檢索的內(nèi)容不是和提問句的字面匹配。對提問進行分析后抽取出的主要是概念或概念的組合,需要進行概念匹配,這就需要對檢索句中的詞進行概念擴展,即考慮提問句中詞的同近義詞、上下位詞和關(guān)聯(lián)詞??梢酝ㄟ^知識體系保存同近義關(guān)系、上下位關(guān)系和其他關(guān)聯(lián)關(guān)系,當(dāng)處理用戶檢索需求時,通過查詢知識體系可對提問句中的詞按概念進行擴展。如“我國今天的體育新聞”,可以通過知識體系對“體育”進行擴展,查詢包括“籃球”、“賽車”、“奧運會”、“世界杯”等方面的內(nèi)容,“今天”一詞指檢索者進行檢索時的日期,因此需通過規(guī)則將“今天”映射為檢索時的時間,將“我國”擴展為“我國”V“中國”V“中華人民共和國”(知識體系中可能只存在“中國”和“中華人民共和國”之間的同義關(guān)系,沒有“我國”這一詞條)。
概念組配,按其內(nèi)在邏輯關(guān)系,可分為限定組配和相交組配。限定組配將一個概念的內(nèi)涵增加到另一個概念的內(nèi)涵中,從而加深概念的內(nèi)涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關(guān)系、外延部分重合的概念組合成一個新概念。在構(gòu)成查詢表達式時,基于知識體系的擴展詞和原詞間為“邏輯加”的關(guān)系。如“美麗”擴展為“美麗”V“漂亮”V……V“標(biāo)志”。提問句中語義塊間的關(guān)系通常為邏輯乘的關(guān)系。語義塊間的概念組配通常存在如下邏輯關(guān)系:(1)主謂結(jié)構(gòu),描述的是一種陳述與被陳述的關(guān)系。(2)偏正結(jié)構(gòu),描述的是一種修飾與被修飾的關(guān)系。(3)動賓結(jié)構(gòu),描述的是一種作用和被作用的關(guān)系。(4)并列結(jié)構(gòu),描述的是一種成分間的并列關(guān)系[1]。主謂結(jié)構(gòu)、偏正結(jié)構(gòu)和動賓結(jié)構(gòu)間為“邏輯乘”關(guān)系,并列結(jié)構(gòu)為“邏輯加”關(guān)系。但通過對檢索提問句進行分析后發(fā)現(xiàn),部分并列結(jié)構(gòu)在用戶的檢索概念中為“邏輯乘”關(guān)系,于是采用通過句模分析和指示標(biāo)志來確定語義塊間的“邏輯乘”或“邏輯加”關(guān)系。提問句語義塊之間的“邏輯加”關(guān)系通常存在顯式指示標(biāo)志,如“或”等。分析傳統(tǒng)的主、謂、賓、定、狀、補六大成分與句型的關(guān)系,可以輔助獲取語義塊的邏輯關(guān)系。檢索提問句的語義概念和提問句的結(jié)構(gòu)緊密相關(guān)。需要分析謂語的性質(zhì)、句子的結(jié)構(gòu),如“把”字、“被”字句等。
概念控制的3項關(guān)鍵技術(shù)中,概念擴展和概念組配都離不開知識體系的支持,知識體系的好壞直接關(guān)系到檢索效果的優(yōu)劣。
1.3概念控制系統(tǒng)
國內(nèi)外已有一些檢索系統(tǒng)在不同程度上實現(xiàn)了概念控制,代表系統(tǒng)有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進行介紹
UMLS(UnifiedMedicalLanguageSystem,美國統(tǒng)一醫(yī)學(xué)語言系統(tǒng)),是美國國立醫(yī)學(xué)圖書館(NLM)于1986年開始研制的一項長期開發(fā)研究計劃,旨在克服計算機生物醫(yī)學(xué)信息檢索中的兩個顯著障礙(相同的概念具有不同的表達方式;有用的信息分散在不同的數(shù)據(jù)庫系統(tǒng)中),使用戶很容易地跨越了在病案系統(tǒng)、文獻摘要數(shù)據(jù)庫、全文數(shù)據(jù)庫以及專家系統(tǒng)之間的屏障。UMILS包括4個部分:專家詞典、超級敘詞表、語義網(wǎng)絡(luò)、情報源圖譜。專家詞典是一個包含眾多生物醫(yī)學(xué)詞匯的英語詞典,可以確定英語詞匯的范圍以及識別生物醫(yī)學(xué)術(shù)語和文本詞的詞形變異,也為超級敘詞表提供了確定范圍的醫(yī)學(xué)術(shù)語和詞匯。超級敘詞表是生物醫(yī)學(xué)概念、術(shù)語、詞匯及其涵義等級范疇的廣泛集成。語義網(wǎng)絡(luò)是為建立概念、術(shù)語間錯綜復(fù)雜的關(guān)系而沒計的,它為超級敘詞表中所有慨念提供了語義類型、語義關(guān)系和語義結(jié)構(gòu)。情報源圖譜是一個關(guān)于生物醫(yī)學(xué)機讀情報資源的數(shù)據(jù)庫,其目的是利用超級敘詞表和語義網(wǎng)絡(luò)實現(xiàn)以下功能:確定情報源與特定提問的相關(guān)性,以便選取最合適的情報源;為用戶提供特定情報源的范圍、功能和檢索條件等人工可讀的信息;自動鏈接相關(guān)情報源;在一個或多個情報源中自動檢索并自動組織檢索的結(jié)果。2支持概念控制的知識體系
實現(xiàn)概念控制離不開知識系統(tǒng)的支持,沒有合理的知識系統(tǒng),就無法實現(xiàn)概念擴展和概念組配,也就無法達到概念控制的目的。進行概念控制的核心是構(gòu)建合適的知識體系。
2.1知識體系及其形式
目前,有關(guān)知識體系的研究主要集中在對Ontology的探討中。國內(nèi)關(guān)于Ontology的中文譯法也不統(tǒng)一,有“知識體系”、“本體”、“概念集”、“概念體系”、“本體論”等多種提法。Ontology是一個源于哲學(xué)的概念[2],原意指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說,后來被人工智能研究領(lǐng)域引入,特指對共享概念模型的明確的形式化規(guī)范說明。Ontology能夠?qū)⒃~匯有關(guān)概念關(guān)系顯式地表示出來,從而將術(shù)語的語義和概念關(guān)系顯式化表示出來,因而在語義查詢、概念控制方面發(fā)揮著重要作用。
Ontology中的概念表示一般采用框架結(jié)構(gòu),使用槽來表示概念的屬性以及概念之間的關(guān)系[3]。借助概念之間的關(guān)系,Ontology在整體上形成了一個語義網(wǎng)。概念之間有4種基本關(guān)系:part-of表達概念部分與整體的關(guān)系;kind-of表達概念間的繼承關(guān)系,類似面向?qū)ο笾械母割惡妥宇愔g的關(guān)系;instance-of表達概念間實例和概念之間的關(guān)系,類似面向?qū)ο笾械膶ο蠛皖愔g的關(guān)系;attribute-of表達某個概念是另一個概念的屬性,例如概念“價格”可以作為概念“桌子”的一個屬性。在實際應(yīng)用中,概念之間的關(guān)系將不會局限于上述4種關(guān)系,可以根據(jù)特定領(lǐng)域的具體情況定義相應(yīng)的關(guān)系。
2.2語義網(wǎng)絡(luò)
概念與概念之間有著橫向或縱向的聯(lián)系,形成了語義網(wǎng)。語義網(wǎng)絡(luò)(SemanticNetwork)是美國語言學(xué)家奎廉(R.Quilian)于1968年提出的。1972年美國人工智能專家西蒙斯(R.F.Simmons)和斯樂康(J.Slocum)將語義網(wǎng)絡(luò)用于自然語言理解系統(tǒng)中。語義網(wǎng)絡(luò)是當(dāng)今網(wǎng)絡(luò)的擴展,這可擴展的網(wǎng)絡(luò)給出了信息明確的定義,同時優(yōu)化了人與汁算機的合作[4]。
如何構(gòu)建語義網(wǎng)絡(luò)更好地將信息定義明確化目前仍沒有統(tǒng)一的準(zhǔn)則,這涉及到語言學(xué)、認知心理學(xué)等學(xué)科方面的知識。但是構(gòu)建語義網(wǎng)絡(luò)的統(tǒng)一原則都是將概念之間的橫向或縱向聯(lián)系顯式化,組織成一個有機的結(jié)構(gòu)形式。
Wordnet是由普林斯頓大學(xué)認知科學(xué)實驗室開發(fā)的在線詞匯參照系統(tǒng)。它將所有英語詞匯分成5類:名詞、動詞、形容詞、副詞和功能詞。名詞按照3種關(guān)系被加以組織:部分關(guān)系、上下位關(guān)系以及物質(zhì)與材料。同時有反義的名詞被標(biāo)注了反義關(guān)系,這樣形成了一個互相高度連通的名詞網(wǎng)絡(luò)。動詞的多義性比名詞更高,在Wordnet中動詞被組織成各種推演(蘊涵)關(guān)系,而組織動詞的不同關(guān)系可以被總結(jié)成一個覆蓋它們的基礎(chǔ)詞匯的推演,包括四種[5]。
2.3概念詞表
知識體系中除了概念間相互關(guān)系形成語義網(wǎng)絡(luò),對于每個單獨的概念還必須有概念詞表。沒有概念詞表的語義網(wǎng)絡(luò)只是一個單純的概念關(guān)系網(wǎng)而不是與詞匯相結(jié)合的知識體系。Hownet中的詞表就是一個概念詞表。Hownet是一個以漢語和英語的詞語所代表的概念為描述對象,知網(wǎng)是一個利用一種知識詞典描述語言來描述概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系的知識系統(tǒng)[6]。Hownet包括詞表和義原體系表。詞表中記錄了每一個詞語的概念及其描述,每一個概念用一個記錄來表示,如下所示:
其中NO.為概念編號,W_C,G_C,E_C分別是漢語的詞語、詞性和例子,W_E,G_E,E_E分別是英語的詞語、詞性和例子,DEF是知網(wǎng)對于該概念的定義,是知網(wǎng)的核心。每個DEF被稱為一個語義表達式,采用知識描述語言,將與詞匯有關(guān)概念關(guān)系采用顯示的表示出來。如從概念編號為017144的DEF可知“打”的概念之一是“鍛煉”,屬于體育范疇。
2.4構(gòu)建知識體系的問題
構(gòu)建一個適用合理的知識體系對于改善檢索效果至關(guān)重要。但目前已成形的知識體系都存在一些不足。
構(gòu)建一個知識體系最重要的是詞的構(gòu)造性信息,不完善的知識體系中被遺漏的信息大部分是關(guān)于詞的構(gòu)造性信息而非事實性信息。傳統(tǒng)詞典的定義盡力涵蓋了有關(guān)每個詞義的所有事實性信
息,但卻忽略了詞匯概念之間內(nèi)在的各種關(guān)系[7]。
如何選擇知識體系的用詞目前都在探討和實驗中,世界知識體系(Ontology)給出了一些選詞的規(guī)定[8]:語義網(wǎng)絡(luò)的非葉子節(jié)點不可以是多個類的詞,如“蔬菜和水果”;也不可以是沒有下位類的選詞,如“職業(yè)者”。要避免使用混合類的詞,不要將敘述屬性和抽象概念的詞進行搭配作為語義網(wǎng)絡(luò)的非葉子節(jié)點,如“空杯子”、“破車”,要避免選詞時加入個人的判斷因素,將一些主觀的屬性值與類名組合成非葉子節(jié)點,如“熱咖啡”、“明亮的車”。但是要使知識體系能理想地添加新的類、新的屬性和關(guān)系,僅有這些規(guī)定是遠遠不夠的。
是將概念領(lǐng)域化還是通用化各有優(yōu)劣,目前都沒有定論。通用的知識體系有Wordnet、Hownet等,專門領(lǐng)域的知識體系有UMLS和首信等。
構(gòu)建語義網(wǎng)絡(luò)結(jié)構(gòu)本身存在一定的缺陷。用有限的結(jié)點和弧不可能代表萬事萬物及其相互之間的所有聯(lián)系,語義網(wǎng)絡(luò)對知識的表達有一定的局限性。單純增加概念和聯(lián)系會大大增加網(wǎng)絡(luò)的復(fù)雜度。語義網(wǎng)絡(luò)結(jié)構(gòu)本身沒有語義上的約定,不具備邏輯系統(tǒng)那樣的有效性。單層的語義網(wǎng)絡(luò)結(jié)構(gòu)容易產(chǎn)生語義解釋循環(huán)或語義悖論。
國外語義研究的理論與方法,并不完全通用。漢語是語義型語言,具有語義先決性、句法強制性和語用選定性等特點。漢語語義結(jié)構(gòu)上的復(fù)雜性與多變性以及詞與詞之間無自然界限、無詞尾形式標(biāo)志、無形態(tài)變化的“三無”現(xiàn)象的存在,給語義分析帶來了困難。
知識的獲取與表示,其中較難解決的問題就是如何把復(fù)雜多樣的專業(yè)知識系統(tǒng)化。如果把人工智能技術(shù)應(yīng)用到一個多學(xué)科綜合的檢索系統(tǒng)中,如何辨別某個多義詞當(dāng)前的具體含義,如何辨析用戶特定的需求,這些都有待于繼續(xù)研究。
要想使計算機準(zhǔn)確地分析、表達和傳輸知識,必須使它具備理解自然語言的能力。目前對自然語言的處理,雖然已從語法階段上升到語義階段,但對自然語言的理解能力還限制在一些規(guī)范的語句和語法范圍內(nèi),這就決定了智能信息檢索系統(tǒng)所能具有的智能化表達程度。
3結(jié)束語
持續(xù)增長的海量網(wǎng)絡(luò)信息讓傳統(tǒng)的檢索方式面臨著嚴重挑戰(zhàn),也加重了人們的檢索負擔(dān)。在自然語言檢索系統(tǒng)中采用概念控制就是為了優(yōu)化檢索效果。而實現(xiàn)概念控制需要有合適的概念體系。目前沒有一個標(biāo)準(zhǔn)的Ontology構(gòu)造方法,對當(dāng)前已有的Ontology的性能評估也沒有一個統(tǒng)一的標(biāo)準(zhǔn),這些都需要進一步研究。不過在構(gòu)造特定領(lǐng)域Ontology的過程中,有一點是得到大家公認的,那就是需要該領(lǐng)域?qū)<业膮⑴c。
- 上一篇:科學(xué)的重要性
- 下一篇:高校圖書館網(wǎng)絡(luò)安全