互聯(lián)網(wǎng)環(huán)境法律信息獲取方法

時間:2022-06-07 10:14:00

導(dǎo)語:互聯(lián)網(wǎng)環(huán)境法律信息獲取方法一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

互聯(lián)網(wǎng)環(huán)境法律信息獲取方法

一、引言

今天,計算機網(wǎng)絡(luò)和信息技術(shù)的迅猛發(fā)展大大地推動了社會的發(fā)展,它的影響和溯及力已經(jīng)遍布整個社會的方方面面,并且在法律領(lǐng)域逐漸顯示出強有力的優(yōu)勢,無論是對日常的司法業(yè)務(wù)處理,還是法學(xué)研究與司法辦案決策都賦予了新的方法和思路,越來越發(fā)揮著它的輔助支持作用。然而面對著網(wǎng)絡(luò)中越來越錯綜復(fù)雜、難以描述的模糊問題和海量非結(jié)構(gòu)化的數(shù)據(jù),如何滿足對其高效的查詢請求,以更低的成本、更準確的數(shù)據(jù)和更迅捷的速度作出正確的決策,是當前信息獲取和利用所面臨的關(guān)鍵問題。司法決策人員在查詢目標不很明確的狀況下選擇決策依據(jù)時,注重的是如何從浩如煙海的數(shù)據(jù)中快速地調(diào)出與案件相關(guān)的法律、法規(guī)及判例,而不是遍歷龐大的互聯(lián)網(wǎng)或數(shù)據(jù)庫資源漫無目標地搜尋。而目前大多數(shù)網(wǎng)絡(luò)搜索引擎和信息獲取工具是基于檢索提問式關(guān)鍵詞匹配技術(shù),在檢索的過程中常常出現(xiàn)的兩類主要問題是“信息過載”和“內(nèi)容不匹配”。前者指在檢索過程中系統(tǒng)返回的信息量過多,與查找相關(guān)或不相關(guān)的內(nèi)容都冒出來,使用戶應(yīng)接不暇,難于接受;后者指因?qū)ν粋€概念的表述出現(xiàn)多義、歧義,返回的信息并非用戶真實的查詢意圖和內(nèi)容,查準率和查全率都得不到保證。要解決網(wǎng)絡(luò)環(huán)境中上述信息獲取存在的問題,實現(xiàn)真正意義上的面向法律領(lǐng)域的知識檢索,從理論層面上,必須構(gòu)建以法律領(lǐng)域知識為基礎(chǔ)的用于語義檢索的元數(shù)據(jù)標準,用來對網(wǎng)頁中的相關(guān)信息標引和知識抽取,以便將用戶查詢請求準確地與網(wǎng)頁上查詢的法律知識目標相匹配;這就要求我們對來自網(wǎng)頁或數(shù)據(jù)庫的法律信息進行整理、組織和特征分析,依據(jù)法律領(lǐng)域?qū)<宜O(shè)計的法律信息規(guī)范標準,建立可利用和共享的法律知識單元和元數(shù)據(jù),以達到智能和準確的語義檢索,實現(xiàn)面向法律領(lǐng)域的知識獲取,為司法業(yè)務(wù)信息化和司法決策信息化提供更加有力的支撐。

二、法律信息資源的構(gòu)成與語義特征分析

(一)法律信息知識單元的組織

一般來說,在法律文獻中的知識內(nèi)容是由若干個知識單元組成,知識單元之間的結(jié)構(gòu)關(guān)系是相對固化的。用戶在網(wǎng)上查找其中的知識時,只能按照編者事先組定的線性方式讀取,即使只想獲取其中某一部分事實或數(shù)據(jù),也要在獲取全文的基礎(chǔ)上根據(jù)需要逐個篩選,這顯然不能滿足用戶的實際需求。如果能將這種線性的知識塊(文獻)分解為各種面向用戶問題域或基于事實域的認知層次的活化知識單元,并將這些知識單元予以激活,重新組合、聯(lián)結(jié)、轉(zhuǎn)化為特定環(huán)境、特定需要的知識,將大大提高法律文獻知識的利用率與共享性。因此,對于網(wǎng)頁中法律文獻資源及其知識內(nèi)容進行有效的提煉、整序和知識單元的組織,進而對其分析和特征標引,實現(xiàn)按用戶問題域的語義檢索,就成為網(wǎng)絡(luò)環(huán)境中法律知識獲取的關(guān)鍵。通常的法律信息主要包括:法律公文(含司法文書)、文獻,法律、法規(guī)、司法解釋,司法案例、判例,司法證據(jù)以及相關(guān)的聲音、視頻、圖像等多媒體資料。按照司法領(lǐng)域慣用劃分,可以將法律信息根據(jù)其性質(zhì)、作用或所屬部門法系進行知識層次和知識單元的組織:第一層,是對法律信息公共資源進行一般性、概括性的描述,通常適用于描述供歸檔的法律公文(法律文件、法律法規(guī)、司法文書等)信息,由一組抽象出來的專業(yè)術(shù)語表征,基本上可以羅列出如下若干項:發(fā)文編號、發(fā)文機構(gòu)、文件名稱、主題、摘要、日期、范圍、使用語言、事件、關(guān)聯(lián)、密級、有效性等(可用“元數(shù)據(jù)”描述)。第二層,可以從法律信息的應(yīng)用角度(性質(zhì)或適用領(lǐng)域等),對法律信息的知識單元進行組織和描述,例如,把它們分為刑事類、民事類、行政類、海事類;或者分為起訴類、判決類、合同類、公告類;還可以把它們分為:法律、法規(guī)與判例、案例;形成針對不同問題域和檢索目標的知識維。第三層,則依據(jù)具體信息內(nèi)容進行概念的抽象和描述,通??梢葬槍Ψ晒牡闹黝}、內(nèi)容摘要以及描述具體案件、事實的信息(往往用若干個關(guān)鍵詞描述),例如,罪名、事由或案情簡介,并定義其下屬概念、內(nèi)容和相關(guān)的屬性及關(guān)系,又如,案情摘要中的主要關(guān)鍵詞,原告、被告、被害人及其姓名、性別、年齡、身份、特征等。通常第三層信息較零散、模糊、不規(guī)范、難以描述,例如:案情摘要中的犯罪動機、造成的危害及后果等。歸納起來,面向案件事實的法律公文包含的知識主要有:

(1)法律文獻信息。記錄不同用途的司法文獻的基本信息,例如,發(fā)文編號、發(fā)文機構(gòu)、編制者、文件名稱、文件類別、主題、摘要、日期、范圍,使用語言、事件、事件關(guān)聯(lián)、基本格式等。

(2)機構(gòu)或個人信息。記錄與案件事實相關(guān)的司法機構(gòu)、法人、被告、原告、被害人等的基本信息,例如,法人的姓名、性別、年齡、職務(wù)、單位、地址等。

(3)事件信息。記錄司法事實發(fā)生的詳細經(jīng)過信息,例如,事件發(fā)生時間、地點,相關(guān)者、事件后果及結(jié)論等。

(4)犯罪信息。記錄罪行的基本信息,例如,罪名、犯罪人、被害人、動機、情節(jié)、原因、危害后果、處罰情況等;進一步將這些抽象出來的概念整理,找出它們之間的邏輯關(guān)系。以法律公文的判決書為例,從第一層所描述的司法文書的名稱、主題、摘要中可以抽出下層有關(guān)罪行、犯罪性質(zhì)和犯罪事實信息,再進一步尋根索驥,調(diào)出犯罪人、犯罪動機、作案經(jīng)過、犯罪后果以及判決結(jié)果等詳細說明信息,這些又直接與罪行相適應(yīng)的法律條文和判例相關(guān)聯(lián)。由此,就形成了一個依據(jù)描述法律事實的司法文書而搭建的語義關(guān)系網(wǎng)絡(luò)(如圖1所示)。

(二)法律公文的語義特征

目前,隨著司法領(lǐng)域信息化、數(shù)字化的推進,國內(nèi)司法界已對各類法律信息進行了較細致的劃分,并制訂了統(tǒng)一、規(guī)范的格式,形成了標準范本(可參考最高人民法院、最高人民檢察院的法律公文格式、規(guī)格書等),這為網(wǎng)頁上法律信息知識單元的組織和法律知識的抽取,進而構(gòu)建法律信息元數(shù)據(jù)搭建了良好的基礎(chǔ)平臺。例如,我們可以用反映法律案件、事實的司法文書(起訴書、判決書、合同等)作為分析對象,描述它的基本格式,抽取各部分的關(guān)鍵詞及其語義特征,按照這些關(guān)鍵詞在網(wǎng)頁文檔中各部分出現(xiàn)的頻率、位置關(guān)系和權(quán)重進行標引,檢索出其在相關(guān)網(wǎng)頁上的法律、法規(guī)、案例和判例。網(wǎng)頁最普遍的法律信息多為文本形式,而以法律事實、案例為主線的法律文本則主要為法律公文,所以,本研究重點是對反映法律事實案例的法律公文進行分析和討論。盡管各類法律公文的內(nèi)容不一,但它們的基本形式是相似的,與其他文檔相比具有顯明的格式。由此,可以將網(wǎng)絡(luò)環(huán)境中非結(jié)構(gòu)化的法律信息轉(zhuǎn)化為較規(guī)范的結(jié)構(gòu)化的數(shù)據(jù)格式,進而,構(gòu)建出用來實現(xiàn)語義檢索的法律信息元數(shù)據(jù)及其可標引、分類的主題關(guān)系詞表的大致框架。

三、法律信息語義檢索的構(gòu)架

(一)法律主題關(guān)系詞表的設(shè)計

按照前述知識組織體系的劃分,主題關(guān)系詞表在領(lǐng)域知識單元中扮演著極其重要的角色,是一種主題檢索系統(tǒng)所用的檢索詞的有序化詞匯表,能夠表達自然語言之間語義關(guān)系的、有標引和提供各種查詢途徑的詞或詞組。作為一種將網(wǎng)絡(luò)資源和信息用戶的自然語言轉(zhuǎn)換為規(guī)范化語言的工具,主題關(guān)系詞表在文獻標引和信息檢索等方面具有廣泛的應(yīng)用。為了實現(xiàn)本文所提出的基于法律本體的語義檢索意圖,我們依據(jù)最高人民法院的“人民法院公文主題詞表”〔1〕,對部分主題詞進行了分類編碼,并參照中國科學(xué)技術(shù)信息研究所編制的“綜合電子政務(wù)主題詞表(試用本)”〔2〕,設(shè)計了一套用于本研究檢索原型系統(tǒng)的法律信息主題關(guān)系詞表查詢模板(見表1):

(二)法律信息元數(shù)據(jù)的設(shè)計

元數(shù)據(jù)被認為是一種用來描述數(shù)字化信息資源,特別是網(wǎng)絡(luò)信息資源的基本特征及其相互關(guān)系,從而確保這些數(shù)字化信息資源能夠被計算機及其網(wǎng)絡(luò)系統(tǒng)自動辨識、分解聚類和分析歸納(即所謂機器可理解性)的一整套編碼體系,它代表一組被廣泛認同的、能準確描述信息資源屬性和領(lǐng)域特點的最基本的元素,它通過對網(wǎng)絡(luò)資源數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、關(guān)系、條件和其他特征進行描述與說明,幫助人們有效地定位、組織、提取、分析和使用網(wǎng)絡(luò)資源數(shù)據(jù)。國際圖聯(lián)IFLA對元數(shù)據(jù)的定義是:“元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),此術(shù)語指任何用于幫助網(wǎng)絡(luò)資源的識別、描述和定位的數(shù)據(jù)?!薄?〕公共資源基本元數(shù)據(jù)應(yīng)能夠表述如下的信息:資源名稱、資源主題、資源標識、資源摘要、資源格式信息、關(guān)鍵字說明、空間范圍、時間范圍、資源使用限制、資源語種、資源類型、資源標識符、在線資源鏈接地址等信息。通過對國內(nèi)外元數(shù)據(jù)標準的研究和探索,本研究依據(jù)國際通用的元數(shù)據(jù)設(shè)計原則和法律公文的格式和語義特征,并參照國家電子政務(wù)標準化項目工作組的《政務(wù)信息資源目錄體系》的要求與其他專業(yè)應(yīng)用領(lǐng)域元數(shù)據(jù)的編制方法,在都柏林DC元數(shù)據(jù)的核心元素集〔4〕的基礎(chǔ)上作了一定的擴充、刪減和修改,設(shè)計了一套既能體現(xiàn)國際通用標準、又能反映法律公文特點的法律信息元數(shù)據(jù)模型,同時,保留了DC中的限制屬性幫助理解各元素取值的含義。其中核心元素集包含了14個基本元素:標題、創(chuàng)建者、主題、摘要、者、類型、格式、標識符、來源、語種、關(guān)聯(lián)、日期、覆蓋范圍、權(quán)限。另外,為了能更好地體現(xiàn)法律信息的特點,我們參照了部分特殊應(yīng)用領(lǐng)域元數(shù)據(jù)標準,如“主題信息服務(wù)(ROADS)”、“政府信息定位服務(wù)(GILS)”和“教育對象元數(shù)據(jù)IEEELOM”,對都柏林DC元數(shù)據(jù)的基本元素進行了擴展和補充。例如,資源密級,事件,事件相關(guān)者(被告人、起訴人、被害人、證人、人等),審判機構(gòu),主題詞表等,并設(shè)計了法律信息元數(shù)據(jù)擴展元素集。表2、表3給出了這套元數(shù)據(jù)中若干元素及其定義的基本樣例。

四、法律信息語義檢索方法

(一)法律信息語義檢索的特點

所謂信息檢索(InformationRetrieval),是指從大量的信息資源中查找出與使用者需求相關(guān)的內(nèi)容。目前的信息檢索技術(shù)大致分為三類:全文檢索(TextRetrieval)、數(shù)據(jù)檢索(DataRetrieval)和知識檢索(KnowledgeRetrieval)。全文檢索和數(shù)據(jù)檢索從本質(zhì)上說都屬于關(guān)鍵字匹配的檢索技術(shù),這種基于關(guān)鍵字匹配或是基于學(xué)科分類的檢索工具之所以不能令人滿意,最主要的原因之一就是它們無法挖掘概念之間的內(nèi)在聯(lián)系,搜索出更深層的含義,在查全率和查準率方面都有一定的局限性。而基于語義知識匹配技術(shù)的知識檢索,將傳統(tǒng)基于關(guān)鍵字的匹配技術(shù)上升為基于概念節(jié)點的知識匹配,增強了檢索的語義識別能力,其特點表現(xiàn)在:

(1)消除自然語言理解中的歧義,明確概念所屬范疇和涵義,提高信息檢索的查準率。

(2)在語義標引的基礎(chǔ)上進行語義推理,利用文獻的語義標注和概念集的語義關(guān)系及推理規(guī)則,從而挖掘出相關(guān)或隱含信息,實現(xiàn)智能檢索和知識組織,提高檢索結(jié)果的可用性。

(二)法律信息語義檢索模型

依據(jù)對前述法律知識體系的分析與探討,本文提出了一個用于網(wǎng)絡(luò)環(huán)境下法律信息語義檢索的模擬解決方案,表述如下:

(1)由法律領(lǐng)域?qū)<野凑辗芍R體系規(guī)范和司法實踐經(jīng)驗,組織法律信息各主題概念和與其相對應(yīng)的知識、內(nèi)容,按照本體的構(gòu)建方法,建立層次豐富、語義清晰、關(guān)系明確的法律知識本體(主題關(guān)系詞表),并保存到相關(guān)的數(shù)據(jù)庫中。

(2)依據(jù)法律信息元數(shù)據(jù)及其標識機制對網(wǎng)頁上法律公文自動進行標引和分類,通過元數(shù)據(jù)建立法律公文主題詞與法律本體相關(guān)概念的映射關(guān)聯(lián),將關(guān)聯(lián)的主題詞及對應(yīng)的網(wǎng)頁法律公文地址(URL)存放在指定的數(shù)據(jù)庫表中。

(3)根據(jù)用戶輸入的查詢請求關(guān)鍵詞,在已設(shè)計的“法律信息主題關(guān)系詞表”查詢模板中進行相關(guān)概念和上、下位概念的檢索,找出與之相關(guān)聯(lián)和匹配的主題詞或上位、下位詞。

(4)按照元數(shù)據(jù)所標引的主題詞的網(wǎng)頁法律公文地址(URL)檢索出網(wǎng)頁中用戶所需要的法律公文內(nèi)容以及相關(guān)的法律、法規(guī)、判例知識。下面給出一個互聯(lián)網(wǎng)環(huán)境下實現(xiàn)上述研究基本思路和方案而研制的法律信息語義檢索原型:當用戶在輸入?yún)^(qū)域輸入某個待查法律信息特征詞后,系統(tǒng)首先按照模糊查詢的方式在主題詞表庫中進行掃描,當找到與用戶輸入的特征詞相一致的主題詞時,根據(jù)數(shù)據(jù)庫各表的指針,隨之確定了該詞在關(guān)系表中的位置及其上、下位關(guān)聯(lián)詞和所屬范疇;經(jīng)索引快速找到已設(shè)置元數(shù)據(jù)標識和定位的Web頁面中與用戶查詢特征詞相匹配的法律信息,進而還可以挖掘出與之相關(guān)的其他信息。例如,當我們需要查找有關(guān)“損害賠償”方面的判例時,首先選擇“法律判例”選項,然后在“關(guān)鍵詞”框中輸入“損害賠償”,則庫中所有含“損害賠償”一詞的判例標題均會出現(xiàn)在屏幕上;在其中選擇某項,即可輸出該判例的內(nèi)容,同時將相關(guān)信息如所有含有同一法院或法官審判的類似案例,與此判例相關(guān)的法律、法規(guī),原、被告所涉及所有判例等均被檢索出來(見圖2)。

五、結(jié)語

本文通過對當前國內(nèi)外關(guān)于信息檢索方法的研究分析,結(jié)合司法實踐中法律信息檢索問題,提出了以司法事實為主線、依據(jù)法律信息的知識單元及其語義特征實現(xiàn)網(wǎng)絡(luò)中法律信息知識抽取和語義檢索的設(shè)計構(gòu)架和解決方案,并建立了一個檢索原型系統(tǒng)對其進行了模擬實現(xiàn)。顯然,以這種方式提供的檢索結(jié)果不再局限于以前的關(guān)鍵字匹配檢索,它充分地利用了法律信息間的語義關(guān)系,不僅保障了用戶查詢需求與目標結(jié)果的一致性,同時還能夠挖掘出與用戶需求相關(guān)聯(lián)的實用信息,進而提高了網(wǎng)頁中法律信息的查全率和查準率,為互聯(lián)網(wǎng)環(huán)境下法律知識的獲取提供了可借鑒的理論和實踐依據(jù)。