本體電子政務(wù)數(shù)據(jù)平臺研究運用
時間:2022-03-18 02:56:00
導(dǎo)語:本體電子政務(wù)數(shù)據(jù)平臺研究運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
全球性的網(wǎng)絡(luò)化、信息化進(jìn)程正改變著人們的生活方式,Internet技術(shù)應(yīng)用以及電子商務(wù)的飛速增長給人們生活工作的各個層面帶來了深刻的影響。隨著計算機(jī)與網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,“政府信息化”越來越受到政府機(jī)關(guān)的重視,各地政府機(jī)關(guān)紛紛開始建立電子政務(wù)業(yè)務(wù)系統(tǒng)。目前大多數(shù)政府機(jī)關(guān)已建立了大量的信息系統(tǒng),例如檔案管理系統(tǒng)、稅務(wù)系統(tǒng)、工資系統(tǒng)、人事管理系統(tǒng)、OA系統(tǒng)、公共服務(wù)一卡通、資產(chǎn)管理系統(tǒng)等。但眾多業(yè)務(wù)應(yīng)用系統(tǒng)相互獨立,它們各自采用不同平臺、不同數(shù)據(jù)庫、不同編碼,致使各業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)交換和信息資源共享存在困難,信息孤島現(xiàn)象明顯¨1]。
同時,眾多的應(yīng)用系統(tǒng)所帶來的身份的認(rèn)證和管理的復(fù)雜性既使得管理成本不能降低,又使得整個系統(tǒng)的安全性、可整合性降低,這已成為電子政務(wù)信息管理系統(tǒng)進(jìn)一步發(fā)展的瓶頸所在。因此,要想改變電子政務(wù)信息化水平的現(xiàn)狀,整合信息資源,解決“信息孤島”問題,就必須建立一個公共數(shù)據(jù)平臺,它是在政府部門原有的各業(yè)務(wù)系統(tǒng)層面上搭建的一個高層應(yīng)用平臺,將各業(yè)務(wù)系統(tǒng)的異構(gòu)數(shù)據(jù)集成應(yīng)用,向下屏蔽各異構(gòu)信息源異構(gòu)性,向上提供數(shù)據(jù)集成基礎(chǔ)服務(wù),實現(xiàn)各種信息系統(tǒng)的互通互聯(lián)和數(shù)據(jù)共享、數(shù)據(jù)的一致性,并在此基礎(chǔ)上實現(xiàn)規(guī)范的信息管理。近年來,隨著語義Web的發(fā)展,其核心技術(shù)本體在數(shù)據(jù)集成方面得到了應(yīng)用。本體作為共享領(lǐng)域概念模型,可以通過定義領(lǐng)域內(nèi)一致的術(shù)語和術(shù)語間的關(guān)系來描述異構(gòu)信息源的語義信息,從而消除異構(gòu)數(shù)據(jù)源的語義沖突。
在國外,對本體的研究較早,本體已經(jīng)應(yīng)用到各個領(lǐng)域。相比國外,國內(nèi)對本體的研究起步較晚,尤其是在電子政務(wù)方面,缺乏一致的本體模型,相關(guān)的應(yīng)用也少。目前,本體技術(shù)很少在電子政務(wù)信息化建設(shè)中應(yīng)用,因此,如何把本體技術(shù)應(yīng)用到電子政務(wù)異構(gòu)數(shù)據(jù)管理集成中,采取何種策略進(jìn)行構(gòu)建,消除電子政務(wù)各信息系統(tǒng)異構(gòu)數(shù)據(jù)庫模式的語義沖突,從而解決電子政務(wù)中異構(gòu)系統(tǒng)導(dǎo)致的信息孤島問題,構(gòu)建統(tǒng)一的數(shù)據(jù)平臺,以便提高政府管理效率,就顯得尤為重要。
1電子政務(wù)與本體
1.1電子政務(wù)與本體概述
電子政務(wù)是政府機(jī)構(gòu)廣泛深入地應(yīng)用現(xiàn)代信息和通信技術(shù),將政府內(nèi)部和外部(社會)的責(zé)權(quán)與職能通過計算機(jī)網(wǎng)絡(luò)硬件和軟件技術(shù)進(jìn)行集成、整合、優(yōu)化、重組,做到跨越時間和空間,突破部門分割和傳統(tǒng)組織、工作方法與工作流程的限制,力求全方位地、有效地施行與提供安全、高效、優(yōu)質(zhì)、規(guī)范和符合國際水準(zhǔn)的管理與服務(wù)。本體是為了某種目的描述世界時的一組抽象化概念,并且該組概念是得到廣泛認(rèn)可的、以規(guī)范化形式描述的。根據(jù)定義描述本體時目的的不同,本體可以分為多種類型,依照領(lǐng)域依賴程度,可以細(xì)分為頂級(top—leve1)、領(lǐng)域(domain)、任務(wù)(task)和應(yīng)用(application),這里研究的是領(lǐng)域本體,領(lǐng)域本體由屬性、對象、關(guān)系和子領(lǐng)域本體組成。引入本體的思想,借助本體對領(lǐng)域知識進(jìn)行詳細(xì)描述,以抽象出概念化的語義層次,為進(jìn)一步研究語義化的信息交互提供了基本的語義層次2J。從形式上來說,本體由概念、關(guān)系、函數(shù)、公理和實例5種元素組成。本體中的概念可以是一般意義上的概念,也可以是任務(wù)、功能、行為、策略推理過程等;關(guān)系表示概念之間的關(guān)聯(lián);函數(shù)則是一種特殊的關(guān)系;公理用于表示一些永真式;實例是指屬于某種概念的基本元素,即某概念類所指的具體實例。
1.2本體在電子政務(wù)中的應(yīng)用案例
美國印第安納州電子政府建設(shè)是很多文獻(xiàn)介紹的典范,其成功之處在于利用本體方法建設(shè)電子政府?dāng)?shù)據(jù)庫J。美國印第安納州電子政府IndianaFamilyandSocialServicesAdministration(FSSA)本體,屬于最上層的域本體設(shè)計,它在“家庭與社會服務(wù)”這一本體下定義了9個本體(即低收入、處于危險的兒童、精神病與吸毒、弱智、區(qū)域健康與人性化服務(wù)、醫(yī)療補助、政府機(jī)構(gòu)、法律實施及財政),建立了最上層的概念關(guān)系,并用圖形和箭頭形式標(biāo)示出了各下層本體之間的關(guān)系以及在一個專業(yè)本體里所包括的術(shù)語。
1.3電子政務(wù)中本體的核心概念及抽取方法
目前,大多數(shù)本體學(xué)習(xí)方法和本體學(xué)習(xí)系統(tǒng)都是直接將術(shù)語識別為概念。術(shù)語的抽取被認(rèn)為是進(jìn)行本體自動構(gòu)建的關(guān)鍵。針對術(shù)語抽取的研究主要有基于語法規(guī)則的方法、基于統(tǒng)計的方法、ICT—CLAS系統(tǒng)法J。利用語法規(guī)則的方法來進(jìn)行術(shù)語抽取具有提取術(shù)語準(zhǔn)確度較高、處理過程簡單、計算量較小、能夠有效提取低頻術(shù)語等多項優(yōu)點。但是,由于語言學(xué)規(guī)則本身難以掌握,尤其是針對開放性的語料,語言學(xué)的規(guī)則更是難以準(zhǔn)確應(yīng)用,利用人工來研究語言學(xué)的規(guī)律越來越難以實現(xiàn);使用統(tǒng)計的方法來抽取術(shù)語可以高效地識別領(lǐng)域術(shù)語,只要一個詞在文本集中出現(xiàn)的頻率高,就可以被有效抽取出來,可移植性較好。但是,這種方法計算量大,在處理低頻術(shù)語的時候,效果較差;ICT—CLAS系統(tǒng)法主要采用ICTCLAS系統(tǒng)對內(nèi)容進(jìn)行分詞處理,然后對分詞進(jìn)行抽取處理,這樣抽取的優(yōu)點是抽取內(nèi)容比較全面,但效率比較低,并且需要人工手動處理。
以上抽取方法都有優(yōu)缺點,在本體抽取中單獨地使用其中一種方法都不能達(dá)到最優(yōu)的效果,筆者把以上多種方法混合起來,采用程序自動分詞合并方式,加入TF—IDF算法,增加對領(lǐng)域術(shù)語的相關(guān)度的計算,篩選出與領(lǐng)域相關(guān)度低的術(shù)語,從而提高領(lǐng)域術(shù)語抽取的正確率。基本步驟如下:
1)采用語法規(guī)則的方法提取相關(guān)候選術(shù)語;
2)采用程序自動處理方式,對相關(guān)候選術(shù)語進(jìn)行分詞;
3)采用統(tǒng)計法對分詞進(jìn)行統(tǒng)計,根據(jù)頻度提取術(shù)語;
4)使用TF—IDF算法對提取的詞進(jìn)行相關(guān)度計算,求出每個候選術(shù)語在政務(wù)領(lǐng)域文本中的相關(guān)性,抽取出政務(wù)領(lǐng)域獨占性強(qiáng)的詞作為政務(wù)領(lǐng)域術(shù)語。
2電子政務(wù)公共數(shù)據(jù)平臺架構(gòu)
為了確保異構(gòu)數(shù)據(jù)獲取和更新的準(zhǔn)確性,同時又不改變原有硬件設(shè)施和人力資源,要想實現(xiàn)真正意義上的異構(gòu)數(shù)據(jù)庫間信息資源的共享,集成后的數(shù)據(jù)必須保證較高的集成性、一致性和完整性,這是公共數(shù)據(jù)平臺建設(shè)的重要環(huán)節(jié)。
2.1本體模型構(gòu)建
電子政務(wù)中大量不同的應(yīng)用系統(tǒng),其異構(gòu)是普遍存在的,要想向下屏蔽異構(gòu)數(shù)據(jù),建立數(shù)據(jù)中心,向上提供公共數(shù)據(jù)平臺,就必須構(gòu)建本體模型對元數(shù)據(jù)進(jìn)行抽象概念化處理。電子政務(wù)本體構(gòu)建中的2個核心問題是概念抽取和概念關(guān)系的獲取,概念抽取是對數(shù)據(jù)源進(jìn)行分析,抽取出概念集合和每個概念的屬性集合。概念抽取本體有很多方法,可以由領(lǐng)域?qū)<沂止みM(jìn)行,也可以利用領(lǐng)域概念詞典,自動抽取數(shù)據(jù)源中的概念。概念關(guān)系的獲取可以通過2種方法實現(xiàn),即基于語言規(guī)則的方法和基于統(tǒng)計的方法。在對所有數(shù)據(jù)源進(jìn)行分析的基礎(chǔ)上,找出其中所涵蓋的術(shù)語,進(jìn)行概念抽取,定義共享的詞匯表,根據(jù)相關(guān)本體規(guī)則進(jìn)行本體抽象和語義處理。
2.2公共數(shù)據(jù)平臺架構(gòu)
使用公共數(shù)據(jù)平臺的好處在于所有的共享數(shù)據(jù)被存儲在中心數(shù)據(jù)庫,可以向上層提供統(tǒng)一的數(shù)據(jù),便于資源共享和集中管理,而電子政務(wù)網(wǎng)內(nèi)各應(yīng)用系統(tǒng)中異構(gòu)數(shù)據(jù)庫就擁有了完全的自治性,這樣首先需要對底層異構(gòu)數(shù)據(jù)庫進(jìn)行本體抽象處理,向下屏蔽異構(gòu)數(shù)據(jù),然后采用數(shù)據(jù)交換技術(shù)和數(shù)據(jù)同步技術(shù)保持中心數(shù)據(jù)庫數(shù)據(jù)和底層異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的實時同步。
電子政務(wù)公共數(shù)據(jù)平臺架構(gòu)分為應(yīng)用層、異構(gòu)數(shù)據(jù)集成層、本體模型層和異構(gòu)數(shù)據(jù)本體庫層,如圖2所示。異構(gòu)數(shù)據(jù)本體庫層主要包含各大應(yīng)用系統(tǒng)異構(gòu)數(shù)據(jù)庫,通過不同的連接器及適配器向本體模型層提供本體的元數(shù)據(jù);本體模型層對元數(shù)據(jù)進(jìn)行概念化,按照本體規(guī)則進(jìn)行抽象處理和語義處理;異構(gòu)數(shù)據(jù)集成層在本體模型之上利用AGENT同步模塊對數(shù)據(jù)進(jìn)行交換、同步而實現(xiàn)數(shù)據(jù)集成,公共數(shù)據(jù)都集中到中心數(shù)據(jù)庫,向上層提供公共數(shù)據(jù)平臺;應(yīng)用層主要是用戶訪問層,針對不同用戶提供統(tǒng)一身份認(rèn)證,實現(xiàn)單點登陸。
3電子政務(wù)公共數(shù)據(jù)平臺設(shè)計
3.1構(gòu)建電子政務(wù)領(lǐng)域本體的方法步驟
W3C組織推薦的在語義網(wǎng)上應(yīng)用的標(biāo)準(zhǔn)本體表示語言是OWL,目前本體的構(gòu)建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。這些方法大多數(shù)是以不同領(lǐng)域為背景,從個案的開發(fā)過程中通過逆工程總結(jié)出來的J。例如:TOVE專用于構(gòu)建TOVEOntology,是關(guān)于企業(yè)建模過程的知識本體;骨架法專門用來構(gòu)建企業(yè)本體;KACTUS是指“關(guān)于多用途復(fù)雜技術(shù)系統(tǒng)的知識建模”工程,目的是要解決技術(shù)系統(tǒng)生命周期過程中的知識復(fù)用問題-l;SEN。SUS法是開發(fā)用于自然語言處理的SensusOntolo。g)r的方法路線¨;IDEF5法是用于描述和獲取企業(yè)本體的方法-l。;七步法是斯坦福大學(xué)醫(yī)學(xué)院開發(fā)的,主要用于領(lǐng)域本體的構(gòu)建_l。這些方法各有特點,但都不是針對電子政務(wù)領(lǐng)域的,沒有充分考慮電子政務(wù)領(lǐng)域的特點。筆者結(jié)合電子政務(wù)領(lǐng)域特色,提出基于電子政務(wù)業(yè)務(wù)模型,抽取概念,建立電子政務(wù)領(lǐng)域知識本體的方法,步驟如下:
1)需求分析,確定電子政務(wù)領(lǐng)域本體應(yīng)用的目的、范圍、表示方法和用途等。電子政務(wù)領(lǐng)域本體建設(shè)要以應(yīng)用需求為牽引,要對人類在認(rèn)識世界過程中形成的不同“本體”(知識體系)進(jìn)行認(rèn)真分析,最終達(dá)到需求分析的定位準(zhǔn)確、涵蓋得當(dāng)。
2)概念化及抽取,通過各種渠道獲得電子政務(wù)領(lǐng)域本體的主要概念,確立概念間等級關(guān)系,并用精確無歧義的語言加以描述,形成該領(lǐng)域本體的核心語義內(nèi)容。獲得領(lǐng)域信息最根本的方法應(yīng)該是考慮復(fù)用已有本體的可能性。通常的也是最行之有效的方法是復(fù)用已經(jīng)廣泛使用于各個學(xué)科領(lǐng)域的主題詞表和分類表。
3)概念間聯(lián)系,確定電子政務(wù)領(lǐng)域本體概念間聯(lián)系,如屬性、種屬關(guān)系、總體與部分關(guān)系、領(lǐng)域中的特有關(guān)系;對所收集的名詞術(shù)語進(jìn)行規(guī)范,羅列重要的詞和短語,并將其歸類。還要確定概念間結(jié)構(gòu),定義類別和等級結(jié)構(gòu)。
4)本體生成,采用SFCA算法,對概念之間的關(guān)系進(jìn)行分析,自動生成局部本體,再采用PROMPT算法,把局部本體合并,生成全局本體,存放在本體管理器中。
5)本體編碼,利用形式化描述語言對“概念化”的電子政務(wù)領(lǐng)域本體進(jìn)行編碼,使機(jī)器易于處理,盡量將相關(guān)領(lǐng)域已存在的本體集成到要構(gòu)建的政務(wù)領(lǐng)域本體中,既避免重復(fù)建設(shè),又可以形成領(lǐng)域內(nèi)共享的本體。
6)確認(rèn)、維護(hù)與評價。對電子政務(wù)領(lǐng)域本體按照一定的標(biāo)準(zhǔn)進(jìn)行確認(rèn)和評價,包括本體的清晰性、一致性、可擴(kuò)展性等;隨著電子政務(wù)領(lǐng)域知識的增加,本體要不斷更新、不斷進(jìn)化,增加本體概念,完善本體概念間的語義關(guān)系。
3.2電子政務(wù)公共數(shù)據(jù)平臺設(shè)計
電子政務(wù)公共數(shù)據(jù)平臺是在原有的各業(yè)務(wù)系統(tǒng)層面上搭建的一個高層應(yīng)用平臺,將各業(yè)務(wù)系統(tǒng)的異構(gòu)數(shù)據(jù)集成應(yīng)用,向下屏蔽各異構(gòu)信息源異構(gòu)性,向上提供數(shù)據(jù)集成基礎(chǔ)服務(wù),實現(xiàn)電子政務(wù)各應(yīng)用系統(tǒng)的數(shù)據(jù)共享和數(shù)據(jù)一致性,有效解決信息孤島問題,并在此基礎(chǔ)上實現(xiàn)規(guī)范的信息管理。設(shè)計基于本體的電子政務(wù)公共數(shù)據(jù)平臺,首先研究數(shù)據(jù)集成方法與本體技術(shù)及基于本體的語義集成,在此基礎(chǔ)上構(gòu)建公共數(shù)據(jù)平臺異構(gòu)數(shù)據(jù)庫集成框架,基于本體的異構(gòu)數(shù)據(jù)庫集成框架是設(shè)計公共數(shù)據(jù)平臺的基礎(chǔ)。目前數(shù)據(jù)平臺的建設(shè)主要有3種模式:全局中心數(shù)據(jù)庫模式、數(shù)據(jù)交換模式和共享數(shù)據(jù)中心模式。全局中心數(shù)據(jù)庫模式:建立一個數(shù)據(jù)中心,各應(yīng)用系統(tǒng)直接應(yīng)用于該數(shù)據(jù)中心之上,逐步取消原有業(yè)務(wù)數(shù)據(jù)系統(tǒng);數(shù)據(jù)交換模式:保持原有業(yè)務(wù)數(shù)據(jù)系統(tǒng),用數(shù)據(jù)緩存的模式進(jìn)行各業(yè)務(wù)數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)轉(zhuǎn)換和抽?。还蚕頂?shù)據(jù)中心模式:原有各業(yè)務(wù)數(shù)據(jù)庫保持不變,通過觸發(fā)器或者開發(fā)數(shù)據(jù)接口抽取需要共享的數(shù)據(jù),并且進(jìn)行轉(zhuǎn)換,匯總生成共享數(shù)據(jù)庫。上面的模式各有所長,但也存在不足,這里提出一種統(tǒng)一公共數(shù)據(jù)平臺模式,即制定統(tǒng)一信息編碼標(biāo)準(zhǔn),從而建立核心數(shù)據(jù)庫,存放最基本的公共信息,保留原各業(yè)務(wù)數(shù)據(jù)系統(tǒng)。這樣公有數(shù)據(jù)存放在中心數(shù)據(jù)庫,一方面可以實現(xiàn)資源的最大共享,另一方面各專業(yè)數(shù)據(jù)仍保留在原系統(tǒng)中,保證了數(shù)據(jù)獨立和安全。平臺結(jié)構(gòu)如圖3所示。公共數(shù)據(jù)平臺建立在中心數(shù)據(jù)庫之上,中心數(shù)據(jù)庫中存放的公共數(shù)據(jù)可以通過數(shù)據(jù)交換、數(shù)據(jù)同步的方式更新到各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中,數(shù)據(jù)的同步更新采用事件驅(qū)動方式,通過觸發(fā)器和AGENT同步模塊來更新數(shù)據(jù)。AGENT同步模塊基于本體模型之上,本體模型層對元數(shù)據(jù)進(jìn)行概念化,按照本體規(guī)則進(jìn)行抽象處理和語義處理。
4結(jié)論
筆者重點介紹了基于本體的電子政務(wù)公共數(shù)據(jù)平臺的設(shè)計,首先介紹了本體的概念及電子政務(wù)中本體的抽取,接著建立了本體模型,在此基礎(chǔ)上構(gòu)建了基于本體的電子政務(wù)數(shù)據(jù)平臺架構(gòu),然后重點介紹了電子政務(wù)本體的構(gòu)建方法步驟和公共數(shù)據(jù)平臺的設(shè)計,最后建立了電子政務(wù)公共數(shù)據(jù)平臺的統(tǒng)一身份認(rèn)證機(jī)制?;诒倔w的電子政務(wù)數(shù)據(jù)平臺能夠較好地解決政務(wù)系統(tǒng)中的信息孤島問題,實現(xiàn)數(shù)據(jù)的統(tǒng)一和共享。但是,有些地方的研究深度還不夠,例如電子政務(wù)中語法規(guī)則的制定還不全面,本體抽取的相關(guān)度還需要進(jìn)一步提高。