高新技術(shù)制造業(yè)的模型研究
時(shí)間:2022-03-22 10:52:29
導(dǎo)語:高新技術(shù)制造業(yè)的模型研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
高新技術(shù)制造業(yè)企業(yè)知識(shí)表達(dá)模型
其建模需求主要表現(xiàn)在以下幾個(gè)方面:(1)知識(shí)層次性。分析知識(shí)的種類及構(gòu)成,利用本體表達(dá)不同類型的知識(shí),利用不同層次的知識(shí)完成不同的功能,通過相互之間的關(guān)聯(lián),體現(xiàn)知識(shí)模型的完備性。(2)語義一致性。高新技術(shù)制造業(yè)企業(yè)的業(yè)務(wù)過程與產(chǎn)品構(gòu)成,需要在企業(yè)內(nèi)部與產(chǎn)業(yè)鏈配套企業(yè)間保持語義的一致性,需要構(gòu)建在某一高新技術(shù)制造業(yè)領(lǐng)域內(nèi)部公認(rèn)的、具有確定語義的企業(yè)領(lǐng)域本體,包括業(yè)務(wù)過程、設(shè)計(jì)術(shù)語和產(chǎn)品相關(guān)知識(shí)等。(3)標(biāo)準(zhǔn)化與模塊化知識(shí)表達(dá)。高新技術(shù)制造業(yè)企業(yè)在設(shè)計(jì)生產(chǎn)及產(chǎn)業(yè)合作中存在大量的標(biāo)準(zhǔn)化知識(shí)與模塊化知識(shí),需要借助知識(shí)表達(dá)模型對(duì)其進(jìn)行規(guī)范化管理,以促進(jìn)與企業(yè)合作過程中的知識(shí)共享與集成。(4)降低知識(shí)本體構(gòu)建難度。當(dāng)前,文獻(xiàn)研究中所涉及的知識(shí)管理系統(tǒng)的運(yùn)行與維護(hù),大多需要知識(shí)管理專家對(duì)知識(shí)管理的全程參與,需要員工和知識(shí)用戶對(duì)知識(shí)管理及其技術(shù)有深入了解。然而在實(shí)踐中,企業(yè)知識(shí)管理的實(shí)施往往缺乏相關(guān)的專業(yè)人才,因此需要提高知識(shí)本體構(gòu)建與維護(hù)的自動(dòng)化程度,降低知識(shí)維護(hù)的難度。(5)知識(shí)組織結(jié)構(gòu)清晰。高新技術(shù)制造業(yè)企業(yè)涉及眾多領(lǐng)域,在各自產(chǎn)業(yè)領(lǐng)域內(nèi)所處理的知識(shí)也各不相同。知識(shí)組織結(jié)構(gòu)是理解與共享知識(shí)的基礎(chǔ),因此構(gòu)建在制造業(yè)與高新產(chǎn)業(yè)內(nèi)公認(rèn)的、清晰的知識(shí)組織結(jié)構(gòu)至關(guān)重要。高新技術(shù)制造業(yè)企業(yè)的知識(shí)管理復(fù)雜而豐富,如何規(guī)范化地描述和表達(dá)知識(shí)及其關(guān)系結(jié)構(gòu),是學(xué)者一直關(guān)注的熱點(diǎn)。在將面向人類處理的語義表達(dá)轉(zhuǎn)向面向機(jī)器處理的形式化語義的過程中,必須消除人類語義的模糊性,并且構(gòu)建支持自動(dòng)推理的、明確的、形式化和規(guī)范化的語義關(guān)系。分析知識(shí)的形式化構(gòu)成是構(gòu)建知識(shí)表達(dá)模型的重要基礎(chǔ),可將企業(yè)知識(shí)模式的形式化表達(dá)式描述如下:K=F+R+C其中,K為知識(shí)(Knowledge),代表某一項(xiàng)知識(shí)。F(Fact)為事實(shí)知識(shí),是指人們對(duì)客觀世界事物及其狀態(tài)、屬性、特征和關(guān)系的事實(shí)描述。R為規(guī)則(Rules),即對(duì)事實(shí)的一種規(guī)范約束或表達(dá)在前提事實(shí)與結(jié)論事實(shí)之間的一種因果關(guān)系。C為概念(Concepts),是指事實(shí)中基本術(shù)語(概念)的含義及其語義規(guī)則說明等。模型認(rèn)為,一項(xiàng)知識(shí)并不是單獨(dú)孤立的,而是由對(duì)現(xiàn)實(shí)世界的觀察、對(duì)概念的抽象理解以及對(duì)關(guān)系與規(guī)則的推演而構(gòu)成的。由上述描述可知,知識(shí)具有層次性,一般包括事實(shí)、概念、規(guī)則和啟發(fā)4個(gè)層次,其中啟發(fā)知識(shí)是關(guān)于規(guī)則的知識(shí),是對(duì)前三者的綜合,利用啟發(fā)知識(shí)可得到問題的解[19]。其意義在于,將知識(shí)轉(zhuǎn)化為面向計(jì)算機(jī)處理的表示形式,需要把上述事實(shí)知識(shí)、規(guī)則知識(shí)和概念知識(shí)等本體表達(dá)出來。顯然,單一類型的本體不能完成,需要運(yùn)用不同類型的本體表達(dá)并通過不同本體的相互結(jié)合才能形成知識(shí)的表達(dá)模型,進(jìn)而表示與存儲(chǔ)知識(shí)。綜上所述,參考Perez和Benjamins等歸納出的10種本體及其它企業(yè)知識(shí)建模的研究成果,本文提出面向高新技術(shù)制造業(yè)企業(yè)知識(shí)管理的多層次本體知識(shí)表達(dá)模型(見圖1)。模型架構(gòu)整體分為3個(gè)層次:知識(shí)表示層、概念規(guī)則層、知識(shí)組織層。按照知識(shí)模型的分類,不同層次表達(dá)的知識(shí)類型也各不相同。其中,知識(shí)層的知識(shí)本體主要表達(dá)事實(shí)知識(shí),領(lǐng)域知識(shí)層的知識(shí)本體主要表達(dá)概念與規(guī)則知識(shí),而知識(shí)組織層的產(chǎn)品生命周期知識(shí)地圖主要明確知識(shí)架構(gòu)與知識(shí)集成。多層次本體知識(shí)表達(dá)模型體現(xiàn)了知識(shí)層次性與不同本體的結(jié)構(gòu)關(guān)系,能夠滿足高新技術(shù)制造業(yè)企業(yè)知識(shí)表達(dá)的需求。不同層次的本體根據(jù)知識(shí)表達(dá)需求分別描述事實(shí)知識(shí)、概念關(guān)系、規(guī)則知識(shí)、知識(shí)組織結(jié)構(gòu)以及相互之間所形成的概念或語義映射等,如知識(shí)本體在表示知識(shí)的過程中所使用的概念術(shù)語,通過概念映射到領(lǐng)域知識(shí),再利用領(lǐng)域知識(shí)對(duì)概念及其關(guān)系進(jìn)行描述,從而可以利用推理規(guī)則進(jìn)行知識(shí)推理,或者利用知識(shí)地圖集成到整體的知識(shí)框架中。知識(shí)模板針對(duì)高新技術(shù)制造業(yè)企業(yè)標(biāo)準(zhǔn)化與模塊化知識(shí)的需求,對(duì)標(biāo)準(zhǔn)化和規(guī)范化知識(shí)利用領(lǐng)域的知識(shí)概念構(gòu)建知識(shí)模板,在產(chǎn)生相應(yīng)知識(shí)的過程中,按照知識(shí)模板結(jié)構(gòu)建構(gòu)新的知識(shí)本體,從而在相同類型的知識(shí)本體間形成統(tǒng)一的知識(shí)結(jié)構(gòu),以便能夠更好地為理解和共享知識(shí)提供技術(shù)支撐。
知識(shí)本體構(gòu)建
在現(xiàn)實(shí)應(yīng)用中,企業(yè)所處理的知識(shí)來源種類豐富、格式繁多,且存在多種形式,但在具體處理知識(shí)表達(dá)來源時(shí),可將其歸納為文本和非文本兩類。其中文本是一種半結(jié)構(gòu)化的知識(shí)來源,是企業(yè)目前重要的知識(shí)存儲(chǔ)形式,它主要包括企業(yè)資料、報(bào)告、總結(jié)、說明和以網(wǎng)頁形式存在的知識(shí);非文本知識(shí)來源既包括結(jié)構(gòu)化的產(chǎn)品數(shù)據(jù)和報(bào)表,也包括非結(jié)構(gòu)化的圖紙、流程和音視頻。本本主要構(gòu)建具有可擴(kuò)展性的知識(shí)本體的定義,并針對(duì)文本和非文本源的特點(diǎn),分析知識(shí)本體的構(gòu)建方式。使用文本形式保存的知識(shí)是企業(yè)中最常見的一種知識(shí)保存形式,但在其應(yīng)用中因主要依靠關(guān)鍵字或分類方式進(jìn)行檢索和共享而存在諸多弊端?;诒倔w的知識(shí)管理系統(tǒng)需要抽取文本知識(shí)的特征信息,將其自動(dòng)或半自動(dòng)地轉(zhuǎn)化為符合前述知識(shí)本體定義的知識(shí)本體,從而增強(qiáng)知識(shí)管理的語義理解能力和知識(shí)應(yīng)用能力。一般而言,文本保存的大都是半結(jié)構(gòu)化的文本,而半結(jié)構(gòu)化的文本內(nèi)容和結(jié)構(gòu)是混在一起的,通常結(jié)構(gòu)不固定且沒有清晰的描述。根據(jù)文本的一般表現(xiàn)形式,可將文本的特征信息歸納為以下3類:①文件特征。文本文件屬性可以提供的信息包括文件的創(chuàng)建時(shí)間、最后修改時(shí)間、創(chuàng)建者和文件路徑等;②形式特征。包括文本的長度、顯示字體的大小、顏色、位置和特殊標(biāo)識(shí)等;③結(jié)構(gòu)特征。包括分段、并列、標(biāo)題級(jí)別、表格與圖表的特殊表達(dá)結(jié)構(gòu)等。因此,基于文本的知識(shí)抽取主要包括:①文本屬性的抽取,如文本的創(chuàng)建時(shí)間、創(chuàng)建者、版本號(hào)、權(quán)限、修改時(shí)間和次數(shù)等基本屬性信息;②本文內(nèi)容信息的抽取,如文本的標(biāo)題、作者、摘要和關(guān)鍵字等;③文本的語義信息抽取,如文檔分類和語義特征等。知識(shí)本體的構(gòu)建是從文本知識(shí)中抽取相應(yīng)的語義信息,并按照知識(shí)本體的定義,采用本體描述語言構(gòu)成本體文檔的過程??梢葬槍?duì)上述文本知識(shí)的特征,通過模式匹配自動(dòng)抽取部分語義信息,不能抽取的部分語義信息需要由知識(shí)管理員工來補(bǔ)全。通過模式匹配抽取信息的過程主要包括文本的預(yù)處理、文本截取和模板匹配等(見圖2)。圖2本文知識(shí)語義抽取過程(1)文檔預(yù)處理。文檔格式不同不利于信息的處理,因此需要對(duì)文檔進(jìn)行預(yù)處理并提取其中的文本信息和格式信息等。XML文檔具備同時(shí)存儲(chǔ)各種信息的能力,其結(jié)構(gòu)化的形式也有利于信息處理。因此,首先將企業(yè)文檔轉(zhuǎn)化成XML文檔,這一過程存在諸多轉(zhuǎn)換工具和第三方插件,不僅能保留文檔文本,也能保存段落和字體等信息。然后,利用文本截取工具,將文本分割成多個(gè)子字符串(包含文本特征)的集合,字符串的分割由段落、格式、標(biāo)點(diǎn)和字體等因素進(jìn)行設(shè)定,上述過程使文檔變?yōu)橐粋€(gè)字符串的集合,可將其定義為檔的字符串集合T通過li所包含的匹配模式h1i,h2i,…,hni進(jìn)行匹配,并根據(jù)上述計(jì)算公式計(jì)算li的權(quán)重,然后抽取下一個(gè)文檔匹配模板li+1,循環(huán)計(jì)算匹配模板的權(quán)重,選擇權(quán)重最高者為文檔的匹配模板,并保存匹配到的文本信息。按照知識(shí)本體的定義,采用OWL語言進(jìn)行描述,形成本體文檔。企業(yè)文檔匹配模板是一個(gè)不斷積累和完善的過程,文檔匹配庫的復(fù)雜程度與企業(yè)文檔信息格式的多樣性有關(guān)。非文本知識(shí)來源既包括結(jié)構(gòu)化的產(chǎn)品數(shù)據(jù)和報(bào)表,也包括非結(jié)構(gòu)化的圖紙、流程和音視頻等數(shù)據(jù)。目前,企業(yè)對(duì)于非文本知識(shí)的保存和利用方式主要有以下幾種:①利用關(guān)系數(shù)據(jù)庫保存產(chǎn)品數(shù)據(jù),在使用中采用數(shù)據(jù)庫管理系統(tǒng)對(duì)上述數(shù)據(jù)進(jìn)行查詢和適用;②利用添加文本描述的方式,為設(shè)計(jì)圖紙、流程圖表和各種音視頻文件增加自然語言描述;③利用文檔分類方式,將非文本文檔的知識(shí)特征通過目錄層級(jí)表達(dá)出來,并在使用過程中通過目錄(知識(shí)特征)從大到小縮小語義范圍,以便進(jìn)行知識(shí)檢索。根據(jù)高新技術(shù)制造業(yè)企業(yè)知識(shí)管理實(shí)踐的需求,本文將非文本知識(shí)對(duì)象分為兩類:一類是非結(jié)構(gòu)化的知識(shí),主要指不具有固定組成結(jié)構(gòu)的知識(shí),如設(shè)計(jì)圖紙、生產(chǎn)流程和音視頻等;另一類是結(jié)構(gòu)化的知識(shí),主要指擁有固定組織結(jié)構(gòu)的企業(yè)非文本知識(shí),如產(chǎn)品數(shù)據(jù)和報(bào)表等。非文本知識(shí)的共同特點(diǎn)包括:①一般以獨(dú)立的文檔形式存在,少數(shù)以網(wǎng)頁形式表示;②從可抽取的語義信息來看,包括文檔的基本屬性,如文件名、目錄信息和創(chuàng)建時(shí)間等;③非結(jié)構(gòu)化的知識(shí)結(jié)構(gòu)特征不明顯,而結(jié)構(gòu)化的知識(shí)結(jié)構(gòu)特征明顯,需要從中提取相應(yīng)的語義信息。與前述的文本信息不同,非文本知識(shí)的語義信息自動(dòng)提取應(yīng)用效果有限,因此可以在知識(shí)本體構(gòu)建或者知識(shí)應(yīng)用過程中借助人工算法不斷修正。由上述分析可知,非結(jié)構(gòu)化知識(shí)本體的構(gòu)建需要抽取的信息具體包含3類:①對(duì)文檔基本信息的抽取。因?yàn)榉墙Y(jié)構(gòu)化知識(shí)的主要存儲(chǔ)方式是文檔,因此可以通過文檔信息的讀取獲得文件名(標(biāo)題)、文檔創(chuàng)建/修改時(shí)間和創(chuàng)建者等信息;②對(duì)語義信息的抽取,如知識(shí)分類與領(lǐng)域本體映射的信息。因?yàn)闊o法利用文本分析和模式匹配等方式,所以效果難以保證,因而需要較多地依賴人工維護(hù);③對(duì)知識(shí)特征的提取,如對(duì)于采用網(wǎng)頁形式保存的信息,可以通過前述模式匹配的方法,獲取網(wǎng)頁的編輯時(shí)間、導(dǎo)航層次和網(wǎng)頁標(biāo)題。如果是帶有描述性的文字,也可以利用前述知識(shí)特征提取方式構(gòu)建知識(shí)特征向量;如果是僅以分類目錄形式保存的文檔,則可以通過讀取文件目錄體系,通過模式匹配方法抽取其中的知識(shí)特征,其基本流程見圖3。圖3非結(jié)構(gòu)化知識(shí)本體構(gòu)建主要流程為分析非結(jié)構(gòu)化的文件屬性并提取相應(yīng)信息,同時(shí)從目錄信息或文檔網(wǎng)頁描述信息中,按照上述方式提取知識(shí)特征。在提取知識(shí)特征向量的過程中,可以用自動(dòng)提取與人工提取相結(jié)合的方式。語義信息的加入主要依靠知識(shí)用戶從文檔中抽取和審核。上述3種獲取的語義信息按照知識(shí)本體的定義,采用本體描述語言進(jìn)行描述,并構(gòu)成知識(shí)本體文檔。與非結(jié)構(gòu)化知識(shí)構(gòu)建本體的方式類似,結(jié)構(gòu)化知識(shí)本體的構(gòu)建主要體現(xiàn)在兩個(gè)方面:①企業(yè)中結(jié)構(gòu)化信息的主要存儲(chǔ)方式是關(guān)系數(shù)據(jù)庫或者報(bào)表(也可以存儲(chǔ)到關(guān)系數(shù)據(jù)庫中)。對(duì)于關(guān)系數(shù)據(jù)庫而言,每一行都是一個(gè)實(shí)體,每一列都是實(shí)體中的一個(gè)屬性,每一行都是一個(gè)知識(shí)項(xiàng),每一列都是知識(shí)項(xiàng)擁有(Has)的屬性。因此,在結(jié)構(gòu)化知識(shí)本體的構(gòu)建過程中,需要識(shí)別和分析信息結(jié)構(gòu);②結(jié)構(gòu)化信息的知識(shí)特征根據(jù)信息來源的不同有不同的提取方式,從數(shù)據(jù)庫中提取的信息一般不存在層次目錄信息,可將提取到的屬性項(xiàng)作為知識(shí)特征的一部分。
本文主要研究符合高新技術(shù)制造業(yè)企業(yè)要求的知識(shí)表達(dá)方式,構(gòu)建了基于本體的知識(shí)表達(dá)模型。針對(duì)高新制造業(yè)企業(yè)的需求和知識(shí)特點(diǎn),分析了信息抽取與知識(shí)本體的兩種構(gòu)建方式:文本與非文本的知識(shí)本體構(gòu)建模式,為高新技術(shù)制造業(yè)企業(yè)的知識(shí)管理提供了理論借鑒。然而,知識(shí)本體并不是一成不變的,還需要不斷修正和完善,這將是未來研究應(yīng)進(jìn)一步關(guān)注的方向。
本文作者:鄭雙怡閆培寧工作單位:中南民族大學(xué)