自然語言處理范文
時間:2023-03-26 03:46:53
導(dǎo)語:如何才能寫好一篇自然語言處理,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:人工智能;自然語言處理;計算模型;分析模型;概念統(tǒng)計模型;混合模型;不適定問題
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
編者按:Internet時代對中文信息處理提出了更多、更新的需求,同時,致力于中文信息處理研究的隊伍也在不斷地壯大。在這支隊伍中,既有在這個領(lǐng)域里長期辛勤耕耘的老兵,也有初出茅廬的新人。為了使研究者們得以在更高的起點上開展研究,我們特向該領(lǐng)域(或相關(guān)領(lǐng)域)的資深專家和學(xué)者約稿,這些稿件或是多年研究成果的厚實積累以及發(fā)軔于斯的深刻思考,或是具有前瞻性的前沿課題探索,或是相關(guān)研究工作系統(tǒng)而深入的綜述。我們設(shè)立了一個約稿專欄,陸續(xù)刊登此類稿件,以饗讀者。本期刊登其中的2篇,分別是張鈸院士的“自然語言處理的計算模型”、黃昌寧教授等的“中文分詞十年回顧”。相信這些論文對讀者全面、深刻地了解乃至理解相關(guān)學(xué)術(shù)問題,一定會大有裨益。
1 引言
本文討論的“自然語言處理”都是指利用電子計算機對自然語言的各級語言單位進(jìn)行的自動處理,包括對字、詞、句、篇章等進(jìn)行轉(zhuǎn)換、分析與理解等等[1]。與電子計算機的發(fā)展歷史相比,自然語言處理算是一門很“老”的學(xué)科了。電子計算機剛剛問世,計算機科學(xué)家就對語言的機器處理備感興趣,不久語言學(xué)、心理學(xué)、認(rèn)知科學(xué)、人工智能等不同領(lǐng)域的學(xué)者也紛紛參入他們的研究隊伍,一門新的研究領(lǐng)域――自然語言處理從此誕生。翻開它的歷史,人們會發(fā)現(xiàn),自然語言處理的發(fā)展道路并不平坦,研究工作跌宕起伏,時而樂觀,時而悲觀。人們對自然語言自動處理的困難通常估計不足,對它發(fā)展的前景往往過于樂觀??墒牵瑢嵺`卻一再表明事實并非如此,研究工作總是困難重重,進(jìn)展緩慢,于是引來了悲觀情緒。奇怪的是,這種樂觀與悲觀情緒的交替、循環(huán)在半個多世紀(jì)自然語言處理的發(fā)展歷史上卻不斷地重演著。
早在二次世界大戰(zhàn)期間,現(xiàn)代電子計算機還處于襁褓之中,利用計算機來處理自然語言的想法就已經(jīng)出現(xiàn)了。當(dāng)時人們從破譯軍事密碼的工作中得到啟示,以為不同的語言(中文,英文,還有其他語種)只不過是對“同一語義”的不同編碼而已。于是想當(dāng)然地認(rèn)為,采用譯碼技術(shù)“破譯”(理解)這些“碼”(語言)應(yīng)該不成問題。結(jié)果卻大大出乎人們的意料,自然語言自動處理居然比破譯密電碼困難得多!
1956年人工智能誕生之時,該領(lǐng)域的創(chuàng)始人就把計算機國際象棋(Computer Chess)和機器翻譯(Machine Translation)作為兩個標(biāo)志性的任務(wù)提出來,認(rèn)為只要計算機的象棋程序打敗國際象棋世界冠軍,機器翻譯程序達(dá)到人類翻譯的水平,就可以宣告人工智能的勝利。他們對此充滿信心,以為憑借計算機的計算能力,將會在很短的時間里達(dá)到預(yù)定的目標(biāo)。如認(rèn)知心理學(xué)家H.Simon認(rèn)為十年內(nèi)這兩項目標(biāo)都可以實現(xiàn)。大家知道,實際上,直到1997年,即40年(不是10年)以后,IBM的國際象棋程序――深藍(lán)(Deep Blue)打敗國際象棋世界冠軍卡斯帕羅夫,才宣告第一項任務(wù)的勝利完成。而機器翻譯呢?至今依然是一項十分困難的任務(wù)!這些過分樂觀的估計至今一直成為人們質(zhì)疑人工智能的一個口實和笑柄。人們一再低估自然語言處理的困難。
然而,跌宕起伏的歷史也正是自然語言處理研究工作的魅力所在,它吸引著千千萬萬的研究者去研究自然語言的復(fù)雜性,探索其中的原因,尋求機器自動處理的方法。至今大多數(shù)研究者主要從語言本身的復(fù)雜性來探討這些問題,找到了其中的許多原因[2~7],其中包括:存在于各級語言單位(字、詞、句、篇章等)的局部歧義性(Local Ambiguity),上下文的影響(Contextual Dependency),語法與語義的相互依賴關(guān)系,語言環(huán)境,知識背景等等。毫無疑問,語言處理的復(fù)雜性來源于語言本身的復(fù)雜性,因此上述研究成果對于進(jìn)一步理解自然語言的特點,以及改進(jìn)機器處理的性能,都起過很好的作用。不過,在自然語言自動處理過程中,計算機處理的直接對象并不是實際的自然語言,而是它的計算模型,因此要真正理解自然語言自動處理的問題,并找出解決的辦法,還需要從語言處理建模的角度來探討這些問題,可惜目前這方面的探討還不多,本文將著重討論它。
2 不適定問題
現(xiàn)實的自然語言系統(tǒng)N(Natural Language)十分復(fù)雜,不可能作為計算機的直接處理對象。為了使它成為可處理的對象,首先需要根據(jù)處理的要求,把它抽象為一個問題P(Problem),比如P是自然語言N中的分詞問題。然后根據(jù)給定的輸入、輸出集(I,O),以及問題P,建立一個數(shù)學(xué)模型M(Mod―e1),以及與其相關(guān)的有效算法A(Algorithm)。M與A組成了問題P的計算模型F(ComputationalModel)。顯然,同一個模型M,可以采用不同的算法,因此計算模型F取決于采用的數(shù)學(xué)模型M,M是模型的本質(zhì),而算法只是實現(xiàn)的手段。有了計算模型F,在給定的輸入集(I)下,就可以計算出輸出O,因此O也可稱為F的解。或者說,通過計算模型F,我們對自然語言中的P問題進(jìn)行處理(如圖1所示)。因此研究自然語言自動處理的關(guān)鍵是研究計算模型F。
給定計算模型F(I,O),其中I是輸入集,即一組數(shù)據(jù),O是輸出集,通常由語義空間的元素組成。以漢語分詞為例,輸入一個句子“南京市長江大橋”,對于計算機來講,這個句子只不過是由“O”和“1”組成的機器碼,即一組數(shù)據(jù)。我們要求的輸出是:按照語義切分出句子中的詞。因此模型F的作用就是按語義對數(shù)據(jù)I進(jìn)行分類,分類的結(jié)果就是輸出O??梢哉f,F(xiàn)是數(shù)據(jù)空間I到語義空間O的映射(Mapping),即映射F:IO。一切自然語言的自動處理問題P,都可以抽象為這樣一個映射問題。于是我們把所有的自然語言處理(分詞、詞性標(biāo)注、詞法分析、語言理解等等)歸結(jié)為一個普適的科學(xué)問題一映射問題F,從而便于進(jìn)行理論研究。
不幸的是,由自然語言處理抽象出來的計算模型一映射F:I0,由于自然語言的復(fù)雜性,往往是一個不適定(Ill-posed)的逆問題,這就使得自然語言處理問題的求解十分困難。本來,對于一個問題解的存在性,唯一性,以及穩(wěn)定性中任何一條不滿足,就算是難解的不適定問題,而自然語言處理的計算模型往往這三個條件都不滿足,因此是一個強不適定問題(Strongly IlI-posed Problems)。仍以漢語 “南京市長江大橋”的分詞為例,首先它的解不唯一,至少有兩種可能的分詞結(jié)果:“南京市|長江|大橋”,“南京|市長|江大橋”。解的存在性和不穩(wěn)定性也十分明顯。如果改動上面句中的某個字,比如,將“京”字改為“景”字,根據(jù)“分詞”的定義:“依語義(詞義)對數(shù)據(jù)進(jìn)行切分”,因為無論是“南景”還是“南景市”這兩個詞都不存在,因此無法從詞義上對該句子進(jìn)行切分,問題也就變成無解的了。目前已有許多關(guān)于不適定問題求解理論與方法的研究成果[8,9],自然語言處理完全可以借鑒這些理論來探索新的解決方案。不適定問題的求解方法[8],簡單地講,就是加入適當(dāng)?shù)募s束(Constraint)條件,使問題的一部分變成適定的(Well-Posed)。約束條件可以加到輸入集、輸出集、模型本身等。比如,著名的求解不適定問題的正則化方法(Regularization),就是對輸出集(解集)進(jìn)行約束,把它限制在具有穩(wěn)定解的范圍之內(nèi),從而使問題在這個范圍內(nèi)變成適定的。本文將從這個角度研究自然語言處理的相關(guān)計算模型,探索一條新的研究途徑。
3 分析模型
語言學(xué)家N.Chomsky認(rèn)為人類生成合乎文法的語句的能力是生來具有的,為此他提出一種稱為生成句法(Generative Grammar)的理論[10],這個理論對人類語句的生成做了如下的解釋,即人們通過一組有限的規(guī)則作用于一個有限的詞匯上,從而本能地生成無限的可接受的、合乎文法的句子(Ac-ceptable Grammatical Sentences)。這個理論的提出馬上得到語言學(xué)界的廣泛興趣,并對自然語言自動處理產(chǎn)生深刻的影響。這個理論表明在自然語言的各級語言單位中都存在一定的內(nèi)在規(guī)律性,因此依據(jù)這種規(guī)律性,就可以為語言處理建立一種計算模型,比如基于規(guī)則(Rule-Based)的模型。由此可見,一切理性分析的語言計算模型(Analytical Mod―el)都是建立在這種理論假設(shè)之上。
如果對輸入集加以適當(dāng)?shù)南拗?,比如假定有限的輸入集,理性分析模型一般可以滿足適定性的條件,因此這種模型對于解決較小規(guī)模的自然語言處理問題具有一定的效果??墒牵捎谡Z言的輸入集(I)是無限的,這種通過有限規(guī)則集,特別是少量規(guī)則集的建模方法,顯然很難滿足自然語言處理的全部需要。因此語言的理性分析模型面對大規(guī)模的真實文本時,都難以通過“可擴展性”(Scalability)的考驗。因為當(dāng)問題的規(guī)模擴大之后,理性分析模型在大型的輸入集上,難以使問題的全部解達(dá)到適定性的要求。這也就是理性分析模型的局限性所在。
4 概率統(tǒng)計模型
Chomsky關(guān)于語言獲取(Language Acquisi-tion)的理論也受到一部分學(xué)者的質(zhì)疑,他們認(rèn)為人類自然語言與人造的形式語言不同,并不遵循嚴(yán)格的規(guī)律,因此語言理性主義的分析方法難以克服語言復(fù)雜性帶來的困難。與Chomsky理論相反,行為心理學(xué)家B.F.Skinner[11]提出另一種語言理論。這個理論認(rèn)為人類語言能力的獲得來自于學(xué)習(xí),語言是通過不斷地實踐而“約定俗成”的結(jié)果。這就是自然語言形成的經(jīng)驗主義解釋。概率統(tǒng)計模型(Statistical Model)[12]屬于經(jīng)驗主義的語言計算模型。概率統(tǒng)計建模采用從數(shù)據(jù)中學(xué)習(xí)(LearningFrom Data)的方法,至今取得很大的成功,目前已成為自然語言處理中占統(tǒng)治地位的建模方法。概率模型的成功應(yīng)該歸功于網(wǎng)絡(luò)時代信息的數(shù)字化和網(wǎng)絡(luò)化,正因為這些變化,為我們帶來了取之不盡、用之不竭的數(shù)據(jù)。“數(shù)據(jù)驅(qū)動”(Data Driven)法應(yīng)運而生,正是這種新的研究方法促成了當(dāng)今以概率建模為代表的經(jīng)驗主義方法的繁榮與發(fā)展。比如,目前流行的基于語料庫(Corpus-Based)的語言處理方法就是一種典型的數(shù)據(jù)驅(qū)動方法。
但概率統(tǒng)計建模也不是無懈可擊的,面對大規(guī)模的真實文本,它面臨著許多挑戰(zhàn)。首先,語言的計算模型F:IO是不連續(xù)映射,根據(jù)統(tǒng)計學(xué)習(xí)理論[13],不難知道,通過學(xué)習(xí)與訓(xùn)練獲取不連續(xù)映射的困難很大,通常存在學(xué)習(xí)不收斂、學(xué)習(xí)誤差大、推廣能力弱等諸多問題。因此基于概率模型的大規(guī)模文本處理的結(jié)果通常準(zhǔn)確度受到一定的限制。其次,從建模的角度看,由于自然語言的層次結(jié)構(gòu),在各個層次的語言單位之間存在著大量的依存關(guān)系,特別是遠(yuǎn)距離的依存關(guān)系(Long-Distance Dependency),如上下文關(guān)系等。如果建模時,把這些可能的關(guān)系都考慮進(jìn)去,模型將會變得極其復(fù)雜而無法處理。但是語言計算模型的解通常是不穩(wěn)定的,任何一個未加考慮的微弱因素(例如,長距依存關(guān)系,以及其他小概率事件等)都可能引起解的巨大變化,從而帶來嚴(yán)重的錯誤,因此許多場合下,不能忽略微弱參數(shù)的影響,這就使概率建模方法陷入兩難的境地。最后,雖然網(wǎng)絡(luò)上的文本數(shù)據(jù)(生語料)幾乎是無限的,但帶有正確層次結(jié)構(gòu)標(biāo)注的數(shù)據(jù)依然匱乏,統(tǒng)計模型仍然面臨嚴(yán)重的“數(shù)據(jù)稀疏”問題。因此單純的概率模型也不能完全解決自然語言處理的自動化問題。
5 混合模型
以上討論使我們認(rèn)識到,無論理性的分析模型,還是經(jīng)驗的概率模型都不能解決語言自動處理的全部,特別是大規(guī)模的真實文本。其原因還需要從自然語言本身的特點去尋找,人類不僅利用自然語言表意,同時也用它來言情,一段語言中往往既有理性的思考,又有感情的流露,意中有情,情中有意,情景交融。因此自然語言處理既需要理性分析,也需要感性經(jīng)驗,二者互相補充。就是說,需要走理性主義與經(jīng)驗主義結(jié)合的道路,即混合模型(Hybrid Mo-del)的道路。目前已有許多研究工作試探混合模型的方法,已經(jīng)取得一些成果[14~17]。但困難依然存在,比如,感性經(jīng)驗的表達(dá)與運用就是其中關(guān)鍵之一,也就是說,如何考慮語感、語境和知識背景等問題。
在機器翻譯研究的初期(上個世紀(jì)60年代),美國人經(jīng)常舉以下的例子來說明機器翻譯任務(wù)的艱巨性。
英文的原句是:
(1)The spirit is willing but the flesh is weak.
(心有余而力不足)
經(jīng)機器翻譯成俄文之后(在文法分析、雙語詞典等支持下),再把它翻譯回英文,得到的結(jié)果如下:
(2)The Voltka is strong but the meat is rot-(伏特加酒是濃的,但肉卻腐爛了)
這也許只是一則笑話,可是它充分說明自然語言處理的困難所在。顯然,機器將句子(1)的意思翻譯錯了。但不幸的是,我們從中竟然找不出錯在何 處。因為(1)與(2)兩個句字的語法完全一樣,可見機器并沒有犯任何語法錯誤。從語義層面看,“spirit”(精神,烈性酒)譯成“Voltka”(伏特加酒)并無錯誤,同樣,“flesh”(肉體,肉)譯成“meat”(肉)等等也并沒有犯語義上的錯誤。如果錯在何處不容易找到,能否找出錯誤來自何處?的確,詞的多義性是錯誤的始作俑者。可是問題并沒有因此解決,進(jìn)一步的問題是,如何消解這些歧義,找到正確的答案?對此我們似乎無計可施。因為任何的理性分析都難以糾正上述錯誤,唯一有效的解決辦法,似乎只能直接“告訴”機器,它就是“心有余而力不足”,換句話說,這是約定俗成,沒有什么理由可講。說明這里需要的是感性體驗,而非理性分析。其實,當(dāng)我們把一個文件輸進(jìn)計算機,文件里描繪的如果是一幅鄉(xiāng)間的景色,講述的是一段男女的情感故事,機器如何“看懂”它,如何對它進(jìn)行處理?顯然,要解決這類問題,機器除具備理性的分析能力之外,更重要還要有豐富的感性經(jīng)驗與知識。
機器是否可以具有感性經(jīng)驗,又如何得到這種體驗?這是人工智能研究的重要課題,至今已經(jīng)取得一些成果。以計算機國際象棋程序為例,其實,從理性分析的角度看,計算機分析棋局的能力早已超過人類,但是長期以來計算機象棋程序一直無法打敗人類象棋大師。其中主要的原因是,人類具有“棋感”和下棋的經(jīng)驗,而計算機沒有。IBM的象棋程序所以能夠最后戰(zhàn)勝人類高手,是因為同時在以上兩個方面下了功夫,采取了相關(guān)的措施。一方面,通過各種渠道,提高機器的計算速度,使它在下棋過程中,可以往前預(yù)測10―15步,而象棋大師一般只能預(yù)測3―5步,機器的分析能力遠(yuǎn)超過人類棋手。另一方面,為了彌補機器在“棋感”與下棋經(jīng)驗方面的不足,在IBM機器中存儲了大量的下棋經(jīng)驗與知識,包括60多萬種的棋譜(以往的下棋經(jīng)驗),棋局的評價標(biāo)準(zhǔn)(啟發(fā)式的決策經(jīng)驗)等。
換句話講,需要依靠理性分析與感性經(jīng)驗的密切結(jié)合,但此項研究工作才剛剛開始,至今依然遠(yuǎn)未解決。
6 結(jié)論
一臺電子計算機不管性能多么的高,本質(zhì)上,都只是會計算“0”和“1”的機器。從計算的角度看,自然語言處理是一個強不適定問題,因此簡單的建模方法,無論是確定性的,還是不確定性的都無法解決其全部。根據(jù)不適定問題的求解原理,只有通過提供大量的“約束”(包括知識,經(jīng)驗等),才能使之成為適定性的、可解的問題。因此出路是,通過計算機科學(xué)、語言學(xué)、心理學(xué)、認(rèn)知科學(xué)和人工智能等多學(xué)科的通力合作,將人類認(rèn)知的威力與計算機的計算能力結(jié)合起來,才可能提供豐富的“約束”,從而解決自然語言處理的難題。
收稿日期:2007-03-01定稿日期:2007-03-01
作者簡介:張鈸(1935―),男,中國科學(xué)院院士,主要研究方向為人工智能。
參考文獻(xiàn):
[1]王曉龍,關(guān)毅,等.計算機自然語言處理[M].北京:清 華大學(xué)出版社,2005.
[2]Gibson,E.,Linguistic complexity:Locality 0f syntac― tic dependencies[J].Cognition,1998,68:1-76.
[3]Daniel Grodner,Edward Gibson and Duane Watson.The influence of contextual contrast on syntactic pro-cesslng:evidence for strong-interaction in sentencecomprehension[J].Cognition 2005,95:275―296.
[4]Silvia Gennari and David Poeppel.Processing corre―lates of lexical semantc ccomplexity[J].Cognition 2003,89:B27-B41.
[5]Tessa Warren and Edward Gibson.The influence of referential processing 0n sentence complexity[J].Cognition 2002,85:79-112.
[6]Gerry Ahmann,Mark Steedman.Interaction with context during human sentence processing[J].Cogni―tion 1988,30:191-238.
[7]Douglas Roland,Jeffrey L.Elman and Victor s.Fer-relra.Why is that?Structural prediction and ambiguity resolution in a very large corpus of English sentences[J].Cognition 2006,98:245-272.
[8]Tikhonv,A.N.,Arsenin,V.Y..Solution of III―posed problems[M].New York:Winston/Wiley 1977.
[9]Bakushinsky,A.,Goncharsky,A.Ill-posed prob―lems:Theory and Applications[M].Dordrecht/Bos-ton/London:Kluwer Academic Publishers,1994.
[10]Chomsky,N..Syntactic structures[M].The Hague:Mouton,1957.
[11]Skinner,B.F.,Verbal Learning[M].New York:Appleton-Century-Crofts,1957.
[12]Christopher D.Manning,Hinrich Schfitze.Founda―tions of Statistical Natural Language Processing[M].Cambridge,Massachusetts:The MIT Press 1999.
[13]Vladamir N.Vapnik,Statistical Learning Theory[M].New York:John Wiley&Sons,Inc.,1998.
[14]Aue,Anthony,Arul Menezes,Robert Moore,et aL Statistical Machine Translation Using Labeled Se―mantlc Dependency Graphs[A].In:Proceedings of the 10th International Conference on Theoretical and Methodological Issues in Machine Translation[c].Baltimore。2004.
[15]Pinkham,J,and M.Corston-Oliver,Adding Domain Specificity to an MT System[A].In:Proceedings 0f the Workshop on Data-driven Machine Translation at 39th Annual Meeting of the Association for Computa―tional Linguistics[C].Toulouse,F(xiàn)rance,2001,103-110.
篇2
《統(tǒng)計自然語言處理》是宗成慶研究員在為中國科學(xué)院研究生院講授“自然語言理解”課程時使用的講義的基礎(chǔ)上編寫完成的,歷時三年多。該書全面系統(tǒng)地介紹了自然語言處理的基本概念、理論方法和最新進(jìn)展,尤其是近年來國際流行的基于統(tǒng)計機器學(xué)習(xí)的自然語言處理方法,對近年來國內(nèi)外一些經(jīng)典的論文,包括國際計算語言學(xué)年會(ACL)的最佳論文,給予了詳細(xì)介紹。作者在該書中充分利用已取得的實驗結(jié)果闡釋統(tǒng)計方法的基本理念,并給出了自己的理解和評述,提倡多種方法兼收并蓄。對很多專著中已有詳細(xì)闡述的經(jīng)典算法,該書沒有多述,只是簡單地提及或給出參考文獻(xiàn),避免了與其他專著在內(nèi)容上過多地重復(fù)。
全書內(nèi)容包括15章:第1章為緒論,介紹自然語言處理的基本概念、研究內(nèi)容、面臨的困難和研究現(xiàn)狀;第2章簡要介紹自然語言處理中常用的基礎(chǔ)知識,包括概率論、信息論、支持向量機等基本內(nèi)容;第3章介紹形式語言與自動機理論及其在自然語言處理中的應(yīng)用;第4章介紹語料庫技術(shù)、詞匯知識庫概念和語言知識庫建設(shè)中的本體論;第5章介紹語言模型的基本概念、性能評價方法、數(shù)據(jù)平滑方法和模型自適應(yīng)方法;第6章介紹隱馬爾可夫模型的基本概念、構(gòu)成和相關(guān)算法;第7章介紹漢語自動分詞中的基本問題、基本方法、命名實體識別與詞性標(biāo)注方法等;第8章介紹句法分析的基本概念、算法及評測方法等;第9章介紹詞義消歧的基本概念、策略和評測方法;第10章全面詳細(xì)地介紹機器翻譯的基本概念、統(tǒng)計機器翻譯模型和系統(tǒng)實現(xiàn)方法;第11章概述語音翻譯的基本概念、技術(shù)現(xiàn)狀和相關(guān)的國際學(xué)術(shù)組織;第12章至15章分別簡要介紹文本自動分類、信息檢索與問答系統(tǒng)、自動文摘和信息抽取、口語分析與人機對話系統(tǒng)等相關(guān)技術(shù)的基本方法和研究現(xiàn)狀。
在該書編寫過程中,從事自然語言處理研究的31位國內(nèi)外專家和10多位在讀博士生或碩士生校對了全書的內(nèi)容。全書引用參考文獻(xiàn)816篇。
篇3
關(guān)鍵詞:采空區(qū)“三帶”;氧濃度指標(biāo)法;二維曲線;精確擬合;等值線
中圖分類號:TD752.2文獻(xiàn)標(biāo)志碼:A
[WT]文章編號:1672-1098(2012)04-0075-04
作者簡介:張發(fā)亮(1985-),男,安徽馬鞍山人,在讀碩士,研究生方向:安全評價理論及技術(shù)。
隨著煤礦開采的機械化程度的提高,綜采放頂煤這種高產(chǎn)高效的工藝得到了廣泛的應(yīng)用[1]。但是,在煤礦產(chǎn)量提高的同時,采空區(qū)的遺煤、漏風(fēng)等危險因素給工作面的安全開采帶來了自燃發(fā)火的隱患。因此,對于采空區(qū)“三帶”的準(zhǔn)確預(yù)測和劃分將對預(yù)防煤礦采空區(qū)的自燃發(fā)火和保障工作面的安全開采有著非常重要的意義。
“三帶”的劃分指標(biāo)主要可分為3類,即以采空區(qū)內(nèi)的氧氣濃度、漏風(fēng)風(fēng)速和溫度分布來劃分[2-3]。目前,對于采空區(qū)“三帶”的劃分以氧濃度為標(biāo)準(zhǔn)的應(yīng)用方式最為普遍[4],根據(jù)煤炭科學(xué)總院重慶分院的試驗研究[5-6],不同氧化性的煤在供氧濃度大于等于5%~6%時,還可能在其著火溫度前激烈氧化升溫,有發(fā)火危險性,因此將氧化帶劃分的氧指標(biāo)定為18%~6%。在此前提下,試驗針對山西正株煤礦1511工作面進(jìn)行研究,運用Matlab軟件對束管檢測的試驗數(shù)據(jù)進(jìn)行剔除甄別[7-8],找出最佳的二維擬合曲線并進(jìn)行三維立體成像,最終確定精確的“三帶”范圍。
1采空區(qū)自燃“三帶”的現(xiàn)場試驗
1.1工作面概況
1511工作面回采走向長度為990m,傾斜長150m;主采15煤的煤層傾角8°~10°,煤層灰分8.58%,揮發(fā)分26.05%,屬于Ⅱ類易自燃煤層,煤厚最小5.12m,最大6.37m,平均5.74m。工作面采用長壁式綜合機械化低位放頂煤全部垮落采煤法。工作面采高確定為2.3m,根據(jù)煤層實際厚度,考慮留設(shè)一定厚度底煤以利于拉架,確定頂煤厚度為2.9m,故平均采放比為1∶1.26。
1.2測點布置
沿工作面傾向布置5個測點,且測點由下順槽進(jìn)風(fēng)巷向上順槽回風(fēng)巷依次為:1#測點,距進(jìn)風(fēng)巷外幫5m;2#測點,距1#測點35m;3#測點,距2#測點35m;4#測點,距3#測點35m;5#測點,距回風(fēng)巷外幫5m(見表1)。在回風(fēng)巷安置抽氣泵,通過束管抽取氣樣,收集氣體后將其進(jìn)行色譜分析,用MATLAB處理所得的原始數(shù)據(jù),從而研究并分析綜放面采空區(qū)氧化“三帶”的分布規(guī)律。
2基于Matlab的二維數(shù)據(jù)處理
2.1最小二乘法數(shù)據(jù)預(yù)處理
在所給出的5個檢測點的數(shù)據(jù)中,隨著工作面的前移,每個測點各得出19組氧濃度數(shù)據(jù),共有95組樣本點,在這些數(shù)據(jù)中可能存在有瑕疵的點,由于這些樣本點會影響著實際擬合函數(shù)的結(jié)果,因此采用最小二乘法的算法方式將他們剔除[9],實驗運用多元線性回歸函數(shù)regress(Y,X,alpha)和殘差及其置信區(qū)間畫圖函數(shù)rcoplot(r,rint)進(jìn)行數(shù)據(jù)處理分析,其中Y,X為所要處理的樣本數(shù)據(jù),alpha是顯著性水平(取默認(rèn)數(shù)值0.05),r,rint為殘差及其置信區(qū)間,這2個值將由regress直接返回提供,這樣,就能建立回歸分析模型,主程序偽代碼如下:alpha=0.05;X=[95個樣本點對應(yīng)的距工作面距離的數(shù)值];Y=[95個樣本點氧濃度數(shù)值];X=[ones(size(Y)),自定義矩陣Q];[b,bint,r,rint,stats]=regress(Y,X,0.05);最終畫出殘差圖(見圖1)。
從圖1中可以得出第33、56、75、81、94號這5個樣本點的殘差偏離了置信區(qū)間,且這5個結(jié)點對應(yīng)的樣本點為2#(125.8,10.2),3#(150.5,6.0),4#(150.5,5.9),5#(35.9,16.9),5#(150.5,6.1),為了更精確的分析數(shù)據(jù),應(yīng)該將這5個樣本點去除以后再進(jìn)行曲線回歸擬合。
2.2擬合曲線的選取
在剔除偏離置信區(qū)間的樣本點后,選用polytool多項式擬合工具擬合,擬合時分別選取3、4、5次多項式進(jìn)行擬合,從而得到他們的擬合自由度R?分別為0.938,0.962,0.969,顯然4次擬合的自由度要優(yōu)于3次,由于高次多項式容易產(chǎn)生Runge現(xiàn)象[10],亦即當(dāng)次數(shù)變高時,插值多項式會逐漸偏離正常趨勢線,使得擬合不精確,正常情況下一般多項式次數(shù)不高于6次,將三種擬合進(jìn)行對照可看到5次擬合并不理想,因此本次試驗選取4次擬合。為了不用計算直接動態(tài)觀測采空區(qū)氧濃度的變化趨勢,利用軟件自帶的polytool(xx,yy,4)函數(shù)得出4次擬合圖像,其中xx,yy分別是以上程序中Q與Y剔除5組數(shù)據(jù)后的剩余的90組數(shù)據(jù),由此得出擬合的4次動態(tài)多項式(見圖3),其中曲線兩側(cè)的區(qū)間為曲線的置信半徑,由此也會發(fā)現(xiàn)篩選后的樣本點均落在置信區(qū)間內(nèi)(直接選用原始點會出現(xiàn)有樣本點偏離置信區(qū)間的情況,會降低擬合曲線精度),從而提高了曲線擬合的精度,拖動圖像中所指向的十字光標(biāo),可以便捷的讀出曲線上任意一點工作面推進(jìn)距離與氧濃度變化的橫、縱坐標(biāo)值,也可以利用p=polyfit(xx,yy,4)函數(shù),得出擬合曲線函數(shù) ,可得出“三帶”寬度:散熱帶158.95m。
3基于Matlab的三維數(shù)據(jù)處理
利用Matlab三維圖像處理時,其主要數(shù)據(jù)的誤差主要通過Matlab所提供的插值方法來減少誤差,軟件自帶的插值方法總共有5種:‘v4’,即Matlab4.0自帶的插值算法;‘linear’,雙線性插值算法;‘nearest’,最臨近插值算法;‘spline’,三次樣條插值法以及‘cubic’,雙三次插值算法。針對“三帶”分布的實際情況,分析數(shù)據(jù)時采用雙三次插值算法,一方面,它對于無規(guī)律的隨機數(shù)據(jù)插值效果好,此外,利用它是建立在三次插值多項式基礎(chǔ)上的特點,使得插值的結(jié)果比較平滑。在確定算法后,使用meshgrid和griddata函數(shù)建立算法模型,對原始數(shù)據(jù)進(jìn)行平面差分,隨后再使用surf和contour函數(shù)繪出“三帶”分布立體圖形與等值線圖,算法主程序偽代碼如下:
[aa,bb]=meshgrid(x,y);cc=griddata(xx,yy,zz,aa,bb‘cubic’);surf(aa,bb,cc),figure;contour(aa,bb,cc,n);其中xx,yy,zz為原始采空區(qū)走向、傾向、氧濃度三維構(gòu)造數(shù)值矩陣,x,y為自定義插值后的一維矩陣,aa,bb,cc則為經(jīng)過插值后的二維數(shù)值矩陣,n為自定義等值線條數(shù),從而可以直觀的得到三維圖像(見圖4)以及氧濃度分布的等值線圖(見圖5)。結(jié)合圖4和圖5不難看出,隨著工作面的推進(jìn),氧氣濃度值總體呈現(xiàn)下降趨勢,在距離工作面30.4m時,其氧氣濃度進(jìn)入18%氧化帶范圍內(nèi),在距離工作面158m時,其氧氣濃度低于6%逐漸進(jìn)入窒息帶范圍,此時的“三帶”范圍:散熱帶158m。
4結(jié)論
1)通過二維和三維模型的數(shù)據(jù)處理最終得出“三帶”范圍分別為:散熱帶158.95m;散熱帶158m。不難看出這兩種方式的誤差范圍較小,屬于正常范圍,從而也相互印證了這兩種方式的可靠性。
2)在用傳統(tǒng)的Excel軟件處理時候,只是做普通的擬合,無法剔除不可靠點,而試驗采用Matlab殘差圖的方式剔除了影響擬合效果的瑕點,使得所得函數(shù)更加可靠,提高了曲線擬合的精確性。
3)使用polytool函數(shù)動態(tài)的讀取擬合函數(shù)上的任意一點的函數(shù)值,為以后研究其余曲線各點值的動態(tài)變化提供了便利。
4)在原始數(shù)據(jù)的基礎(chǔ)上,運用三維模型,清晰的表現(xiàn)出采空區(qū)氣體濃度與工作面推進(jìn)距離以及工作面傾向三者之間的聯(lián)系,并且利用等值線函數(shù)直觀的表示出氧濃度在采空區(qū)的分布情況,直接利用觀測法就能大致確定“三帶”范圍。
參考文獻(xiàn):
[1]杜計平.采礦學(xué)[M].徐州:中國礦業(yè)大學(xué)出版社,2009:165-169.
[2]張國樞,戴廣龍.煤炭自燃理論與防治實踐[M].北京:國防工業(yè)出版社,2002:68-70.
[3]陳麗霞,張人偉,譚艷春,等.綜放工作面采空區(qū)三帶實測分析與模擬[J].煤礦安全,2011,42(1):130-132.
[4]宋萬新,楊勝強,徐全.基于氧體積分?jǐn)?shù)高瓦斯采空區(qū)自燃“三帶”劃分[J].采礦與安全工程學(xué)報,2012,29(2):271-276.
[5]盧平,張士環(huán).高瓦斯煤層綜放開采瓦斯與煤自燃綜合治理研究[J].中國安全科學(xué)學(xué)報,2004,14(4):69-74.
[6]何啟林,袁樹杰,王新建,等.徐莊煤礦綜放采空區(qū)“三帶”寬度的確定[J].煤礦安全,2001,2(2):6-7.
[7]余明高,常緒華,賈海林,等.基于Matlab自燃“三帶”的分析[J].煤炭學(xué)報,2010,35(4):600-604.
[8]彭信山,景國勛.基于Matlab采空區(qū)自燃發(fā)火數(shù)值模擬[J].煤炭技術(shù),2011,30(4):103-104.
篇4
關(guān)鍵詞:n元語法模型;自然語言處理
一:詞向量
“詞向量”這個詞最早由1986年hinton的文章“l(fā)earning distributed representations of concepts”中提出,將單個詞用“詞向量”的方式表示是將deep learning的算法引入NLP 領(lǐng)域的一個核心技術(shù),deep learning中的詞向量是一種低維實數(shù)向量,詞向量使得一些詞的距離更近比如相關(guān)詞或者相似詞,這種距離通過歐式距離,夾角余弦來定義?!霸~向量”不僅可以避免維數(shù)災(zāi)難問題,而且由于相似詞或者相關(guān)詞的距離很小,應(yīng)用詞向量構(gòu)造的模型本身具有平滑性。
詞向量是通過訓(xùn)練語言模型得到。從大量的無標(biāo)簽的語料庫中進(jìn)行無監(jiān)督學(xué)習(xí)的想法有了語言模型。語言模型是針對某種語言建立的概率模型。語言模型的一般描述就是給定一個詞序列,詞序列 ,求該詞序列是自然語言的概率 ,其中, 表示詞序列的第t個詞,在n元語法模型中用 表示 。下面具體介紹n元語法模型。
二:n元語法模型
2.1模型的形式化表示。
假設(shè)有 個詞, , 個詞構(gòu)成的詞序列記為 ,詞序列的概率為
(2.1)
上下文H中詞A的極大似然概率計算公式為
(2.2)
其中 是在訓(xùn)練數(shù)據(jù)中詞序列 出現(xiàn)的次數(shù),上下文 可以由幾個詞組成,對于通常的三元模型, ,當(dāng) 時,它沒有考慮歷史,該模型稱為一元模型。
由于n元語法模型比較簡單,目前最常使用的語言模型基于n元語法模型,但是該模型由于數(shù)據(jù)缺乏需要采用一些平滑算法。影響n元語法模型的最重要的因素是順序和平滑技術(shù)的選擇,常用的平滑技術(shù)有加法平滑算法,Knerser-Ney平滑方法,Katz平滑方法,Jelinek-Mercer平滑方法等。對于基于詞的語言模型,修正的Knerser-Ney平滑方法(KN)在平滑技術(shù)中有較好的結(jié)果。
基于n元語法的統(tǒng)計數(shù)據(jù)模型的最大優(yōu)勢在于速度,簡單和普遍性(只要存在一些訓(xùn)練數(shù)據(jù),該模型可以應(yīng)用到任何領(lǐng)域)。直到今天n元語法模型依然是最先進(jìn)的技術(shù),不是因為沒有更好的技術(shù),而是因為更好的技術(shù)計算過于復(fù)雜,僅僅進(jìn)行了邊際分布的改善,對于給定應(yīng)用的成功不是至關(guān)重要的。
2.2模型的優(yōu)缺點
n元語法模型的最大缺點在于隨著上下文長度的增加,n元語法的數(shù)量成指數(shù)形式的增加。阻止這些模型有效的捕獲較長的上下文類型。如果有大量的訓(xùn)練數(shù)據(jù)可用,從訓(xùn)練數(shù)據(jù)得到的模式不能通過n元語法進(jìn)行有效地表示。因此產(chǎn)生了將神經(jīng)網(wǎng)絡(luò)應(yīng)用到語言模型(LM)的思想,通過相似事件之間的共享參數(shù)來克服參數(shù)的指數(shù)增加,不再需要精確的歷史 的匹配。下面具體介紹幾種不同的神經(jīng)網(wǎng)絡(luò)語言模型。
n元語法的n體現(xiàn)了該詞間的獨立性,n越小獨立性越強。則可根據(jù)不同語料的獨立性特點選擇不同的模型了。通常n=3。直觀上講,第i位置的詞與前面多少個詞的相關(guān)性并不一定,另外,“詞”是一個籠統(tǒng)的概念(可以代表字、詞短語等),它的選取也不確定,而一個模型直接賦予n一個確定的值,這本身是一種近似。所以說,模型不可能精確表達(dá),根據(jù)這種局限性,一個好的模型的重要性就可想而知了。
2.3模型的改進(jìn)
由于在自然語言處理中,如通過音素匹配法處理后,部分存在著缺失的可能。而且已識別的詞對未識別詞會有一定程度的影響,為了解決這種問題,所以華南理工大學(xué)陳偉雄[3]在論文"基于n元語法模型的領(lǐng)域語音指令識別"中對n元語法模型做一些改進(jìn)。
Bengio[1]等人建議通過學(xué)習(xí)詞的分布式表示來避免維數(shù)災(zāi)難,分布式表示允許每一個句子形成關(guān)于語義相近句子的指數(shù)數(shù)量的模型。該模型可以同時學(xué)習(xí)每一個詞的分布式表示和詞序列的分布式表示的概率函數(shù)。在合理的時間訓(xùn)練包含數(shù)以萬計參數(shù)的如此大的模型本身是一種挑戰(zhàn),使用神經(jīng)語言模型的方法進(jìn)行實驗,結(jié)果顯示在兩個文本預(yù)料(Brown corpus和AP new corpus)上該神經(jīng)語言模型的方法極大地提高了n元語法模型的最先進(jìn)的性能,并且該方法允許利用較長的上下文。
三:n元語法模型在自然語言處理中的應(yīng)用
自然語言處理就是如何讓計算機正確處理人類語言并作出正確的響應(yīng),近年來作為人工智能的一個重要組成部分得到了快速發(fā)展,使得人機之間直接采用語言作為交互方式成為了可能。
自2006年Hinton等人提出深度學(xué)習(xí)的概念之后,將深度學(xué)習(xí)的思想用于語言模型中形成的神經(jīng)網(wǎng)絡(luò)語言模型不僅僅是三層的神經(jīng)網(wǎng)絡(luò),而是多層的神經(jīng)網(wǎng)絡(luò)語言模型。深度學(xué)習(xí)也就是深層神經(jīng)網(wǎng)絡(luò)算法,每次訓(xùn)練一層,逐層訓(xùn)練,上一層的輸出作為下一層的輸入。將深度學(xué)習(xí)的思想應(yīng)用于語言模型中形成的神經(jīng)網(wǎng)絡(luò)語言模型可以應(yīng)用于自然語言處理的很多領(lǐng)域,比如,詞性標(biāo)注,句法分析,框架排歧,語義角色標(biāo)注等任務(wù)。
n元語法模型在語音指令識別中也有廣泛應(yīng)用.可以用一種音素匹配法[3]結(jié)合改進(jìn)了的n元語法模型的方法對語音指令進(jìn)行理解。指令按照結(jié)構(gòu)劃分類別通過提取其中關(guān)鍵要素來獲取指令語義。音素匹配法可以提取指令中部分或全部要素對于指令中未識別的要素則根據(jù)已正確采用改進(jìn)的n元語法模型進(jìn)行推測。實驗表明該方法取得了較好的效果,并在原有的基礎(chǔ)上有一定的提高。
參考文獻(xiàn):
[1]陳偉雄.基于n元語法模型的領(lǐng)域語音指令識別.2009.5
[2]Bengio,Yoshua,Rejean Ducharme,and Pascal Vincent..A neural probabilistic language model.In T.K.Leen,T.G.Dietterich,and V.Tresp,eds.,Adv ances in NIPS 13,MIT Press.2001:932-938.
篇5
關(guān)鍵詞:語言學(xué) 語義學(xué) 計算機語言學(xué)
一、 形式語義學(xué)
語言學(xué)研究的是語言的體系,反映在兩個方面:第一個是語言學(xué)在語言,形態(tài),句法等層面上的描寫分工;第二個是描寫各層面上的內(nèi)部系統(tǒng)的狀態(tài)和關(guān)系。隨著語言學(xué)學(xué)科的發(fā)展,語言學(xué)的研究方向越來越寬,語義學(xué)越來越受到重視。交流的語言由聲音,文字,語法構(gòu)成,語言的語義是語言學(xué)研究的目的。語義學(xué)研究采用研究人工語言的方法研究自然語言,形式語義學(xué)是介于語言學(xué)和邏樣學(xué)之間的交叉學(xué)科,它的起源可以追溯到德國邏輯學(xué)家Frege。他的主張是使用邏輯的方法來研究語言意義。隨后,經(jīng)Wittgenstein, Rnssel, Carnap等人將邏輯和哲學(xué)結(jié)合起來研究,使很多意義現(xiàn)象得到了較為精確的刻畫。上世紀(jì)70年邏輯學(xué)家兼哲學(xué)家蒙太古奠定了形式語義學(xué)的基本輪廓。從此形式語義學(xué)在語言學(xué)界得到了廣泛的討論,形式語義學(xué)研究也在諸多方而取得了進(jìn)展。形式語義學(xué)的理論根據(jù)是理論語言學(xué)為語言研究,研究工具是以數(shù)理邏輯的方法,目標(biāo)是對自然語言的語義進(jìn)行形式化描述,從而到達(dá)機器對自然語言的自動理解。最近的30年,形式語義學(xué)在國際上發(fā)展迅猛,新的理論不斷涌現(xiàn),并且與理論語言學(xué)、計算語言學(xué)交叉互動。
在形式語義學(xué)走向成熟和發(fā)展的過程中做出過重要貢獻(xiàn)的學(xué)者包括道蒂、帕蒂、庫珀等等。已經(jīng)形成許多具有廣泛影響力的形式語法理論主要包括:詞匯功能語法、動態(tài)句法學(xué)、情境語義學(xué)、范疇語法、樹鄰接語法等等。至今,上述理論中的每種理論都仍有大量學(xué)者進(jìn)行研究。這些充分說明形式語言學(xué)已經(jīng)日趨成熟,逐步形成了所謂語言和邏輯交叉研究的風(fēng)格,既推動了語言學(xué)的發(fā)展,也引起了對自然語言信息處理領(lǐng)域的高度重視。
但是形式語言學(xué)所討論的問題主要是以英語為對象語言的研究,缺少對其他自然語言所開展的相關(guān)研究。在國內(nèi)語言學(xué)界,有很多文獻(xiàn)是研究漢語句式,但尚不多見應(yīng)用形式語言學(xué)方法對漢語各種句式進(jìn)行刻畫和計算的專著。將漢語句式中所表達(dá)的語義內(nèi)容轉(zhuǎn)化為經(jīng)得起計算機語言自動分析檢驗的形式化的邏輯表達(dá)式,這個研究不但是語言學(xué)領(lǐng)域期待的,而且是中文信息處理領(lǐng)域迫切需要的。
二、形勢語義學(xué)與計算機語言學(xué)
計算語言學(xué)家馮志偉教授曾指出:“計算機對自然語言的研究和處理,一般應(yīng)該經(jīng)過如下三個方面的過程:第一,把需要研究的問題在語言學(xué)上加以形式化,使之能以一定的數(shù)學(xué)形式嚴(yán)密而規(guī)整地表示出來;第二,把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,使之在計算上形式化;第三,根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn)”。形式語義學(xué)做的就是這一工作,我們可以說形式語義是理論語言學(xué)與計算語言學(xué)之間的橋梁。如果沒有形式語義學(xué)做中介,理論語言學(xué)很難直接與計算語言學(xué)中的自然語言語義處理做對接,因此形式語義學(xué)在今天這個信息技術(shù)時代地位越來越重要。
自然語言作為人類知識的主要載體,人類用來表達(dá)、保存、傳播、傳承知識,進(jìn)行知識的創(chuàng)新。在今天這個高速發(fā)展的時代,對自然語言信息的分析處理,已成為社會持續(xù)發(fā)展的必然要求。語言信息處理已經(jīng)超越計算語言學(xué)的范疇,成為計算科學(xué)、語言學(xué)、邏輯學(xué)和人工智能等多種學(xué)科共同關(guān)注的領(lǐng)域。
直接借助自然語言,在人與計算機之間實現(xiàn)信息交流是自然語言信息處理的目標(biāo)。這項任務(wù)分應(yīng)用部分和理論研究。應(yīng)用部分指的是建立各種處理自然語言的計算機應(yīng)用軟件系統(tǒng)和建設(shè)語言信息處理的基礎(chǔ)資源。這主要是計算語言學(xué)的任務(wù)。理論研究的目的是發(fā)現(xiàn)語言的內(nèi)在規(guī)律來探索語言理解和生成的計算方法。這一任務(wù)應(yīng)該由有形式語義學(xué)背景的語言學(xué)家擔(dān)當(dāng)。但是現(xiàn)狀是令人擔(dān)憂的,語言學(xué)研究與自然語言處理存在脫節(jié)現(xiàn)象。2008年12月清華大學(xué)孫茂松教授在首都師范大學(xué)召開的語言學(xué)學(xué)科建設(shè)討論會上就指出:我國的語言學(xué)家和計算語言學(xué)家在上個世紀(jì)八九十年代曾有過一段甜蜜的合作階段,但現(xiàn)在雙方在一起合作的現(xiàn)象少了。在過去30年里,計算語言學(xué)重點放在語形處理上,理論語言學(xué)為句法結(jié)構(gòu)分析提供成熟的理論支持,從而語言學(xué)和計算語言學(xué)有很多合作。隨著語形處理技術(shù)日趨成熟,其技術(shù)潛力也基本被挖掘殆盡,技術(shù)并未得到實質(zhì)提升。這種現(xiàn)象很大程度上可以歸因于自然語言形式語義分析技術(shù)的滯后。
近幾十年來,隨著自然語言處理這一研究方向的興起,語言學(xué)、邏輯學(xué)、計算機科學(xué)緊密地結(jié)合在了一起。計算機信息技術(shù)要求人們在邏輯的框架內(nèi)去描述自然語言的特征。邏輯的應(yīng)用范圍擴大到語言學(xué)和計算機人工智能科學(xué)等領(lǐng)域,語言學(xué)的研究也逐漸融入了大量邏輯學(xué)方法,尤其在形式語言學(xué)領(lǐng)域,邏輯方法更是受到廣泛關(guān)注。
漢語部分句式的語義問題是我們首要關(guān)心的。自然語言有別于人工語言的最顯著形式是歧義現(xiàn)象。自然語言處理中的核心問題之一對始終是歧義問題的研究。已有很多從不同角度對漢語歧義的研究,但從邏輯語義學(xué)的視角對漢語歧義句式進(jìn)行分析的研究不多見。我們可以遵循典型的邏輯語義的分析對于漢語部分歧義句式進(jìn)行描述。在這過程中,不可少的兩條原則是語義類重設(shè)原則和邏輯謂詞原則。語義類重設(shè)原則既考慮到了漢語某些句式的特殊性,又考慮到計算機語言學(xué)實現(xiàn)過程中的實際需要;邏輯謂詞原則是出于保證語義描寫過程一致性的考慮。更多地尊重漢語語言的事實,并且也充分考慮到邏輯語義分析的計算機語言實現(xiàn)的可操作性。
三、結(jié)語
面向計算語言學(xué)的漢語語法研究已經(jīng)受到一定程度的關(guān)注,已經(jīng)取得了一定的進(jìn)展。面向計算語言學(xué)的漢語語義研究已日漸成為這一領(lǐng)域的主攻方向。從目前的研究來看,基于形式語義的漢語語義研究有很大的研究空間和研究價值。在語義研究的這一方向上,依照語言學(xué)分析思路對相關(guān)的漢語現(xiàn)象進(jìn)行形式化的邏輯語義描寫,并在此基礎(chǔ)上選取合適的算法加以計算機語言的實現(xiàn),無疑對于中文信息處理的相關(guān)問題的解決大有裨益。
參考文獻(xiàn):
[1]Portner,P.&Partee,B.H.Formal Semantics:The Essential Readings,Oxford: Blackwell, 2002.
[2]馮志偉.自然語言的計算機處理[M].上海外語教育出版社,1996
[3]呂叔湘.漢語語法分析問題[M].北京:商務(wù)印書館,1979.
[4]呂叔湘.歧義類例[J].中國語文,1984(05)
篇6
關(guān)鍵詞:人機大戰(zhàn);人工智能;發(fā)展前景
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰(zhàn)”終于落下帷幕,最終Google公司開發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對弈過的棋盤,并在練習(xí)和實戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗。
(2)圍棋比國際象棋更加復(fù)雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計算量相當(dāng)巨大。英國圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來發(fā)展前景。
1.人工智能的發(fā)展歷程
AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科?;仡櫲斯ぶ悄艿陌l(fā)展歷程,可大致分為孕育、形成、暗淡、知識應(yīng)用和集成發(fā)展五大時期。
孕育期:1956年以前,數(shù)學(xué)、邏輯、計算機等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號化,奠定了數(shù)理邏輯的基礎(chǔ)。英國數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”。總之,這些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。
形成期:1956年夏季,在美國達(dá)特茅斯大學(xué)舉辦了長達(dá)2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術(shù)語。這是人類歷史上第一次人工智能研討會,標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時形成了廣泛的樂觀思潮。
暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發(fā)展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復(fù)雜的問題。隨著AI遭遇批評,對AI提供資助的機構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應(yīng)用期:在80年代,“專家系統(tǒng)”(Expect System)成為了人工智能中一個非常主流的分支?!皩<蚁到y(tǒng)”是一種程序,為計算機提供特定領(lǐng)域的專門知識和經(jīng)驗,計算機就能夠依據(jù)一組從專門知識中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問題。不同領(lǐng)域的專家系統(tǒng)基本都是由知識庫、數(shù)據(jù)庫、推理機、解釋機制、知識獲取等部分組成。
集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計算機性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長足的進(jìn)步,取得了令人矚目的成就。
人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當(dāng)前人工智能的研究熱點主要集中在自然語言處理、機器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
2.人工智能l展現(xiàn)狀與前景
人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來越多的AI項目依賴于分布式系統(tǒng),而當(dāng)前研究的普遍熱點則集中于自然語言處理、機器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實現(xiàn)讓機器明白人類的語言,這需要將人類的自然語言轉(zhuǎn)化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態(tài)度。
當(dāng)前自然語言的處理主要有兩大方向。一種是基于句法-語義規(guī)則的理性主義理論,該理論認(rèn)為需要為計算機制定一系列的規(guī)則,計算機在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線是一系列的人為的語料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計學(xué)習(xí)的經(jīng)驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學(xué)習(xí)并進(jìn)行統(tǒng)計推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語言,試圖刻畫真實世界的語言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計語言的規(guī)律。
機器學(xué)習(xí):機器學(xué)習(xí)(Machine Learning)是近20年來興起的人工智能一大重要領(lǐng)域。其主要是指通過讓計算機在數(shù)據(jù)中自動分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行判斷和預(yù)測的方法。
機器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來時,可以由訓(xùn)練得到函數(shù)預(yù)測目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問題,即統(tǒng)計分類問題和回歸分析問題。統(tǒng)計分類的預(yù)測結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標(biāo)是連續(xù)的,如天氣、股價等的預(yù)測。
無監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒有人為標(biāo)注的結(jié)果,這就需要計算機去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來分類等。一種常見的無監(jiān)督學(xué)習(xí)是聚類分析(Cluster Analysis),它是將相似的對象通過靜態(tài)分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數(shù)據(jù)對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數(shù)據(jù)對象進(jìn)行分類。
機器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)等類別??偠灾?,機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領(lǐng)域越來越廣泛地應(yīng)用到了機器學(xué)習(xí)中。
人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類的意識及智能行為,都是通過巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個神經(jīng)細(xì)胞通過突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過突觸的信號強度超過某個閾值時,神經(jīng)細(xì)胞便會進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數(shù)f對輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。
在此基礎(chǔ)上,對神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計算模型。通過學(xué)習(xí)訓(xùn)練獲取到卷積運算中所使用的卷積系數(shù),并通過不同層次與自由度的變化,可以得到較為優(yōu)化的計算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發(fā)展前景
總體來看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領(lǐng)域中,既是縱向發(fā)展的過程,也是橫向不斷改進(jìn)的過程。
人工智能在博弈階段,主要是實現(xiàn)邏輯推理等功能,隨著計算機處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機器擁有了越來越強的邏輯與對弈能力。在感知領(lǐng)域,隨著自然語言處理的進(jìn)步,機器已經(jīng)基本能對人類的語音與語言進(jìn)行感知,并且能夠已經(jīng)對現(xiàn)實世界進(jìn)行視覺上的感知?;诖髷?shù)據(jù)的處理和機器學(xué)習(xí)的發(fā)展,機器已經(jīng)能夠?qū)χ車沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對人的肢體動作進(jìn)行判斷。該領(lǐng)域的主要實現(xiàn)還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎(chǔ)上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發(fā)展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環(huán)境進(jìn)行感知并處理人類的語言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤、剎車等。
人工智能已經(jīng)滲透到生活中的各個領(lǐng)域。機器已經(jīng)能識別語音、人臉以及視頻內(nèi)容等,從而實現(xiàn)各種人際交互的場景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實現(xiàn)自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領(lǐng)域,機器也承擔(dān)了越來越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無人車的發(fā)展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景。總之,人工智能在一些具有重復(fù)性的和具備簡單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來幫助人們解決問題,創(chuàng)造價值。
參考文獻(xiàn)
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經(jīng)濟導(dǎo)刊,2016 (6):69-74.
篇7
關(guān)鍵詞:英漢平行語料庫;語義分析;翻譯教學(xué);B/S結(jié)構(gòu)
目前基于語料庫進(jìn)行語言研究和翻譯研究都取得了一定的成果。特別是語料庫方面,國外當(dāng)代語料庫有共建英語語料庫(COBUILD)、朗文語料庫(LANGMAN)、英語國家語料庫(BNC)以及國際英語語料庫(ICE)為代表的超級語料庫(mega-corpora),它們的容量更大,收詞量大都上億,覆蓋面更寬,應(yīng)用更廣。東北大學(xué)自然語言處理實驗室的NiuTrans是目前國內(nèi)唯一一套開源的統(tǒng)計翻譯系統(tǒng),該系統(tǒng)提供了英漢平行語料庫,但是只進(jìn)行語法標(biāo)注,沒有進(jìn)行語義標(biāo)注。對于科學(xué)研究和教學(xué)應(yīng)用,可以對該語料庫進(jìn)行深加工,標(biāo)注淺層和深層語義信息,這樣可以應(yīng)用在教學(xué)中。
以上所有研究都是基于經(jīng)過語法和淺層語義標(biāo)注的基礎(chǔ)上的平行語料庫進(jìn)行的。由于缺少對語料庫進(jìn)行深層語義分析,給研究和應(yīng)用帶來了局限性。
一、現(xiàn)有語義分析工具
對選取的語料進(jìn)行語法、語義標(biāo)注,由于目前對語料庫的語法標(biāo)注技術(shù)已經(jīng)成熟,可以運用相應(yīng)的軟件來進(jìn)行,可以利用斯坦福大學(xué)的NLP小組的Parser來進(jìn)行英語和漢語句子的語法標(biāo)注,然后對語料進(jìn)行英語語義和漢語語義分析。
運用英語語義分析網(wǎng)上資源WordNet、FrameNet和VerbNet進(jìn)行英語深層語義標(biāo)注,即語義框架識別和標(biāo)注。由于目前漢語還沒有相應(yīng)的WordNet、FrameNet和VerbNet網(wǎng)上語義分析資源,通過查找漢語對應(yīng)詞語得到相應(yīng)的已經(jīng)標(biāo)注好的英語句子,通過英語句子的語義框架來標(biāo)注漢語句子的語義框架,最后由人工來校對、編輯。
在漢語語料庫語言學(xué)研究中,基于詞的研究取得了令人滿意的成果,如哈爾濱工業(yè)大學(xué)的開放自然語言平臺(Language Technology Platform,LTP)。LTP制定了基于XML的語言處理結(jié)果表示方法,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊,其中包括分詞(CRFWordSeg)、詞性標(biāo)注(POSTagging)、命名實體識別(NER)、依存句法分析(GParser)、詞義消歧(WSD)和語義角色標(biāo)注(SRL)六項中文處理核心技術(shù)以及基于動態(tài)鏈接庫(Dynamic Link Library, DLL)的應(yīng)用程序接口、可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(Web Service)的形式進(jìn)行使用。
二、 語料庫語義分析在教學(xué)中的應(yīng)用
傳統(tǒng)翻譯教學(xué)以教師為中心,無法很好調(diào)動學(xué)生的積極性。借助語料庫進(jìn)行翻譯教學(xué),學(xué)生通過探索式、發(fā)現(xiàn)式和“做中學(xué)”的活動,發(fā)現(xiàn)、總結(jié)和歸納語言運用的特征和規(guī)律,有利于培養(yǎng)學(xué)生解決問題的能力和學(xué)習(xí)能力。
把語料庫技術(shù)引入翻譯教學(xué)中,對于培養(yǎng)學(xué)生的自主學(xué)習(xí)能力、提高學(xué)生學(xué)習(xí)興趣有很大的幫助。對教育信息化是一個有益的嘗試。
三、 系統(tǒng)實現(xiàn)技術(shù)
本系統(tǒng)擬采用基于Internet網(wǎng)絡(luò)的B/S結(jié)構(gòu)來實現(xiàn)。用戶通過各種瀏覽器使用該系統(tǒng),不需要在本機上安裝任何插件,這樣方便用戶使用。服務(wù)器端使用Apache或者Nginx作為網(wǎng)絡(luò)服務(wù)器,使用Python語言、MySQL數(shù)據(jù)庫實現(xiàn)系統(tǒng)功能。語料庫可使用現(xiàn)有的語料庫,也可以用網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)獲取我們需要的數(shù)據(jù),組成語料庫。用WordNet、VerbNet和FrameNet進(jìn)行語義分析,最后用MySQL進(jìn)行數(shù)據(jù)管理,包括建立數(shù)據(jù)庫、查詢、備份和更新。Python語言具有豐富的自然語言處理工具,并且具有Web編程能力。所有工具都能夠從網(wǎng)絡(luò)上免費獲得,不涉及版權(quán)問題。
由于目前對漢語語料庫進(jìn)行深層語義分析還處于探索階段,本課題通過平行語料庫漢語詞語所對應(yīng)的英語句子的語法信息、淺層語義信息和深層語義信息,來進(jìn)行漢語深層語義標(biāo)注,是一個創(chuàng)新。
參考文獻(xiàn):
[1]王克非.雙語平行語料庫在翻譯教學(xué)上的用途[J]. 外語電化教學(xué),2004(06).
篇8
[關(guān)鍵詞]數(shù)字圖書館 知識組織系統(tǒng) 領(lǐng)域本體
[分類號]G250.76
1 引言
數(shù)字圖書館(DL)是信息環(huán)境網(wǎng)絡(luò)化、數(shù)字化、知識化的產(chǎn)物,是國家信息基礎(chǔ)設(shè)施的核心。數(shù)字圖書館把知識作為工作對象,并且關(guān)注知識的應(yīng)用環(huán)境和應(yīng)用群體,因此,知識組織系統(tǒng)的構(gòu)建在數(shù)字圖書館建設(shè)中始終發(fā)揮著核心的作用。
從廣義理解,數(shù)字圖書館知識組織應(yīng)包括數(shù)字資源的知識組織系統(tǒng)的構(gòu)建、語義自豐富、語義互聯(lián)、互操作、術(shù)語服務(wù)等。
近年來,在我國圖書情報界,本體研究成為了數(shù)字圖書館知識組織系統(tǒng)構(gòu)建的一個熱點研究領(lǐng)域。目前為解決數(shù)字圖書館知識組織系統(tǒng)語義豐富度問題,本體構(gòu)建與復(fù)用、本體整合、語義分析與抽取、語義標(biāo)注以及語義互聯(lián)應(yīng)用成為學(xué)界研究的熱點和建設(shè)的重點(見圖1)。
2 研究現(xiàn)狀與熱點
2.1本體建模與復(fù)用研究
本體建模方法的研究對于本體的應(yīng)用有至關(guān)重要的作用。數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建有賴于本體的開發(fā)與完善,本體的開發(fā)和完善是一個反復(fù)疊加的過程,不會一蹴而就。目前國內(nèi)外學(xué)者試圖從本體建模方法和開源本體的復(fù)用兩個方面進(jìn)行突破。
目前本體建模的研究已經(jīng)進(jìn)入實際應(yīng)用階段。許多研究領(lǐng)域都建立了自己標(biāo)準(zhǔn)的本體,但由于領(lǐng)域本體建設(shè)還沒有成熟的方法論作為指導(dǎo),目前提出的本體建模方法都是面向特定領(lǐng)域或針對具體的項目,而且都不是經(jīng)權(quán)威標(biāo)準(zhǔn)化機構(gòu)認(rèn)證的方法,這就導(dǎo)致各種本體建模方法的出現(xiàn)。如骨架法、企業(yè)建模法、循環(huán)獲取法和IDEF-5方法等。
本體復(fù)用已成為重要的課題,越來越多的應(yīng)用利用本體表示語義信息,因而如何支持本體復(fù)用變得愈加重要。本體復(fù)用主要有三種:①簡單地把整個源本體導(dǎo)入目標(biāo)本體Wppl,且僅用其中部分規(guī)則,而直接忽略其余規(guī)則;②僅“復(fù)制+粘貼”源本體規(guī)則的某子集到目標(biāo)本體Wppl為導(dǎo)人規(guī)則的子集;③把源本體分解成不同的模塊,根據(jù)相關(guān)標(biāo)準(zhǔn),僅導(dǎo)入需要的模塊。相比而言,第3種方法是最有發(fā)展前景的方法,目前的困難在于本體的模塊化還不很成熟,只提供了本體類的理論和算法。
W3C標(biāo)準(zhǔn)定義的OWL本體語言由一系列規(guī)則組成,包括類規(guī)則、屬性規(guī)則和實例規(guī)則。在如下導(dǎo)入相似性標(biāo)注的幫助下,OWL本體可以導(dǎo)入其他的OWL本體:
Annotation(ireports)
Annotation(imports)
導(dǎo)入標(biāo)注含有把兩個源本體導(dǎo)入目標(biāo)本體的規(guī)則。把本體概念加以擴充,可以實現(xiàn)從源本體的類、屬性和實例的語義導(dǎo)入。本體復(fù)用需要評價已有本體與目標(biāo)本體之間的關(guān)聯(lián)性。共享和復(fù)用是本體的本質(zhì)要求,也是領(lǐng)域本體建設(shè)中很重要的問題。
2.2本體整合
本體整合是本體的語義和解釋范疇的問題。本體整合最初由SWAP(Semantic Web and Peer to peer)項目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出,利用本體整合處理本體異質(zhì)(ontology heterogeneity)。Paolo Bouquet等人給出了本體異質(zhì)的詳細(xì)分析,指出在分布式和開放式系統(tǒng)中本體異質(zhì)是不可避免的,并根據(jù)本體異質(zhì)產(chǎn)生的原因?qū)⑵鋭澐譃?個層次:表示層、術(shù)語層、概念層和語義層。Paolo Bouquet等人還認(rèn)為:表示層的異質(zhì)可以通過翻譯成統(tǒng)一的本體表示語言來解決;術(shù)語層的異質(zhì)通過詞匯映射來解決;概念層異質(zhì)的解決需要通過對整個本體進(jìn)行考慮,查找不一致,進(jìn)行映射或合并;語義層的異質(zhì)可能存在著表示層、術(shù)語層、概念層異質(zhì),還可能存在語義關(guān)系上異質(zhì),目前還沒有很好的解決方法。
本體映射是本體整合的一個關(guān)鍵環(huán)節(jié),它通過一定的方法在已存在的不同本體間建立映射,以便在已存在的和新的領(lǐng)域之間進(jìn)行交流時有通用的接口和共同的理解。在現(xiàn)實應(yīng)用中,領(lǐng)域本體規(guī)模都很龐大,利用手工方式,進(jìn)行本體概念比對完成本體映射時繁瑣且易錯,因此是不可行的。目前國內(nèi)外研究者對自動化本體映射的方法和技術(shù)進(jìn)行了深入研究,其主要特性如表1所示:
從圖1可知:①映射方法上:大多數(shù)的本體映射方法是采用一對一集成,而一對多或者多對多的方法比較少,基本沒有多對多的本體集成工具出現(xiàn);②自動化程度上:本體映射無法實現(xiàn)自動化的本體映射,多是半自動化的;③計算方法上:比較單一(除了OntoMap之外);④映射性能上:受到本體構(gòu)建技術(shù)影響比較大。本體映射目前只能夠解決術(shù)語層和概念層的異質(zhì),還無法涉及到語義層的異質(zhì),如何解決語義層的異質(zhì)是當(dāng)前研究需要重點考慮的問題。
2.3語義分析與抽取
數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建不僅是多種語義工具的互操作和集成,而且還應(yīng)實現(xiàn)這些語義工具的機器可處理和機器可理解。
國內(nèi)外學(xué)者對自然語言理解展開了深入研究。國外的語言學(xué)家、計算機學(xué)家、心理學(xué)家和邏輯學(xué)家在語法、句法、詞法、語義分析等方面提出了一系列理論及方法。這些理論和方法大致可歸為三大類:基于語法的分析法、基于語法與語義相結(jié)合的分析法和基于語義的分析法。國內(nèi)在理論研究方面尚不深入,但在漢語電子詞典、機器翻譯、漢語機讀語料庫、漢語人機對話、漢語情報檢索等應(yīng)用研究領(lǐng)域也有重大突破。
自然語言理解有賴于自然語言處理,自然語言處理的基礎(chǔ)是分詞技術(shù)。因為:一方面,詞是自然語言的基本單元;另一方面,計算機以機器詞典的形式存儲大部分自然語言知識,機器詞典中收錄了詞條的詞法、句法和語義知識,并在詞類知識基礎(chǔ)上編制句法規(guī)則。因此,自然語言處理系統(tǒng)必須對“詞”進(jìn)行識別和處理,才能理解和使用知識。
另外,由于漢語與其他語種不同,更需要自動分詞,國內(nèi)的許多機構(gòu)和學(xué)者對此展開了研究。梁南元定義了兩種基本的切分歧義類型,而黃昌寧、劉賓、殷建平、文庭孝、尹鋒、丁豐、劉開瑛等學(xué)者都進(jìn)行了分詞方法的研究和自動分詞系統(tǒng)的研究,可以歸納為基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點,分別代表著不同的發(fā)展方向。其中,基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類分詞方法的研究還處于初級階段,并且由于漢語自然語言復(fù)雜靈活,知識表示困難,所以對于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。自動分詞系統(tǒng)研究成果主要有清華大學(xué)SEG分詞系統(tǒng)、復(fù)旦分詞系統(tǒng)、北京大學(xué)計算機研究分詞系
統(tǒng)和中國科學(xué)院ICTCLAS系統(tǒng)。另外,國內(nèi)學(xué)者開始重視語義和知識表示,并有意識地區(qū)別于英語自然語言理解的研究模式,尋找適合漢語自身的方法。黃曾陽的概念層次網(wǎng)絡(luò)(HNC,Hierar―chical Network of Concepts)理論和董振東的知網(wǎng)(How―Net)、東北大學(xué)和北京大學(xué)對WordNet的漢化等,都在努力探討適用于自然語言處理的新方法。
2.4語義標(biāo)注
語義標(biāo)注(semantic annotation)又稱本體標(biāo)注,即利用本體中定義概念、術(shù)語以及語義關(guān)系顯式地揭示和描述數(shù)據(jù)資源的語義。語義標(biāo)注面臨兩大類任務(wù):一是如何將當(dāng)前不計其數(shù)的普通萬維網(wǎng)頁面轉(zhuǎn)換為富含語義信息的語義頁面,這方面的研究主要集中在語義標(biāo)引工具和語義標(biāo)引平臺開發(fā);二是如何語義頁面,其核心就是分類標(biāo)引,它要求信息者在網(wǎng)絡(luò)信息時要盡量使用本體中定義的關(guān)系詞匯,同時還要顯式地表達(dá)出概念所歸屬的語義類別,這一任務(wù)也不可能依靠手工的方式完成。因此兩大任務(wù)都轉(zhuǎn)向本體標(biāo)注流程和本體自動標(biāo)注工具。研究者對本體標(biāo)注工具和語義標(biāo)引平臺進(jìn)行了深入研究,其中,語義標(biāo)引平臺為IE的實施、本體和知識的管理、APIs入口、存儲(RDF倉庫)及編輯本體和知識基礎(chǔ)的用戶接口提供了支持。現(xiàn)有的語義標(biāo)引平臺按照標(biāo)引方法的使用類型,大體上分為三類:①基于模式的標(biāo)引;②基于機器學(xué)習(xí)方面的標(biāo)引;③基于兩種方法融合的標(biāo)引。目前語義標(biāo)引平臺技術(shù)并不成熟,還不能完全滿足語義互聯(lián)的需要,究其原因主要是:①目前大部分標(biāo)引平臺是手動和半自動化的;②學(xué)習(xí)能力不是很強,不能通過自身的不斷學(xué)習(xí)以適應(yīng)不同狀態(tài)下的標(biāo)引和檢索的需要;③可擴展性不夠強,不能完全無障礙地與用戶進(jìn)行交流,以完善自身的知識庫;④平臺需要統(tǒng)一各個用戶之間的標(biāo)引方式和提供的本體,以提高標(biāo)引精度。
2.5語義互聯(lián)應(yīng)用
2.5.1知識可視化知識可視化(knowledge visualiza―tion)是在科學(xué)計算可視化、數(shù)據(jù)可視化、信息可視化基礎(chǔ)上發(fā)展起來的新興研究領(lǐng)域,于2004年由Eppler和Burkard率先提出。它是指應(yīng)用視覺表征手段促進(jìn)群體知識的傳播與創(chuàng)新,包括所有可以用來建構(gòu)和傳達(dá)復(fù)雜知識的圖解手段?,F(xiàn)階段,知識可視化的研究主要為兩個方向:
研究知識可視化的表現(xiàn)形式,包括知識可視化的基礎(chǔ)理論、知識的可視化表現(xiàn)圖的類型、適用范圍和效果。如武漢大學(xué)信息管理專業(yè)學(xué)者對此做了一系列研究,出版了《信息可視化與知識檢索》,從信息檢索結(jié)果提供、多媒體信息可視化方面進(jìn)行了綜述性的研究。
可視化的實現(xiàn),包括知識可視化的形式化模型和算法以及該理論模型和算法的實現(xiàn)系統(tǒng)軟件。比如對于思維導(dǎo)圖(mind map)現(xiàn)階段國外已經(jīng)有Mind Map Manager、Free Mind Map等應(yīng)用軟件。這個方向國內(nèi)研究的主力軍是北京師范大學(xué)知識工程研究中心,該中心開發(fā)了中文概念圖軟件易思一認(rèn)知助手(EasyThinking―Cognitive Assistant)軟件,2007年1月7日已3.0版,將概念圖、思維導(dǎo)圖和一般圖合而為一。
從國外知識可視化實踐進(jìn)展來看,澳大利亞的紐卡斯?fàn)柎髮W(xué)和皇家墨爾本大學(xué)的Bilal Succar進(jìn)行了信息可視化模型構(gòu)建的研究,在研究中設(shè)計了可視化知識模型和研究中所涉及領(lǐng)域的本體。歐洲學(xué)者對本體的可視化進(jìn)行研究,認(rèn)為信息可視化為本體校準(zhǔn)結(jié)果的評價提供了合適的方法。不同層次的細(xì)節(jié)和概論幫助用戶導(dǎo)航并理解校準(zhǔn),用戶對半結(jié)構(gòu)化資源的評價涉及到學(xué)習(xí)活動。馬來西亞普渡大學(xué)的學(xué)者設(shè)計了自動語義抽取系統(tǒng)(AME),可視化界面是該系統(tǒng)中的一部分,在設(shè)計可視化界面時他們發(fā)現(xiàn)用戶可以通過對概念網(wǎng)絡(luò)結(jié)果的可視化來將AME系統(tǒng)的利用擴展到最大化。用戶可以搜索一個概念,并察看這個概念與其他概念之間的關(guān)系。這些關(guān)系可以通過“顯示文本”功能被追溯到原始文件中的來源句子。
2.5.2語義檢索20世紀(jì)80年代國際信息檢索大會SIGIR會議論文中就出現(xiàn)了對語義檢索的討論,但語義檢索研究始終受到語義信息處理發(fā)展水平的制約。上世紀(jì)末以來,隨著自然語言處理、人工智能的發(fā)展,尤其是語義網(wǎng)技術(shù)的興起與發(fā)展,語義檢索研究得以迅速發(fā)展。盡管到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定,但不同的研究卻有著共同之處,就是基于對信息資源的語義處理實現(xiàn)效率更高的檢索。目前語義檢索有兩種,即基于概念的語義檢索和基于本體的語義檢索。前者是根據(jù)概念詞典和關(guān)系數(shù)據(jù)庫構(gòu)建概念空間實現(xiàn)語義檢索,具有一定的語義處理能力和自然語言接口,但其概念庫中不包含概念間關(guān)系的描述,因此無法處理有關(guān)概念的問題;而后者是基于本體構(gòu)建概念空間,將本體融合到傳統(tǒng)信息檢索技術(shù)中,不僅可以繼承概念信息檢索的優(yōu)點,還可以克服概念信息檢索不能對概念關(guān)系進(jìn)行處理的局限。
2.5.3語義互操作數(shù)字圖書館知識組織系統(tǒng)互操作主要解決兩個問題:多語言和異構(gòu)。跨語言的互操作問題在美國和歐洲很受重視,美國數(shù)字圖書館先導(dǎo)研究計劃(Digital Library Initiative)中有許多是著眼于解決語義問題的,例如伊利諾斯(Illinois)大學(xué)主持的項目中關(guān)于概念空間與分類地圖的研究,伯克利(Berkeley)大學(xué)主持的項目中關(guān)于文字歧義消除的研究,卡內(nèi)基?梅隆(Carnegie Mellon)大學(xué)主持的項目中對于語音識別的研究以及加州大學(xué)圣塔巴巴拉分校關(guān)于圖像的分割與聚類的研究,主要集中于人工智能、統(tǒng)計規(guī)律識別技術(shù)等,都屬于語義研究或語義互操作范疇。歐洲相關(guān)的研究項目有MACS、Merimee、Renardus等,甚至嘗試自動建立中、英文詞表之間的映射。我國也有一些關(guān)于雙語數(shù)字圖書館知識組織系統(tǒng)互操作的研究,如《漢語主題詞表》與《美國國會圖書館標(biāo)題表》(LCSH)、本體之間的轉(zhuǎn)換研究、《中國圖書館圖書分類法》與杜威十進(jìn)制分類法(DDC)類目設(shè)置的比較、與DDC對照系統(tǒng)的研制等。
異構(gòu)數(shù)字圖書館系統(tǒng)間的互操作的目標(biāo)是實現(xiàn)不同系統(tǒng)間知識交換、共享與重用。這方面需要解決的問題是:①不同本體之間的互操作。本體雖然為DL的語義互操作提供了解決方案,但其本身也存在著異構(gòu)性,因此不同本體之間的互操作也是DL互操作的一個重要方面。②跨語言、跨文化的互操作。未來的DL將是聯(lián)邦數(shù)字圖書館。建立全球范圍的DL聯(lián)邦,需要解決跨語言、跨文化的互操作問題,其中包括比較復(fù)雜的語言翻譯問題。③DL的發(fā)現(xiàn)與安全性。實現(xiàn)全球范圍內(nèi)DL的互操作,需要解決DL的命名和動態(tài)發(fā)現(xiàn)。隨著DL逐步走向?qū)嵱没仨毧紤]DL互操作的安全問題。
要實現(xiàn)這一目標(biāo),必須在描述、檢索、對象交換與檢索協(xié)議等方面取得突破性的進(jìn)展。需要解決的問題包括元數(shù)據(jù)的定義和通過文本或多媒體數(shù)字對象抽取元數(shù)據(jù),數(shù)字對象的特征描述計算,具有不同語義的異構(gòu)資源庫的整合,信息的聚類和自動分類,自動排序、分級算法以及信息質(zhì)量、類型或其他屬性的自動評測等。
3 結(jié)語
隨著本體在數(shù)字圖書館知識組織系統(tǒng)中的深入應(yīng)用,如何解決本體建模與復(fù)用、本體整合、本體進(jìn)化和語義互操作問題已經(jīng)迫在眉睫。
篇9
并列結(jié)構(gòu)分為有標(biāo)記的并列結(jié)構(gòu)和無標(biāo)記的并列結(jié)構(gòu)。吳云芳[8]指出,對于有標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是確定并列結(jié)構(gòu)的邊界;對于無標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是辨別同類詞連用形式的歧義格式。下面介紹并列結(jié)構(gòu)識別的三種方法:自底向上的圖表算法、中心詞驅(qū)動的并列結(jié)構(gòu)識別、基于條件隨機場的并列結(jié)構(gòu)識別。
1自底向上的圖表算法
自底向上的圖表算法是Hara[5]等提出的,解決嵌套的和非嵌套的并列結(jié)構(gòu)的識別。自底向上的圖表算法即可以處理非嵌套的也可以處理嵌套的并列結(jié)構(gòu)。該方法包含下面兩個步驟:定義并列結(jié)構(gòu)的語法結(jié)構(gòu);并列結(jié)構(gòu)樹分值的選取。(1)并列結(jié)構(gòu)的語法結(jié)構(gòu)并列結(jié)構(gòu)的語法結(jié)構(gòu)是為了確保兩個或多個并列成分的一致性。對于任何兩個并列結(jié)構(gòu),它們或者是沒有重疊的兩個獨立的并列結(jié)構(gòu)(非嵌套)或者是一個并列結(jié)構(gòu)是另一個并列結(jié)構(gòu)的一個并列成分的內(nèi)部部分(嵌套)。并列結(jié)構(gòu)分為完全并列結(jié)構(gòu)(COORD)和部分并列結(jié)構(gòu)(COORD’),主要是為了處理包含三個或三個以上并列成分的并列結(jié)構(gòu)。例如,(a,b,c)在句子中有下面三種形式的并列結(jié)構(gòu)樹,如圖1所示。其中,圖1(a)中的內(nèi)部樹(bandc)是部分并列結(jié)構(gòu),它與前面的并列成分a一起構(gòu)成一個完整的并列結(jié)構(gòu),部分并列結(jié)構(gòu)用COORD’表示。圖1(b)是嵌套的并列結(jié)構(gòu),bandc是完整的并列結(jié)構(gòu),a與(bandc)有構(gòu)成一個并列結(jié)構(gòu),且(bandc)是該并列結(jié)構(gòu)的一個并列成分。圖1(c)中不包含并列結(jié)構(gòu)。(2)并列結(jié)構(gòu)樹分值的選取自底向上的圖表算法能夠有效的獲取由一個句子產(chǎn)生的分值最高的并列結(jié)構(gòu)樹。并列結(jié)構(gòu)樹的分值取所有節(jié)點的加和,并且每個節(jié)點的分值的計算都是獨立的。這里只將COORD和COORD’兩種類型的節(jié)點設(shè)為非空值。并列結(jié)構(gòu)節(jié)點的得分是通過捕捉連詞下方的序列對的對稱性獲得的。
2中心詞驅(qū)動的并列結(jié)構(gòu)識別
中心詞驅(qū)動的并列結(jié)構(gòu)識別算法是由吳云芳[8]提出的,該算法分為下述3個步驟:(1)利用邊界特征詞劃定并列結(jié)構(gòu)的大致范圍。(2)對于名詞性的右中心結(jié)構(gòu)(如圖2所示),并列標(biāo)記之前第一個詞語被認(rèn)定為前并列成分中心詞,根據(jù)一系列相似性原則,在并列標(biāo)記后搜索與前中心詞相似度最大的詞語作為后并列成分中心詞,后并列成分由此確定;對于動詞性的左中心結(jié)構(gòu)(如圖3所示),算法類似只是方向相反。(3)根據(jù)并列成分結(jié)構(gòu)平衡與相似的原則,在并列結(jié)構(gòu)前端搜索與后并列成分平衡性和相似性最大的詞串作為前并列成分。步驟1中提到的邊界特征詞是指大多位于并列結(jié)構(gòu)外部而不位于并列結(jié)構(gòu)的內(nèi)部的詞語,如果位于并列結(jié)構(gòu)內(nèi)部,該詞一般情況下只與其自身形成的并列結(jié)構(gòu)。吳云芳將并列結(jié)構(gòu)的邊界特征詞分為3類。前邊界特征詞、前邊界特征詞類、后邊界特征詞。其中,前邊界特征詞主要有:來自、受到、得到、有利于、包括、具有、涉及、是、作為、如、諸如、例如、來等;前邊界特征詞類主要是連詞(C)和介詞(P);后邊界特征詞主要有:等、等等、都、分別、均、共同、也、之間、來、聯(lián)合等。
3基于條件隨機場的并列結(jié)構(gòu)的識別
用于自然語言處理的統(tǒng)計機器學(xué)習(xí)模型有很多種,如:最大熵、隱馬爾科夫、條件隨機場等。條件隨機場作為一個無向圖模型在序列標(biāo)注問題上比隱馬爾科夫模型、最大熵模型等有向圖模型識別的效果好[18]。王東波[11,19]運用條件隨機場識別有標(biāo)記的聯(lián)合結(jié)構(gòu)。條件隨機場模型是Lafferty[20]在最大熵和隱馬爾科夫模型的基礎(chǔ)上提出的一種用于標(biāo)注和切分的序列化標(biāo)注模型?;跅l件隨機場(Crf)的并列結(jié)構(gòu)識別的系統(tǒng)流程圖,如圖4所示。
4結(jié)束語
篇10
關(guān)鍵詞:決策支持系統(tǒng) 人工智能 專家系統(tǒng)
一、智能決策技術(shù)概述
1.決策支持系統(tǒng)的形成
隨著計算機技術(shù)和應(yīng)用的發(fā)展,如科學(xué)計算、數(shù)據(jù)處理、管理信息系統(tǒng)的發(fā)展以及運籌學(xué)和管理科學(xué)的應(yīng)用,為決策支持系統(tǒng)的形成打下了基礎(chǔ)。決策支持系統(tǒng)(Decision Support System—DDS)是80年代迅速發(fā)展起的新型計算機學(xué)科。70年代初由美國M.S.Scott Morton在《管理決策系統(tǒng)》一文中首先提出決策支持系統(tǒng)的概念。
DSS實質(zhì)上是在管理信息系統(tǒng)和運籌學(xué)的基礎(chǔ)上發(fā)展起來的。管理信息系統(tǒng)重點在對大量數(shù)據(jù)的處理。運籌學(xué)在運用模型輔助決策體現(xiàn)在單模型輔助決策上。隨著新技術(shù)的發(fā)展,所需要不得不解決的問題會愈來愈復(fù)雜,所涉及的模型會愈來愈多,模型類型也由數(shù)學(xué)模型擴充數(shù)據(jù)處理模型。模型數(shù)量也愈來愈多。這樣,對多模型輔助決策問題,在決策支持系統(tǒng)出現(xiàn)之前是靠人來實現(xiàn)模型間的聯(lián)合和協(xié)調(diào)。決策支持系統(tǒng)的出現(xiàn)就是要解決由計算機自動組織和協(xié)調(diào)多模型運行,對大量數(shù)據(jù)庫中數(shù)據(jù)的存取和處理,達(dá)到更高層次的輔助決策能力。決策支持系統(tǒng)的新特點就是增加了模型庫和模型庫管理系統(tǒng),它把眾多的模型(數(shù)學(xué)模型和數(shù)據(jù)處理模型以及更廣泛的模型)有效地組織和存儲起來,并且建立了模型庫和數(shù)據(jù)庫的有機結(jié)合。這種有機結(jié)合適應(yīng)人機交互功能,自然促使新型系統(tǒng)的出現(xiàn),即DDS的出現(xiàn)。它不同于MIS數(shù)據(jù)處理,也不同于模型的數(shù)值計算,而是它們的有機集成。它既有數(shù)據(jù)處理功能又具有數(shù)值計算功能。
決策支持系統(tǒng)概念及結(jié)構(gòu)。決策支持系統(tǒng)是綜合利用大量數(shù)據(jù),有機組合眾多模型(數(shù)學(xué)模型與數(shù)據(jù)處理模型等),通過人機交互,輔助各級決策者實現(xiàn)科學(xué)決策的系統(tǒng)。
DSS使人機交互系統(tǒng)、模型庫系統(tǒng)、數(shù)據(jù)庫系統(tǒng)三者有機結(jié)合起來。它大大擴充了數(shù)據(jù)庫功能和模型庫功能,即DSS的發(fā)展使管理信息系統(tǒng)上升到?jīng)Q策支持系統(tǒng)的新臺階上。DSS使那些原來不能用計算機解決的問題逐步變成能用計算機解決。
2.人工智能概念和研究范圍
(1)人工智能定義。由計算機來表示和執(zhí)行人類的智能活動(如判斷、識別、理解、學(xué)習(xí)、規(guī)劃和問題求解等)就是人工智能。人工智能的研究在逐步擴大機器智能,使計算機逐步向人的智能靠近。
(2)人工智能的研究范圍。人工智能研究的基本范圍有:問題求解、邏輯推理和定理證明、自然語言處理、自動程序設(shè)計、學(xué)習(xí)、專家系統(tǒng)、機器人學(xué)、機器視覺、智能檢索系統(tǒng)、組合高度問題、系統(tǒng)與表達(dá)語言等;其主要研究領(lǐng)域有:自然語言處理、機器人學(xué)、知識工程。
自然語言處理:語音的識別與合成,自然語言的理解和生成,機器翻譯等。
機器人學(xué):從操縱型、自動型轉(zhuǎn)向智能型。在重、難、險、害等工作領(lǐng)域中推廣使用機器人。
知識工程:研究和開發(fā)專家系統(tǒng)。目前人工智能的研究中,最接近實用的成果是專家系統(tǒng)。專家系統(tǒng)在符號推理、醫(yī)療診斷、礦床勘探、化學(xué)分析、工程設(shè)計、軍事決策、案情分析等方面都取得明顯的效果。
3.決策支持新技術(shù)
(1)數(shù)據(jù)倉庫的興起和概念。數(shù)據(jù)倉庫(Data Warehouse—DW)的概念是Prism Solutions公司副總裁W.H.Inmon在1992年出版的書《建立數(shù)據(jù)倉庫》(Building the Data Warehouse)中提出的。數(shù)據(jù)倉庫的提出是以關(guān)系數(shù)據(jù)庫,并行處理和分布式技術(shù)的飛速發(fā)展為基礎(chǔ),它是解決信息技術(shù)在發(fā)展中一方面擁有大量數(shù)據(jù),另一方面有用信息卻很貧乏(Data rich—Information poor)這種不正?,F(xiàn)象的綜合解決方案。
W.H.Inmon在《建立數(shù)據(jù)倉庫》一書中,對數(shù)據(jù)倉庫定義為:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。
傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型處理,是指對數(shù)據(jù)庫聯(lián)機進(jìn)行日常操作,即對一或一組記錄的查詢和修改,主要為企業(yè)特定的應(yīng)用服務(wù)的。用戶關(guān)心的是響應(yīng)時間,數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建成立決策支持系統(tǒng)的基礎(chǔ)。
(2)數(shù)據(jù)倉庫的特點。數(shù)據(jù)倉庫是面向主題的:主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。
數(shù)據(jù)倉庫是集成的:數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同的數(shù)據(jù)來源進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等??傊畬⒃紨?shù)據(jù)結(jié)構(gòu)作一個從面向應(yīng)用到面向主題的大轉(zhuǎn)變。
數(shù)據(jù)倉庫是穩(wěn)定的:數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不更新的。
數(shù)據(jù)倉庫是隨時間變化的:數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限在5-10年,故數(shù)據(jù)的鍵碼包含時間項,標(biāo)明數(shù)據(jù)的歷史時期,這適合DSS進(jìn)行時間趨勢分析。
數(shù)據(jù)倉庫中數(shù)據(jù)很大:通常的數(shù)據(jù)倉庫的數(shù)據(jù)量為10GB級,大型的是一個TB級數(shù)據(jù)量。數(shù)據(jù)中索引和綜合數(shù)據(jù)占2/3,原始數(shù)據(jù)占1/3。
數(shù)據(jù)倉庫軟、硬件要求:需要一個巨大的硬件平臺和一個并行的數(shù)據(jù)庫系統(tǒng)。
(3)數(shù)據(jù)開采的概念及方法。1995年在加拿大召開了第一屆知識發(fā)現(xiàn)(Knowledge Discovery in Database—KDD)和數(shù)據(jù)開采(Data Mining—DM)國際學(xué)術(shù)會議以后,“數(shù)據(jù)開采”開始流行,它是“知識發(fā)現(xiàn)”概念的深化,知識發(fā)現(xiàn)與數(shù)據(jù)開采是人工智能、機器學(xué)習(xí)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。KDD一詞是在1989年8月于美國底特律市召開的第一屆KDD國際學(xué)術(shù)會議上正式形成的。
知識發(fā)現(xiàn)被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。數(shù)據(jù)開采被認(rèn)為是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式。
數(shù)據(jù)開采的主要方法和技術(shù)有:信息論方法、集合論方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計分析方法及其它方法。
二、智能決策技術(shù)原理
熱門標(biāo)簽
自然科學(xué)論文 自然辯證法 自然美 自然地理學(xué) 自然科學(xué)基礎(chǔ) 自然科學(xué) 自然觀 自然資源 自然生態(tài)論文 自然段 心理培訓(xùn) 人文科學(xué)概論