聚類分析論文范文

時間:2023-04-12 04:50:36

導語:如何才能寫好一篇聚類分析論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

聚類分析論文

篇1

對于股票投資來說,一定要關(guān)注股票上市公司的基本盈利狀況以及該公司未來的發(fā)展狀況。在投資時,這兩大因素必須進行思考衡量,因為這兩大因素是衡量一個上市公司有沒有投資價值最基本的條件。因此,要在投資前計算出該股票每股的收益、該公司凈資產(chǎn)收益率以及主營收入增長率。

1.盈利能力指標??傎Y產(chǎn)利潤率=凈利潤/平均資產(chǎn)總額,這體現(xiàn)出公司整體的獲利能力。凈資產(chǎn)利潤率=凈利潤/平均凈資產(chǎn),這個關(guān)系可以直接體現(xiàn)出股東投資的回報。主營業(yè)務(wù)收益率=主營業(yè)務(wù)利潤/主營業(yè)務(wù)收入,主營業(yè)務(wù)是上市公司利潤的來源,主營業(yè)務(wù)的收益越大,公司在市場中的競爭優(yōu)勢就越明顯。每股收益=凈利潤/期末總股本,每股的收益越高,反應出每股獲利的能力越強。

2.成長能力指標。主營業(yè)務(wù)收益增長率=本期主營業(yè)務(wù)收入/上期主營業(yè)務(wù)收入-1,這體現(xiàn)出上市公司重點項目的成長力。凈資產(chǎn)利潤率=本期凈利潤/上期凈利潤-1,上市公司給員工的薪酬都是根據(jù)凈利潤決定的。

二、聚類分析的投資方法應用實例

聚類分析方法隸屬多元統(tǒng)計分析方法之中,與多元統(tǒng)計分析法和回歸分析法并稱為三大應用方法。聚類分析法一定要建立在某個優(yōu)化意義基礎(chǔ)之上,如果將聚類分析方和常規(guī)的分析法相比較的話,會發(fā)現(xiàn)聚類分析法有很大的優(yōu)勢,第一是使用聚類分析法可以對數(shù)據(jù)中的多個變量進行樣本分析,然后將其分類整理;第二是通過使用聚類分析法所得出的數(shù)據(jù)非常直觀明了,通過觀察聚類譜系圖投資者就能夠清楚地分析出數(shù)據(jù)顯示的結(jié)果;第三是如果將聚類統(tǒng)計法所得出來的數(shù)據(jù)結(jié)果與普通方法計算出來的結(jié)果進行對比,不難發(fā)現(xiàn)聚類分析法的對比結(jié)果更加細致、科學、全面,接下來通過兩個應用的實例進行說明。

1.原始數(shù)據(jù)標準化。為了解決原始數(shù)據(jù)量綱和數(shù)量級差異帶來的影響,更好的對聚類分析和判別進行分析,可以采用指標標準化的處理方法。

2.逆指標正向化處理。流通股本是逆指標,對其絕對值取倒數(shù)可以得出。

三、將聚類分析法應用到金融投資上的意義

將聚類分析法應用于金融投資上,不但可以顯示出有效、科學、全面的數(shù)據(jù)更能幫助彌補金融投資投資時所出現(xiàn)的不足。

第一,聚類分析法建立在基礎(chǔ)分析之上,對投資股票從一些基本層面進行量化分析,進而對股票價格影響因素定性進行補充并完善了原有的基礎(chǔ)分析。聚類分析法作為長期的理性投資參考依據(jù),是為了發(fā)掘股票投資的真實價值,避免由于市場過熱導致資產(chǎn)估值不公允。

第二,在建立投資評價模型的時候,可以運用聚類分析法對公司和股票投資價值之間的聯(lián)系進行分析。公司的成長是一個在哥登模型中,在一個變化的趨勢內(nèi)進行。不變的股息增長率對實際情況并不符合,在采用多階增長模型的時候,想要得到不同階段的股息增長率是很困難的。所以,對股票的成長進行分析得時候,可以選取凈利潤率等客觀的數(shù)據(jù)做參考,這樣可以估算出股票的發(fā)展?jié)摿Α?/p>

第三,通過對聚類分析法和現(xiàn)資組合理論的比較可以得出,聚類分析法比現(xiàn)資組合理論更具有直觀性和實用性,并且在實際生活中的局限小。該方法主要著眼于實際數(shù)據(jù)的相似性和其延生的規(guī)律性,較投資學中一些以預測和假定前提較多的模型而言更具有現(xiàn)實意義,也更加貼近當前市場情況的現(xiàn)實。另外,聚類分析法的操作性強,在實際應用過程中有一定的優(yōu)越性,更加適合投資者使用。

第四,聚類分析法作為長期投資的理念,隨著我國金融行業(yè)的不斷發(fā)展,逐漸被更多的投資人采用。理性的運用聚類分析法這種投資方法,不但可以使投資者的投資風險降到最低,還可以規(guī)范其他投行的投資行為,促使發(fā)行股票的企業(yè)可以本著經(jīng)營業(yè)績和長期的成長模式進行投資,在一定程度上可以有效規(guī)避道德風險和投機行為,保證金融市場的穩(wěn)定性和規(guī)范性,保護散戶和弱勢群體的經(jīng)濟利益,進而繁榮整個股票、證劵市場,使我國的經(jīng)濟更繁榮。

四、結(jié)論

篇2

關(guān)鍵詞:聚類分析算法 應用研究 算法描述

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01

聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規(guī)則或檢驗度量函數(shù)標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監(jiān)督的學習方法。聚類分析方法是數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分析普遍運用方法之一,其功能最終實現(xiàn)被研究數(shù)據(jù)按照相關(guān)聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數(shù)據(jù)對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數(shù)據(jù)集合。聚類分析能夠?qū)⒁唤M事物或數(shù)據(jù)按照聚類算法規(guī)則進行聚類處理,根據(jù)聚類算法規(guī)則的不同而實現(xiàn)各自側(cè)重的聚類分析結(jié)果。

1 聚類分析算法

根據(jù)聚類對象數(shù)據(jù)類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數(shù)據(jù)的聚類分析,Q型聚類是對具體觀測值數(shù)據(jù)的聚類分析。對數(shù)據(jù)對象的聚類分析要借助于聚類分析算法來實現(xiàn)完成,聚類分析算法的基本定義為:

目標數(shù)據(jù)集合,對于數(shù)據(jù)集合中的任一數(shù)據(jù)元素,具有個特征屬性,任一數(shù)據(jù)元素的屬性特征向量集表示為。通過特定的數(shù)據(jù)分析處理準則對目標數(shù)據(jù)集進行聚類處理后,目標數(shù)據(jù)集被劃分成具有個子集的數(shù)據(jù)類集合,,聚類結(jié)果數(shù)據(jù)集必須滿足:

根據(jù)聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網(wǎng)格的聚類分析算法、基于模型的聚類分析算法。

2 K―means聚類分析算法描述

對于給定包含個數(shù)據(jù)對象的數(shù)據(jù)集,按照標準偏移量的目標函數(shù)進行劃分,形成K個聚類。具體操作過程為:

第一步:數(shù)據(jù)規(guī)范化處理。對數(shù)據(jù)對象進行規(guī)范化預處理,消除非法值及極值影響。

第二步:數(shù)據(jù)準備。計算各科標準差:

第三步:計算各初始聚類中心。

第四步:計算與聚類中心最近鄰的數(shù)據(jù)對象,并合并成新類。

第五步:重新計算聚類中心值。

第六步:驗證聚類收斂性。

if 聚類中心值o新變化

結(jié)束聚類 else 轉(zhuǎn)入第四步 endif

第七步:進行各個類數(shù)據(jù)分析。

3 結(jié)語

總之,聚類分析算法是數(shù)據(jù)挖掘中一種常用算法,在數(shù)據(jù)挖掘過程中有很多算法,每種算法都有自己的優(yōu)缺點,數(shù)據(jù)挖掘是一項極其復雜過程,一般情況我們都是多種算法結(jié)合起來一起應用,目的提高工作效率,提高數(shù)據(jù)挖掘的準確性,數(shù)據(jù)挖掘技術(shù)在我國應用領(lǐng)域比較廣,并且取得一定成績,在當今大數(shù)據(jù)時代,研究數(shù)據(jù)挖掘具有一定的現(xiàn)實意義,具有深遠的研究價值。

參考文獻

[1]吳多智.基于語義的手機類產(chǎn)品用戶評論維度挖掘研究[J].安徽電子信息職業(yè)技術(shù)學院學報,2016(03).

[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).

[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).

[4]許進文.數(shù)據(jù)挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).

篇3

【關(guān)鍵詞】高壓;聚類分析;特點;研究

1.引言

高壓電纜是電力系統(tǒng)中重要的設(shè)備,由于其適合于地下走線方式在城市電網(wǎng)中得到了大量的應用,節(jié)約了大量的空間資源,然而由于地下潮濕等因素以及布線過程中人為的損壞都可能造成電纜絕緣層的損壞,在運行電壓的長期作用下,可能造成局部放電的發(fā)生,如果得不到及時的處理,最終會導致電纜短路,從而引發(fā)停電事故,造成經(jīng)濟損失,所以,對電纜進行局部放電檢測是必要的,基于此,文章分析了電纜局部放電的特點,然后根據(jù)聚類分析對放電進行了分析。

2.電纜局部放電信號傳播特性仿真

在對電纜進行局部放電檢測之前,需要對影響其局部放電信號傳播特性的參數(shù)進行分析。為了得到其原理,我們假設(shè)其長度很長,同時由于電纜局部放電信號含有豐富的信息[7],其波長與線路長度相比非常短,因此在研究局部放電信號傳播規(guī)律時,需要利用電纜的分布參數(shù)模型來分析[8],圖1所示為電纜的分布簡化模型。

圖1 電力電纜的分布參數(shù)模型

圖1中,R0、L0、C0、G0分別為電纜單位長度的電阻、電感、對地電容和對地電導,上這些基本參數(shù)決定了電纜中的相應特性[9-11]。結(jié)合上圖,可以得到一個新的二次參數(shù)特性阻抗Zc,Zc表示均勻傳輸線上任一點的電壓和電流之間的關(guān)系。

(1)

可見,這個公式就決定了相應的參數(shù)之間的關(guān)系。由于阻抗是一個復數(shù),電壓和電流的絕對值之比決定了其相對值;電壓和電流的相位差決定了其幅值的大小,這個參數(shù)就可以反映出相應的特性參數(shù)。Zc重新表述為:

(2)

那么,|Zc|和就是其中所含有的信息。Zc反映了電纜上一點的特性[12]。對于脈沖信號來說,可以用傳輸常數(shù)來描述。在傳輸常數(shù)中,包含兩個常數(shù):固有衰耗常數(shù)和固有相移常數(shù)。固有衰耗常數(shù)反映了處于匹配連接的線路上[13],能量損耗方面的傳輸規(guī)律,固有相移常數(shù)則反映了信號傳播過程中相位的變化。因此線路的傳輸規(guī)律可用式(3)表示,其中l(wèi)是電纜的長度。

(3)

根據(jù)上述的分析,我們得到了如下的結(jié)論:

(1)由電纜的一次參數(shù)所決定,越大,就說明了信號的衰減會越大。

(2)小于1,那么,局部放電信號將會呈指數(shù)規(guī)律衰減,并且其衰減程度取決于電纜的長度,線路越長,衰減情況越嚴重。

式(3)中的反映的則是信號傳輸?shù)南嘁?,它影響的是局部放電信號的相位,并且隨著信號頻率的升高,、均隨之增大。經(jīng)過上述分析,可以看出:電纜長度越長,局部放電信號在傳播過程中的衰減越嚴重。局放信號的頻率越高,則與之對應的、也越大,即信號的幅度衰減及相位移動也越嚴重。

3.聚類分析

聚類是根據(jù)放電的性質(zhì)不同,將具有相同性質(zhì)的特征量進行聚合的算法。由于其具有直觀的特點在許多領(lǐng)域得到大量的使用。基于聚類分析的工具已經(jīng)被加入到許多統(tǒng)計分析軟件包或系統(tǒng)中,如S-Plus、SPSS,以及SAS??傮w說來,包括如下幾個方面的內(nèi)容:

(1)分化方法。假設(shè)一個數(shù)據(jù)集含有n個對象或數(shù)據(jù)行,相應的分化就是將數(shù)據(jù)集劃分為k個子集(劃分)。其中每個子集均代表一個聚類(k[n])。

(2)層次方法。該方法就是通過分解所給定的數(shù)據(jù)對象集來創(chuàng)建一個層次。它存在的缺陷就是在進行(組)分解或合并之后無法回溯。將循環(huán)再定位與層次方法結(jié)合起來使用常常是有效的,如BIRCH和CURE,就是基于這種組合方法設(shè)計的。

(3)基于密度的方法。只要臨近區(qū)域的密度(對象或數(shù)據(jù)點的數(shù)目)超過某個閾值,就繼續(xù)聚類。DBSCAN是一個有代表性的基于密度的方法。它根據(jù)一個密度閾值來控制簇的增長。

(4)基于網(wǎng)格的方法?;诰W(wǎng)格方法將對象空間劃分為有限數(shù)目的單元以形成網(wǎng)格結(jié)構(gòu)。其主要優(yōu)點是它的處理速度很快,其處理時間獨立于數(shù)據(jù)對象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。STING就是一個典型的基于網(wǎng)格的方法。

(5)基于模型的方法。該方法就是為每個聚類假設(shè)一個模型,然后再去發(fā)現(xiàn)符合相應模型的數(shù)據(jù)對象。它根據(jù)標準統(tǒng)計方法并考慮到噪聲或異常數(shù)據(jù),可以自動確定聚類個數(shù);因而它可以產(chǎn)生很魯棒的聚類方法。數(shù)據(jù)挖掘在不同領(lǐng)域?qū)垲愃惴ㄌ岢隽烁髯蕴厥獾囊蟆?/p>

定義:數(shù)據(jù)對象i與j的相異度為。其中,dijk2是第k個值距離的平方,對每個變量根據(jù)其重要性賦予一個權(quán)重,運用加權(quán)的歐幾里得距它決定第k個值的重要性。根據(jù)局部放電的特點,可以得到相應的聚類效果。聚類分析也可以進行孤立點的分析。經(jīng)常存在一些數(shù)據(jù)對象,它們不符合數(shù)據(jù)的一般模型,這些數(shù)據(jù)對象被稱為孤立點。

結(jié)合實地的電纜局部放電特性,根據(jù)聚類方法,得到了如下的結(jié)果:

表1 最終的判斷結(jié)果

故障類型 訓練樣本 測試樣本 正確率(%)

1 50 100 81.13

82.31

83.61

84.15

2 50 100

3 50 100

4 50 100

圖2 電纜局部放電聚類分析流程圖

圖3 聚類分析結(jié)果

4.結(jié)論

電纜是電力系統(tǒng)中重要的電氣設(shè)施,文章根據(jù)電纜局部放電的相關(guān)特點,結(jié)合聚類分析法對其放電進行了分析,取得了一定的成果,對現(xiàn)場具有一定的指導意義。

參考文獻

[1]談克雄,呂喬青.交聯(lián)聚乙烯電纜絕緣的在線診斷技術(shù)[J].高電壓技術(shù),1993,19(3):71-75.

[2]馬麗嬋,鄭曉泉,謝安生.交聯(lián)聚乙烯電纜中電樹枝的研究現(xiàn)狀[J].絕緣材料,2007,40(5):49-52.

[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.

[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.

[5]李偉新.交聯(lián)聚乙烯電纜在線監(jiān)測系統(tǒng)在廈門的應用[J].福建電力電工,2001,21(2):49-51.

[6]韋斌.110kV高壓XLPE電纜附件局部放電在線監(jiān)測與故障特性的研究[D].北京:華北電力大學碩士學位論文,2004.

[7]劉兵.基于行波電力電纜故障單端在線測距研究[D].武漢:武漢大學碩士學位論文,2002.

[8]楊建國.小波分析及其工程應用[M].北京:機械工業(yè)出版社,2005.

[9]張國華,張文娟.小波分析與應用基礎(chǔ)[M].西安:西北工業(yè)大學出版社,2006.

[10]劉貴忠,邸雙亮.小波分析及其應用[M].西安:西安電子科技大學出版社,1992.

[11]黃子俊,陳允平.基于小波變換模極大值的輸電線路單端故障定位[J].電力自動化設(shè)備,2005,25(2):101-102.

[12]華欣.電氣設(shè)備絕緣在線監(jiān)測芻議[J].四川電力技術(shù),2001,2:49-52.

篇4

一、論文的研究內(nèi)容

論文的研究內(nèi)容包括兩個方面:一是研究新的高效的聚類算法;一是把已有的聚類算法或論文提出的新算法和入侵檢測技術(shù)相結(jié)合,從而提出一個好的入侵檢測模型。具體的研究內(nèi)容包括以下幾個點:

第一、針對聚類算法的研究問題:

1、如何提高算法的可擴展性

許多聚類算法在小于200個數(shù)據(jù)對象的小數(shù)據(jù)集上是高效率的,但是無法處理一個大規(guī)模數(shù)據(jù)庫里的海量對象?,F(xiàn)有的聚類算法只有極少數(shù)適合處理大數(shù)據(jù)集,而且只能處理數(shù)值型數(shù)據(jù)對象,無法分析具有類屬性的數(shù)據(jù)對象。

2、如何處理離群點

在實際應用中,估計數(shù)據(jù)集中的離群點可能是非常困難的,很多算法通常丟棄增長緩慢的簇,這樣的簇趨向于代表離群點。然而在某些應用中,用戶可能對相對較小的簇比較感興趣,比如入侵檢測中,這些小的簇可能代表異常行為,那么我們需要考慮在對算法影響更小的前提下,如何更好的處理這些離群點。

3、研究適合具有類屬性數(shù)據(jù)的聚類算法的有效性

對聚類分析而言,有效性問題通??梢赞D(zhuǎn)換為最佳類別數(shù)K的決策。而目前有關(guān)聚類算法的有效性分析,大都集中在對數(shù)值數(shù)據(jù)的聚類方式分析上。對于具有類屬性的數(shù)據(jù)聚類,還沒有行之有效的分析方法。

第二、針對聚類算法在IDS應用中的研究問題:

1、如何結(jié)合聚類技術(shù)和入侵檢測技術(shù)取得更好的效果

很多的聚類算法都已經(jīng)和IDS應用環(huán)境結(jié)合起來了,很多研究者對前人提出的算法作出改進后,應用到IDS系統(tǒng)中去,或者提出一個全新的算法來適應IDS的要求。隨著聚類技術(shù)的不斷發(fā)展,聚類技術(shù)在入侵檢測中的應用將是一個很有前景的工作。我們需要把更好的聚類技術(shù)成果應用到入侵檢測中。

2、利用聚類技術(shù)處理入侵檢測中的頻繁誤警

雖然入侵檢測是重要的安全措施,然而它常常觸發(fā)大量的誤警,使得安全管理員不堪重負,事實上,大量的誤警是重復發(fā)生并且頻繁發(fā)生的,可以利用聚類技術(shù)來尋找導致IDS產(chǎn)生大量誤警的本質(zhì)原因。

二、學位論文研究依據(jù)

學位論文的選題依據(jù)和研究意義,以及國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢

聚類分析研究已經(jīng)有很長的歷史,其重要性及其與其他研究方向的交叉特性已經(jīng)得到了研究者的充分肯定。對聚類算法的研究必將推動相關(guān)學科向前發(fā)展。另外,聚類技術(shù)已經(jīng)活躍在廣泛的應用領(lǐng)域。作為與信息安全專業(yè)的交叉學科,近年來,聚類算法在入侵檢測方面也得到大量的應用。然而,聚類算法雖取得了長足的發(fā)展,但仍有一些未解決的問題。同時,聚類算法在某些應用領(lǐng)域還沒有充分的發(fā)揮作用,聚類技術(shù)和入侵檢測技術(shù)結(jié)合得還不夠完善。在這種背景下,我們認為,論文的選題是非常有意義的。

本論文研究的內(nèi)容主要包括兩個方面:聚類算法的研究以及聚類算法在入侵檢測中的應用。下面從兩個方面闡述國內(nèi)外這兩個方面的發(fā)展現(xiàn)狀和趨勢:

前人已經(jīng)提出很多聚類算法,然而沒有任何一種聚類算法可以普遍適用于揭示各種多維數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的結(jié)構(gòu),根據(jù)數(shù)據(jù)在聚類中的積聚規(guī)則以及應用這些規(guī)則的方法,可以將聚類算法分為以下幾種:

1.劃分聚類算法

劃分聚類算法需要預先指定聚類數(shù)目或聚類中心,通過反復迭代運算,逐步降低目標函數(shù)的誤差值,當目標函數(shù)收斂時,得到最終的聚類結(jié)果,劃分聚類算法典型代表是k-means算法[1]和k-modoids算法。這些算法處理過程簡單,運行效率好,但是存在對聚類數(shù)目的依賴性和退化性。迄今為止,許多聚類任務(wù)都選擇這兩個經(jīng)典算法,針對k-means及k-modoids的固有弱點,也出現(xiàn)了的不少改進版本。

2.層次聚類算法

又稱樹聚類算法,它使用數(shù)據(jù)的聯(lián)接規(guī)則,透過一種層次的架構(gòu)方式,反復將數(shù)據(jù)進行分裂和聚合,以形成一個層次序列的聚類問題解。由于層次聚類算法的計算復雜性比較高,所以適合于小型數(shù)據(jù)集的聚類。20xx年,Gelbard等人有提出一種新的層次聚合算法,稱為正二進制方法。該方法把待分類數(shù)據(jù)以正的二進制形式存儲在二維矩陣中,他們認為,將原始數(shù)據(jù)轉(zhuǎn)換成正二進制會改善聚類結(jié)果的正確率和聚類的魯棒性,對于層次聚類算法尤其如此。Kumar等人[9]面向連續(xù)數(shù)據(jù)提出一種新的基于不可分辨粗聚合的層次聚類算法,既考慮了項的出現(xiàn)次序又考慮了集合內(nèi)容,該算法能有效挖掘連續(xù)數(shù)據(jù),并刻畫類簇的主要特性。

3.基于密度-網(wǎng)格的聚類算法

與傳統(tǒng)的聚類方法不同:基于密度的聚類算法,通過數(shù)據(jù)密度來發(fā)現(xiàn)任意形狀的類簇;基于網(wǎng)格的聚類算法,使用一個網(wǎng)格結(jié)構(gòu),圍繞模式組織由矩形塊劃分的值空間,基于塊的分布信息實現(xiàn)模式聚類,基于網(wǎng)格的聚類算法常常與其他方法相結(jié)合,特別是與基于密度的聚類方法相結(jié)合。基于網(wǎng)格和密度的聚類方法在以空間信息處理為代表的眾多領(lǐng)域有著廣泛的應用。特別是伴隨著近來處理大規(guī)模數(shù)據(jù)集、可伸縮的聚類方法的開發(fā),它在空間數(shù)據(jù)挖掘研究子域日趨活躍。

開題報告研究方法大全

實證研究法

實證研究法是科學實踐研究的一種特殊形式。其依據(jù)現(xiàn)有的科學理論和實踐的需要,提出設(shè)計,利用科學儀器和設(shè)備,在自然條件下,通過有目的有步驟地操縱,根據(jù)觀察、記錄、測定與此相伴隨的現(xiàn)象的變化來確定條件與現(xiàn)象之間的因果關(guān)系的活動。主要目的在于說明各種自變量與某一個因變量的關(guān)系。

定量分析法

在科學研究中,通過定量分析法可以使人們對研究對象的認識進一步精確化,以便更加科學地揭示規(guī)律,把握本質(zhì),理清關(guān)系,預測事物的發(fā)展趨勢。

定性分析法

定性分析法就是對研究對象進行質(zhì)的方面的分析。具體地說是運用歸納和演繹、分析與綜合以及抽象與概括等方法,對獲得的各種材料進行思維加工,從而能去粗取精、去偽存真、由此及彼、由表及里,達到認識事物本質(zhì)、揭示內(nèi)在規(guī)律。

篇5

關(guān)鍵詞:縣域競爭力 聚類分析 預測

聚類分析(Cluster Analysis)又稱群分析,是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法。根據(jù)分類對象的不同,聚類分析可以分為樣本聚類和變量聚類。樣本聚類又稱為Q型聚類,是根據(jù)反映被觀測的對象各種特征的多變量進行聚類;變量聚類又稱為R型聚類,根據(jù)所研究問題選擇部分變量對問題某一方面進行分類。在縣域經(jīng)濟競爭力的分析當中適當應用聚類分析,有助于各縣級單位互相借鑒互相學習。

一、國內(nèi)外研究綜述

競爭力研究最早起源于西方國家,國外比較有影響力的經(jīng)濟競爭力評價體系有 IMD的國際競爭力評價體系、WEF競爭力評價體系和波特的區(qū)域競爭力模型,這些已取得的成果都可以為研究者借鑒。在文獻梳理過程中發(fā)現(xiàn),專門針對縣域經(jīng)濟綜合競爭力聚類分析與預測研究的文獻較少[1-8],因此本研究綜合國內(nèi)外學者的研究成果,結(jié)合山東省經(jīng)濟現(xiàn)狀,在構(gòu)建的指標體系框架和分析預測理論基礎(chǔ)上,對山東省2009、2010兩年的縣域經(jīng)濟綜合競爭力進行排名,評價和預測分析。受數(shù)據(jù)所限,2006―2010年的數(shù)據(jù)長度中2006―2008年縣域經(jīng)濟綜合競爭力排名不包括科技競爭力,2009―2010年縣域經(jīng)濟綜合競爭力排名涵蓋經(jīng)濟實力、社會發(fā)展、資源環(huán)境、科學技術(shù)和政府競爭力,因此主要對2009―2010年的縣域經(jīng)濟綜合競爭力進行分析,同樣由于科技競爭力數(shù)據(jù)長度不足,預測部分將分別預測各類一級指標競爭力。

二、縣域競爭力指標體系構(gòu)建

綜合國內(nèi)外相關(guān)研究成果,使用層次分析法(AHP)從經(jīng)濟實力競爭力、社會發(fā)展競爭力、資源承載力和政府能動力四個角度出發(fā),構(gòu)建縣域經(jīng)濟綜合競爭力三級指標體系,其中經(jīng)濟實力競爭力從GDP、財政收入、對外依存度、產(chǎn)業(yè)結(jié)構(gòu)等角度反映縣域經(jīng)濟基本發(fā)展能力;社會發(fā)展競爭力從科教文衛(wèi),以及居民收入方面反映縣域社會發(fā)展建設(shè)水平;資源承載力表示縣域經(jīng)濟發(fā)展密度,包括人口密度和GDP密度兩個三級指標;政府能動力指標反映縣級政府充分運用縣內(nèi)外資源,主動且有效地調(diào)控經(jīng)濟運行的能力。具體指標體系略。

三、2010年縣域競爭力聚類分析

應用SPSS15.0軟件,對山東省92個縣域5個一級指標得分與各自權(quán)重乘積作為聚類變量進行Q型聚類分析,進行了聚類分析,表1給出了2009年的總體聚類結(jié)果。使用最遠距離法,選擇歐氏距離作為分類,將山東省92個縣市劃分成6種類型,聚類分析的ANOVA數(shù)據(jù)顯示,將山東省92個縣域分為6大類在統(tǒng)計學上是科學的,是有意義的。第Ⅰ類包括文登市、龍口市、榮成市等11個縣市,這類地區(qū)是省縣域經(jīng)濟的領(lǐng)跑者,綜合競爭力較強,一級指標均明顯高于全省平均水平,其中經(jīng)濟實力、社會發(fā)展和科學技術(shù)競爭力在所有縣域中具有明顯優(yōu)勢,資源環(huán)境和政府分別略低于第Ⅲ類和第Ⅴ類縣域。第Ⅱ類包括諸城市、膠南市、青州市、平度市等14個縣市地區(qū),綜合競爭力較好,經(jīng)濟實力、社會發(fā)展、科學技術(shù)和政府競爭力均高于全國平均水平,但資源環(huán)境較弱,低于全省平均水平。第Ⅲ類包括即墨市、桓臺縣、廣饒縣等9個縣市,這些地區(qū)資源環(huán)境競爭力高于其他5類地區(qū),社會發(fā)展也處于領(lǐng)先水平,但經(jīng)濟實力、科學技術(shù)和政府都低于全省平均水平。第Ⅳ類型包括寧陽縣,長清縣,平陰縣等24個縣市,這些地區(qū)資源環(huán)境和科學技術(shù)高于全省平均水平,但與領(lǐng)先縣域仍存在較大差距,經(jīng)濟實力等均處于較為落后的水平。第Ⅴ類型包括高密市,巨野縣,曹縣等9個縣市,這些縣市政府競爭力優(yōu)于其他5種類型,資源環(huán)境競爭力也高于全省平均水平,但科學技術(shù)競爭力在所有類型中處于最低水平。第Ⅵ類有墾利縣,齊河縣,臨朐縣等26個縣市,經(jīng)濟基礎(chǔ)較差,指標均低于全國平均水平。

四、競爭力預測分析

由于各地區(qū)資源環(huán)境競爭力和科學技術(shù)競爭力數(shù)據(jù)時間跨度不足,無法進行預測,因此本部分將對經(jīng)濟實力競爭力、社會發(fā)展競爭力和政府競爭力進行分項預測。使用指數(shù)平滑方法中的Holt模型進行預測,對于該預測方法的實際預測效果使用2010年數(shù)據(jù)進行誤差檢驗。這里使用2000―2009年的經(jīng)濟實力競爭力數(shù)據(jù)預測2010年經(jīng)濟實力競爭力數(shù)據(jù),并進行排名,與2010年的實際結(jié)果進行對比(表2),以進行驗證。由名次對比可知,排名前30名總體保持一致。其中有6個縣的預測結(jié)果與實際結(jié)果完全一致;前30名內(nèi)有21個指標預測排名與實際排名相差2個名次之內(nèi);前30名僅有1個縣的排名預測排名與實際排名大于10個名次。對比各個單項指標也可以得到類似的結(jié)論??梢哉f從排名上來看,我們對于2010年的預測排名與實際排名的基本上是相符合的。

五、結(jié)論與展望

從本研究結(jié)果可以看出,各縣域若想提高本地經(jīng)濟綜合競爭力,需要在經(jīng)濟、社會發(fā)展、資源發(fā)展和政府能動方面齊頭并進。在推動當?shù)亟?jīng)濟發(fā)展過程中, 將提高當?shù)鼐用袷杖胨健?優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)、 增加政府財政收入和加強對外開放作為提高地區(qū)綜合競爭力的重要手段; 政府能動力代表地方政府調(diào)控當?shù)睾暧^經(jīng)濟的能力,這要求各地區(qū)增加財政支出在占GDP的比重;而與社會公共服務(wù)能力指標相對應,政府在增加財政支出占比的同時,政府需要增加教育和衛(wèi)生支出以強化當?shù)厣鐣l(fā)展競爭力。

參考文獻:

[1]范壽波. “長三角”縣域經(jīng)濟競爭力的研究[J].江南論壇,2005(1):16―18

[2]王賢海. 安徽縣域經(jīng)濟競爭力評價[J]. 統(tǒng)計與決策,2006(10):68―73

[3]黃源湘,魏峰. 安徽縣域經(jīng)濟綜合競爭力研究[J]. 安徽農(nóng)學通報,2008(1):47―50

[4]薄錫年. 河北省縣域經(jīng)濟綜合競爭力研究[D]. 河北農(nóng)業(yè)大學博士學位論文,2007:2―4

[5]羅哲,李樹基. 甘肅省縣域經(jīng)濟競爭力的實證分析與對策研究[J]. 開發(fā)研究,2007(6):72―76

[6]周春蕾,駱建艷. 縣域綜合競爭力評價指標體系研究[J]. 消費導刊,2008(24):69―71

[7]劉定青. 關(guān)于建立縣域科學發(fā)展指標體系的調(diào)查與思考[J]. 中國鄉(xiāng)村建設(shè),2009(04):81―87

[8]孔凡萍,于俊鳳. 縣域經(jīng)濟科學發(fā)展評價指標選擇探析[J]. 科學與管理,2011(1):34―37

[9]丁華,楊曉麗. 山東省縣域經(jīng)濟綜合競爭力變動成因研究――以2006―2010年山東省部分縣域為例[J]. 科技進步與對策,2012(增)

篇6

關(guān)鍵詞:模糊聚類,追蹤法,行業(yè)污染

 

1 引言

傳統(tǒng)的聚類分析是一種硬劃分,每個對象都只能歸于一類,而現(xiàn)實的分類問題往往伴隨著模糊性,即每個對象屬于某一類是程度問題。這時候單純的嚴密的理論推導和數(shù)學計算往往達不到很好的效果,相反,模糊邏輯在這方面具有極大的優(yōu)勢【1】,隨著模糊數(shù)學的不斷發(fā)展,聚類的算法也在不斷的更新和發(fā)展.新產(chǎn)生的聚類算法更加適用于生產(chǎn)生活,并且和計算機技術(shù)的結(jié)合也更加緊密,追蹤法就是這樣的一種算法。和傳統(tǒng)的聚類方法相比較,追蹤法在建立模糊矩陣后,不需要計算等價閉包,也不需要畫圖或者編程求解模糊矩陣的最大生成樹和編網(wǎng),只需要對模糊矩陣進行算法復雜度為O(n2)的數(shù)據(jù)分析,就可以得出聚類結(jié)果。

2 模糊聚類新算法---追蹤法的計算步驟

用追蹤法進行模糊聚類分析主要可以分為:數(shù)據(jù)標準化、標定(建立模糊矩陣)、模糊聚類三個部分。

2.1 數(shù)據(jù)標準化

這里所說的數(shù)據(jù)標準化,就是根據(jù)模糊數(shù)學相關(guān)理論,去掉數(shù)據(jù)中的量綱,并將數(shù)據(jù)壓縮到區(qū)間[0,1]上。

設(shè)論域為被分類的對象,每個對象可以使用m個指標表示其性狀:于是得到原始數(shù)據(jù)為:

在實際問題中,不同的數(shù)據(jù)由于其量綱不同,無法進行比較。為了使有不同量綱的量也能進行比較,通常需要對數(shù)據(jù)作適當?shù)淖儞Q。一般采用平移標準差變化法來解決這個問題,計算公式如下:

=

經(jīng)過變換后,變量的均值為0,標準差為1,且消除了量綱的影響。

2.2 標定(建立模糊矩陣)

設(shè)論域依照傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,與的相似程度,確定的方法主要借用傳統(tǒng)聚類的數(shù)量積法、夾角余旋法、相關(guān)系數(shù)法、指數(shù)相似系數(shù)法、絕對值倒數(shù)法、絕對值指數(shù)法、閔可夫斯基距離法、馬氏距離法和蘭氏距離法等方法。具體采用哪些方法進行聚類分析,主要依據(jù)實際情況決定。

2.3 使用追蹤法進行模糊聚類

在建立了模糊相似矩陣后,就可以用追蹤法進行數(shù)據(jù)分析。主要步驟如下:

1 模糊相似矩陣R出發(fā),求得其截矩陣;

2 于對稱性,先得到截矩陣下三角部分(不包括主對角線元素),再記錄該部分的非零元素下標,并存在二元數(shù)組A[t][2]中;

3 令g=1,且將g存入數(shù)組b[n]中;

4 行搜索數(shù)組A[t][2],若數(shù)組a中有元素A[i][j](1≤i≤n,1≤j≤2)與g相等,且同一行的另一元素(A[i][j±1])在數(shù)組b中不存在,則將A[i][j±1]存入數(shù)組b[n]中;

5 令g遍取數(shù)組b中元素,重復步驟4,直到?jīng)]有新的元素加入數(shù)組b;

6 將數(shù)組b中元素按行存入二元數(shù)組C[n][n]中;

7 令g取1~n中任一個數(shù)組C[n][n]中不存在的元素,重復步驟4~6;直到數(shù)組C[n][n]中的元素總數(shù)等于待分類對象的個數(shù)n為止【2】。

3 追蹤法在行業(yè)排污情況中的應用

下面,以從國家統(tǒng)計局網(wǎng)站找到2005年工業(yè)按行業(yè)分廢氣排放及處理情況的統(tǒng)計數(shù)據(jù)為例,說明模糊聚類新算法在行業(yè)排污聚類中的應用,數(shù)據(jù)如表1所示:

表1 行業(yè)排污數(shù)據(jù)統(tǒng)計表

篇7

[關(guān)鍵詞]電子檔案袋;CiteSpace;圖譜分析;研究熱點;發(fā)展趨勢

[中圖分類號] G434 [文獻標識碼] A [文章編號] 2095-3437(2016)06-0054-04

國際上以研究檔案袋、電子檔案袋著稱的美國阿拉斯加大學Helen C.Barrett博士對電子檔案袋的定義是:“學習者運用電子技術(shù),檔案開發(fā)者以各種格式(音頻、視頻、圖片和文本等)來收集和組織學習內(nèi)容和素材的方式,基于標準的電子學檔運用數(shù)據(jù)庫和超文本技術(shù)清晰地展現(xiàn)標準和目標、作品和反思之間的關(guān)系。[1]”很長一段時間以來,電子檔案袋一直作為展示學生在某一學科或領(lǐng)域完成的作業(yè)或作品的平臺,然后由教師、同學給出評價和反饋意見,從而記錄整個學習過程中的進步和成就。隨著“互聯(lián)網(wǎng)+”時代的到來,新技術(shù)和新理念在教育領(lǐng)域中得到了廣泛應用,當前的電子檔案袋也被賦予了更豐富的含義,有了更為廣闊的應用情景和模式。本文利用CiteSpaceIII軟件對中國知網(wǎng)(CNKI)2005-2014年間有關(guān)電子檔案袋的期刊論文進行知識圖譜可視化分析,以期揭示十年間關(guān)于電子檔案袋的研究熱點及發(fā)展趨勢。

一、基本原理與數(shù)據(jù)來源

本研究所用的分析工具是美國德雷塞爾大學陳超美博士開發(fā)的CiteSpaceIII(版本3.9.R6)。[2]利用這個軟件,通過數(shù)據(jù)建模,按照一定運算程式生成若干文獻共被引網(wǎng)絡(luò),包括聚類視圖,也就是由“力引導布局”的節(jié)點連接網(wǎng)絡(luò),這樣能夠直觀的體現(xiàn)有關(guān)要素的權(quán)重、中心度以及彼此的關(guān)聯(lián)度,并通過共詞聚類分析與共被引分析進行圖譜解讀。[3]共詞聚類分析屬于內(nèi)容分析法的領(lǐng)域,把共詞出現(xiàn)的頻率看作要分析的內(nèi)容,理清分析內(nèi)容間復雜的關(guān)系,并把它們簡化,去掉無效關(guān)系,最后做出最簡化的直接表達。關(guān)鍵詞往往是文章的眼睛,當兩篇文章存在兩個以上同樣的關(guān)鍵詞時,我們就可以認為這兩篇文章在各自的研究領(lǐng)域、研究內(nèi)容、研究方法等方面存在著相當高的相關(guān)度。通過CiteSpaceIII中的共詞聚類分析,我們就可以探測某一學科范圍內(nèi)的研究熱點或研究趨勢等。

本研究是以“電子檔案袋”或含“E-portflio”或含“Electronic Portflio”為主題關(guān)鍵詞,在中國知網(wǎng)期刊數(shù)據(jù)庫(CNKI)檢索2005-2014年間的論文,除去無效數(shù)據(jù)共計216篇,將這些論文作為本研究的有效樣本,以Refworks格式導出,生成.txt格式的文本文件,利用CiteSpace軟件主菜單下Data-Inport/Export設(shè)置數(shù)據(jù)來源格式CNKI,將數(shù)據(jù)全部轉(zhuǎn)換成CiteSpace軟件可以識別的文本格式,最后導入軟件進行分析,得到最終圖譜。

二、閾值設(shè)置與圖譜獲取

設(shè)定時間分區(qū)為1年,形成10個彼此獨立的時間分區(qū),選擇每個時間段分析引用頻次排名前50位的關(guān)鍵詞作為共詞分析對象,運行軟件獲得346個節(jié)點關(guān)鍵詞和771條鏈接線。通過Layout優(yōu)化功能,進行聚類分析,就生成了如圖1所示的關(guān)鍵詞共詞聚類圖譜。圖1中,每個圓形節(jié)點代表一個關(guān)鍵詞,節(jié)點的巨細分別與關(guān)鍵詞、被引頻次以及聚類的范圍成正比。

在軟件聚類視圖界面右側(cè)的控制板cintrol panel中,選擇“l(fā)ayout”下的“timeline”選項,會得到如圖2所示的時間線視圖。圖2中連線對應聚類跨越的時間區(qū)域線越寬,聚類內(nèi)部的緊密度就越高。

三、聚類分析與研究熱點

根據(jù)共詞聚類圖譜分析,當前國內(nèi)電子檔案袋的研究內(nèi)容主要集中在以下幾個方面:一是電子檔案袋的評價方式,包括聚類#1、#4、#7、#15等;二是電子檔案袋的設(shè)計與實現(xiàn),包括聚類#3、#10、#11、#12等;三是電子檔案袋的應用效果,包括聚類#2、#5、#8等。

同時,在軟件聚類視圖界面,點擊“Export”下的“Network summary table”選項,可以導出一張數(shù)據(jù)表,表中內(nèi)容包括被引頻次、中心度等相關(guān)數(shù)據(jù)統(tǒng)計表。中心度凸顯了關(guān)鍵詞節(jié)點在不同聚類之間或者界面上的地位和樞紐作用。根據(jù)整理統(tǒng)計,聚類中被引頻次5次(含)以上的關(guān)鍵詞共有19個,10次(含)以上的關(guān)鍵詞共有10個,被引頻次和中心度分別為前15位的關(guān)鍵詞見表1。這些關(guān)鍵詞大都包含在幾個大聚類中,所以它們也都不同程度地體現(xiàn)了有關(guān)電子檔案袋的研究熱點,具體分析如下。

(一)電子檔案袋的評價方式

“評價”作為國內(nèi)電子檔案袋應用的最終目的與形式,其在評價教師及學生知識、能力的成長等方面發(fā)揮了巨大的作用,這從上述幾大聚類及被引詞頻高的關(guān)鍵詞中可以明顯地看出。利用電子檔案袋以不同的形式真實完整的記錄一段時期內(nèi)教師的全部教學成果或?qū)W生的學習成果。根據(jù)記錄,可以了解教師或?qū)W生的成長變化過程。教師和學生可以針對自己或?qū)Ψ皆谶@段時期內(nèi)的變現(xiàn)做出客觀評價或提出意見。教師和學生可以針對這些意見和評價不斷完善自己,使得自評和互評成為不斷提升自我和改進自我的原動力,從而形成一個良性的循環(huán)過程。

3.加強反思學習(#8)

利用電子檔案袋詳細記錄個人學習情況的變化,讓學習者隨時關(guān)注自己或同伴的學習狀態(tài),并進行階段總結(jié),這樣有助于加強學習者的反思學習。在義務(wù)教育階段,我國多數(shù)的中小學生都只能被動的接受知識與技能。面對升學壓力,追求成績的提高是這一階段學習的最主要的目的。學習者可以根據(jù)教師給出的客觀評價,找出自己的不足并反思造成這種結(jié)果的原因,從而針對不足進行改進,不斷提高。所以,它可以在潛移默化當中培養(yǎng)學習者反思學習的習慣。

四、總結(jié)

綜合以上對中國知網(wǎng)(CNKI)數(shù)據(jù)庫2005-2014年有關(guān)電子檔案袋研究的期刊文獻的聚類圖譜分析,可以清晰得出當前國內(nèi)的研究熱點和趨勢主要集中于以下3個方面。

1.電子檔案袋評價作為最主要的應用方式仍是研究的核心。評價量規(guī)亦隨理論依據(jù)及學科特征不斷完善,評價內(nèi)容和方法日趨多元化,且適用于教學過程。

2.關(guān)于電子檔案袋的設(shè)計與實現(xiàn)。隨著關(guān)注力度的提高,國內(nèi)電子檔案袋將在解決技術(shù)難題的基礎(chǔ)上,整合現(xiàn)代教育技術(shù),明確用戶需求,未來也可能借助近來大熱的“互聯(lián)網(wǎng)+大數(shù)據(jù)”服務(wù)于“互聯(lián)網(wǎng)+教育”,設(shè)計更加規(guī)范、靈活,搭建操作簡單、維護容易,真正適用于教學的電子檔案袋平臺。

3.對于電子檔案袋的應用效果。雖然在發(fā)展初期并不理想,有很多都流于形式,沒有起到真正的促進作用。但經(jīng)過近幾年的發(fā)展,電子檔案袋的應用已經(jīng)取得了顯著成效,不僅可以幫助教師及時掌握學生的學習狀況,同時也能促進學習者自主學習并且讓其養(yǎng)成制訂計劃、反思學習等學習習慣。

可以說,CiteSpaceIII軟件為期刊研究提供了有力的分析手段。我們可以在某一相關(guān)領(lǐng)域中遴選若干中文核心期刊,在研究熱點方面進行比較研究,以期揭示某一領(lǐng)域內(nèi)的研究方向,這有助于我們了解區(qū)域動態(tài),及時掌握第一手信息,提升學術(shù)水平。

[ 參 考 文 獻 ]

[1] 陳玖豪.基于IMS-EP規(guī)范的通用型電子檔案袋系統(tǒng)的設(shè)計與開發(fā)研究[D].重慶:西南大學,2007.

[2] Chen, C. (2014) The Cite Space Manual[EB / OL]. http://cluster.ischool.drexel.edu/~cchen/citespace/Cite Space Ma?鄄

nual.pdf.

[3] 曲濤.江蘇高教2003-2012研究熱點及其知識基礎(chǔ)可視化分析[J].河北工程大學學報(社會科學版),2014(4):99-103.

[4] 李爽,魏志慧.技術(shù)促進下的課程設(shè)計與學習評價――訪國際遠程教育知名學者羅賓?梅森教授[J].開放教育研究,2007(4):4-8.

[5] 曲濤.《清華大學教育研究》2000-2012研究旨趣探析[J].沈陽師范大學學報(社會科學版),2014(5):129-132.

[6] 曲濤.國際MOOC文獻可視化分析――基于webofscience2008-2013年索引文獻圖譜[J].重慶高教研究,2014(5):1-9.

[7] 楊思洛,韓瑞珍.國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012(6):101-109.

篇8

[關(guān)鍵詞] 搜索引擎;文本聚類;發(fā)展局限;展望

[中圖分類號] F27.4 [文獻標識碼] B

一、前言

2013年7月的CNNIC第32次互聯(lián)網(wǎng)報告顯示,截止2013年6月止,我國網(wǎng)民規(guī)模達5.91億,半年共計新增網(wǎng)民2656萬人?;ヂ?lián)網(wǎng)普及率為44.1%,較2012年底提升了2.0個百分點。從2009年到2013年,互聯(lián)網(wǎng)普及率逐年上升,從28.9%上升到44.1%。計算機的普及,使人們越來越依賴于詢問互聯(lián)網(wǎng)。面對浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索,對待信息的獲取方式已經(jīng)有了很大的改變。然而,隨著互聯(lián)網(wǎng)越來越普及,網(wǎng)絡(luò)中存儲的信息,出現(xiàn)很多冗雜信息,僅僅依靠傳統(tǒng)的搜索方式,并不能滿足用戶的需要。從2000年開始,以Vivisimo為代表,越來越多的學者開始注意到,聚類能更準確的定位搜索結(jié)果。

二、聚類

聚類是指將抽象或物理對象組成集合,將集合中類似對象組成多個類的過程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的其他對象彼此相似,而與其他簇中的對象不同。聚類分析又被叫做群分析,是針對分類問題的一種統(tǒng)計分析方法。由一個度量的向量或多維空間中的一個點構(gòu)成模式,再由多個模式構(gòu)成聚類分析。聚類分析可以追溯于分類學,不過聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。

聚類作為一種有效的分類方法,可以從龐大的消費者數(shù)據(jù)庫區(qū)分屬性、目標不同的消費群體,再概括出這些消費群體的消費模式也就是普通意義上的習慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,在數(shù)據(jù)挖掘算法時,聚類算法可以作為對數(shù)據(jù)進行預處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(Hierarchical Methods)、基于網(wǎng)格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚類國內(nèi)外發(fā)展進程

國外對于搜索引擎聚類方面的研究最早發(fā)生在1996年,HearstMA,PedersenJO學者研究開發(fā)的Scatter/Gather系統(tǒng)是世界上第一個將聚類引入搜索引擎的系統(tǒng)。2000年開發(fā)的Vivisimo元搜索引擎系統(tǒng),采用自主開發(fā)的啟發(fā)式算法來集合并聚類原文文獻。這種算法吸收了傳統(tǒng)人工智能思想,對檢索結(jié)果進行更好描述和聚類。它的文獻聚類技術(shù)首先將文本內(nèi)容自動分類,劃分為等級式排列的目錄之后進行聚類。作為一種完全自動化的聚類技術(shù),不需要人為干擾收集數(shù)據(jù),也不需要進行數(shù)據(jù)維護。SnakeT在前者研究的基礎(chǔ)上,開發(fā)了能完整將搜索引擎聚類化的系統(tǒng),并且可以向用戶展示帶有明確標簽的層次型結(jié)構(gòu)。Grouper是利用后綴樹聚類(STC,Suffix Tree Clustering)算法專門針對文檔摘要進行聚類的搜索引擎系統(tǒng)。SHoc是首個面向文本信息進行聚類功的搜索引擎。Sergio系統(tǒng)應用改進過的k均值算法對兩個搜索引擎結(jié)果進行聚類處理。在新聞處理方面,Nesrec系統(tǒng)提取Altzvista新聞的新聞?wù)?,短時間內(nèi)進行層次聚類,并使之成為擁有良好可讀性的類標簽。而Newsblaster系統(tǒng)針對每天的新聞進行聚類處理,文本生成等處理之后,產(chǎn)生摘要文檔。WhatsonWeb是應用拓谷驅(qū)動和圖像聚類算法來構(gòu)建搜索引擎聚類系統(tǒng),具有良好的可視化效果,同時支持處理無效標簽。

國內(nèi)的研究要相對較晚,最早開始于20005年,但是隨著科技發(fā)展,取得了很不錯的優(yōu)秀成果。2005年的PinkySearch利用后綴樹算法和相同詞聚類對多個搜索引擎的結(jié)果進行聚類處理,最后獲得搜索結(jié)果。在2007年成立的國內(nèi)首家搜索引擎聚類公司比比貓(Bbmao),采用先進的聚類和去重技術(shù),不僅帶給用戶快捷、智能的體驗經(jīng)歷,還引領(lǐng)創(chuàng)新了聚類技術(shù)。國內(nèi)高水準的數(shù)據(jù)挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應用方案等聚類應用技術(shù)。

四、搜索引擎聚類分析

搜索引擎形式從最早的目錄式搜索到基于Robot搜索引擎,再到現(xiàn)在的聚類搜索引擎,其對象不僅僅是對資源進行搜索,也開始關(guān)注用戶體驗,如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年,通過對國內(nèi)外相對比較成熟的聚類搜索引擎作為研究對象,從劃分類型、基本功能、聚類算法角度分析。

1.劃分類型分析

根據(jù)分類標準不同,搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務(wù)劃分成社區(qū)型(比如貝殼網(wǎng))和搜索型(如第易搜)。按照信息的來源即是否擁有獨立的數(shù)據(jù)庫,聚類搜索引擎能劃分為寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎來源的數(shù)目,聚類搜索引擎可以劃分為單一型來源搜索引擎(如TouchGraph)和多來源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在對國內(nèi)外具有代表性的搜索引擎聚類分析后,發(fā)現(xiàn)其搜索對象不僅僅為網(wǎng)頁,更延伸到網(wǎng)頁、新聞、目錄、摘要、博客,可應用于商業(yè)、政府工作、新聞搜集等多種多樣。另外,在提供個性化搜索的同時,用戶還可根據(jù)自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側(cè)會自動呈現(xiàn)圖片、新聞、購物等搜索結(jié)果。

3.聚類算法角度分析

目前的網(wǎng)頁聚類算法根據(jù)其針對的方向分為3種,即基于鏈接分析、基于網(wǎng)頁內(nèi)容、基于用戶搜索日志的聚類算法。

基于鏈接分析的聚類和傳統(tǒng)的搜索引擎搜索有一定相似之處,對任一網(wǎng)頁,必有本網(wǎng)頁指向其他網(wǎng)頁的鏈接和其他網(wǎng)頁指向本網(wǎng)頁的鏈接。若這些其他網(wǎng)頁都包含有同一個網(wǎng)頁的鏈接,則被認為同音關(guān)系,具有相似性,進而依次聚類?;诰W(wǎng)頁內(nèi)容的聚類即是對網(wǎng)頁的內(nèi)容直接聚類,傳統(tǒng)的聚類算法是對網(wǎng)頁內(nèi)容去標點、化復數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是針對單個文字的聚類,并沒有考慮詞間含義,也不能真實的反映網(wǎng)頁內(nèi)容。于是出現(xiàn)了STC算法即后綴樹算法,通過將網(wǎng)頁進行處理,得到詞組,再依賴于后綴樹,辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進行高效的聚類。隨著搜索引擎的發(fā)展,研發(fā)者開始考慮到對用戶行為分析,構(gòu)建用戶模型,出現(xiàn)了基于用戶搜索日志的聚類算法。通過用戶對搜索結(jié)果網(wǎng)頁進行聚類。

上述三種聚類算法各有優(yōu)缺點,基于用戶搜索日志的算法注重用戶體驗,基于網(wǎng)絡(luò)內(nèi)容的算法注重搜索對象,而基于鏈接分析的聚類注重相似網(wǎng)頁之間的鏈接。在以后聚類搜索引擎發(fā)展中,這三種方法將會結(jié)合使用。

五、發(fā)展局限及展望

國外的搜索引擎聚類最早開始于1996年,而國內(nèi)的發(fā)展相對較晚。然而由于還處于發(fā)展的初始階段,還存在一定的局限性。中國第一家元搜索聚類引擎公司是2007年的比比貓(Bbmao)公司,可以直接搜尋文檔,搜索結(jié)果匯集各大搜索引擎結(jié)果,具有強大網(wǎng)絡(luò)收藏夾等多元功能。然而由于局限性,只存在了較短的時間。必須綜合考慮搜索引擎聚類的問題,才可能使之長遠發(fā)展。

1.數(shù)據(jù)庫依附性過強

目前的搜索引擎的聚類技術(shù)多是將已有的搜索引擎檢索出的結(jié)果進行聚類分析,得到更準確的結(jié)果,呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫,然而搜索引擎本就是依靠搜索結(jié)果獲得收入。對于第三方間接使用其搜索結(jié)果,原搜索引擎必然會采取限制,這也就造成數(shù)據(jù)的無法獲得。國內(nèi)成立的比比貓公司就是由于依附性太強,最后導致無法繼續(xù)生存下去。建立自己獨立的數(shù)據(jù)庫不失為一個好的解決辦法,然而由于獨立數(shù)據(jù)庫所需強大的技術(shù)支持,還可以與專業(yè)搜索引擎公司合作。

2.搜索速度緩慢

由于當前搜索引擎的聚類技術(shù)對搜索結(jié)果進行聚類,實質(zhì)上也就是進行二次加工、聚類、排序,最后呈現(xiàn)搜索結(jié)果。勢必影響其搜索速度。值得探討的是直接建立轉(zhuǎn)有數(shù)據(jù)庫,是可以解決的方法之一;此外隨著技術(shù)發(fā)展,越來越多的Tag標簽應用到網(wǎng)頁中,這也對準確了解網(wǎng)頁內(nèi)容、屬性產(chǎn)生裨益,從而加速搜索引擎聚類的速度。

3.用戶的個性化服務(wù)還需提升

搜索引擎的最終結(jié)果是為了使用戶使用,即服務(wù)于用戶。目前搜索引聚類還不夠成熟,如何使搜索結(jié)果更加滿足用戶的個性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時,返回符合用戶個性的聚類。將聚類和用戶行為結(jié)合起來,完美的實現(xiàn)聚類結(jié)果的個性化服務(wù),滿足用戶需要。

總之,雖然針對搜索引擎的聚類分析還存在一定問題,可是基于聚類能更加精確、準確的提供搜索結(jié)果,能更好的反映用戶需求,隨著科技的發(fā)展,問題終將得到解決,搜索引擎聚類也勢必是搜索引擎的大勢所趨。

[參 考 文 獻]

[1]第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2013

[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

篇9

[關(guān)鍵詞] 知識圖譜;共詞分析法;焊接學;材料學

[中圖分類號] G434 [文獻標識碼] A 文章編號:1671-0037(2015)08-80-6

Analysis of the Hot Spot and Research Trend of the Material Engineering Discipline based on the Common Word Knowledge Map

Zhang Xuezhao1,2

(1.Library of Henan University of Science and Technology, Luoyang Henan 471023; 2. Libraryof Zhoukou science and technology Career Academy, Zhoukou Henan 466000)

Abstract:In this paper, the latest scientific metrology technology―knowledge map is applied to the material engineeringdiscipline in our country. Through taking the two disciplines (Materials Science and Welding) as the research objects, a total common word knowledge mapsof thetwo disciplines were constructed, tohighlight the research hotspot, research trends and development of thetwo disciplines.

Keywords:knowledge map; commonword analysis; welding; Materials Science

1 研究內(nèi)容

將材料學和焊接學兩門學科作為研究對象,以CSCD國內(nèi)權(quán)威數(shù)據(jù)庫的作為數(shù)據(jù)源,采用計量學中的共詞分析方法,對1989~2013年材料學、焊接學等學科文獻的關(guān)鍵詞進行統(tǒng)計,并利用聚類分析、因子分析、多維尺度分析以及社會網(wǎng)絡(luò)分析等方法和相關(guān)軟件,構(gòu)建這兩門學科的關(guān)鍵詞詞頻分布表、類團關(guān)系圖等,通過對所構(gòu)建的兩個學科的共詞知識圖譜進行詳細比較對比,分析兩門學科的當前研究熱點、研究趨勢及前景。

2 研究方法及過程

2.1 數(shù)據(jù)來源

本文采用的數(shù)據(jù)來源于《中文社會科學引文索引》檢索系統(tǒng)。本文選取CSSCI1989~2013年收錄的期刊----鋼鐵研究學報和復合材料學報、電焊機和焊接技術(shù)做樣本,套錄該期刊文獻的所有題錄信息。具體方法:打開CSSCI檢索界面,收錄年限選定為1989~2013,在[來源文獻]檢索界面的[期刊名稱]中分別輸入“鋼鐵研究學報、復合材料學報和電焊機、焊接技術(shù)”期刊刊名,[匹配]限定為“精確”,同時[每屏顯示]設(shè)定為50條,套錄這些期刊在這一時期內(nèi)文獻的題錄信息,然后將得到的數(shù)據(jù)分別整理后,分別得出在這一時期內(nèi)材料學和焊接學題錄數(shù)據(jù)庫。然后通過利用C#自編的計算機程序,按照頻次由高到低排列,得到一個材料學和焊接學的關(guān)鍵詞排名,頻次總數(shù)分別是16 057個和21 622個。

2.2 數(shù)據(jù)處理說明

從兩個學科關(guān)鍵詞排序中分別截取一定頻次的關(guān)鍵詞,其中材料學關(guān)鍵詞截取詞頻大于22次、焊接學關(guān)鍵詞截取詞頻大于50次,由此,得出了兩個學科的99個和102個高頻關(guān)鍵詞。再將這些類似性質(zhì)的關(guān)鍵詞進行歸整,從而分別確定了兩個學科的80個和63個高頻關(guān)鍵詞表,將這兩個關(guān)鍵詞表(見表1-1、表1-2)作為共詞分析我國材料工程學科的基礎(chǔ)。

2.3 構(gòu)造關(guān)鍵詞共詞矩陣

2.3.1 構(gòu)造原始共詞矩陣

由于以上兩個學科選定的關(guān)鍵詞是材料工程學科論文中出現(xiàn)頻率最高的詞,它們代表了當前我國材料工程學科的研究熱點。為了能進一步更好地反映這些關(guān)鍵詞之間的關(guān)系,本論文對這些高頻關(guān)鍵詞作如下處理:在已建立的題錄數(shù)據(jù)庫中,利用自編的計算機程序分別對兩個學科確定的80個和63個高頻關(guān)鍵詞兩兩進行共詞檢索,經(jīng)過統(tǒng)計分析,得到了一個80×80的共詞矩陣(部分數(shù)據(jù)見表1-3)和一個63×63的共詞矩陣(部分數(shù)據(jù)見表1-4)。

以上兩個表格中的共詞矩陣是一個相關(guān)、對稱矩陣,對角線上的數(shù)據(jù)為該詞出現(xiàn)的頻次,主對角線單元格的數(shù)據(jù)為兩個關(guān)鍵詞共同出現(xiàn)的頻次。

2.3.2 構(gòu)造相關(guān)矩陣

本文在對兩個學科的原始矩陣進行包容處理時采取Salton指數(shù)法,處理數(shù)據(jù)部分結(jié)果見表1-5和表1-6,Salton指數(shù)法的計算公式為[3]:S=Nij/(Ni×Nj)1/2(3-1)。其中,Ni,Nj分別表示關(guān)鍵詞i和j的頻次,Nij表示關(guān)鍵詞i和j共現(xiàn)的頻次。

以上兩個表格相關(guān)矩陣中的數(shù)字為相似數(shù)據(jù),數(shù)字的大小表明了相應兩個關(guān)鍵詞之間的距離遠近,數(shù)值越大則表明關(guān)鍵詞之間的距離越近,相似度越好;反之,數(shù)值越小則表明關(guān)鍵詞之間的距離越遠,相似度越差。

2.3.3 構(gòu)造相異矩陣

由于相關(guān)矩陣中的‘0’值過多,統(tǒng)計時容易造成誤差過大,為了方便進一步處理,兩個學科相異矩陣的部分數(shù)據(jù)詳見表1-7和表1-8。

以上兩個表格相異矩陣中的數(shù)據(jù),正好與相關(guān)矩陣相反,數(shù)值越大則表明關(guān)鍵詞之間的距越遠,相似度越差;反之,數(shù)值越小則表明關(guān)鍵詞之間的距離越近,相似度越好。

2.4 聚類方法與聚類圖

具體方法:在SPSS17.0軟件界面中輸入要分析的相異矩陣,然后選擇[分析]――[分類]――[系統(tǒng)聚類]進行聚類分析。聚類方法選擇組間距離法;度量標準--區(qū)間選擇共詞聚類分析中最常用的歐氏距離(Euclideandistance)。

3.5 構(gòu)建類團關(guān)系圖

類團關(guān)系圖主要用連線的粗細來明確類團間的關(guān)系強弱,類團間的關(guān)系強弱以連線的粗細來表示,兩個類團之間的連接線就越粗,說明他們之間的關(guān)系的關(guān)系越強,反之則亦然[4]。具體方法是首先計算出各個類團的內(nèi)部聯(lián)系強度與其外部聯(lián)系強度,然后利用先進的社會網(wǎng)絡(luò)分析軟件pajek繪制出兩個學科的類團關(guān)系圖。通過對兩學科類團的形成、演化、新增及消失的過程研究,動態(tài)地揭示我國材料工程學科的研究的現(xiàn)狀、熱點及發(fā)展。

3 研究結(jié)果與分析

3.1總體狀況描述

材料學科(以鋼鐵研究學報和復合材料學報為代表)從1983年到2013年共有9 302篇論文,每種期刊年均155.03篇,平均每篇論文的關(guān)鍵詞數(shù)為1.73個。經(jīng)過規(guī)整、縮減后,這一階段頻次不小于22次的高頻詞共80個,其中,復合材料、力學性能、顯微組織、有限元分析、層合板、數(shù)值模擬等出現(xiàn)200次以上,說明網(wǎng)絡(luò)環(huán)境下以復合材料為核心的材料性能分析是這一階段的研究熱點,具體分析內(nèi)容主要體現(xiàn)在材料的力學性能分析、有限元分析、數(shù)值模擬分析等方面。

焊接學科(以電焊機和焊接技術(shù)為代表)從1984年到2013年共有11 778篇論文,每種期刊年均196.3篇,平均每篇論文的關(guān)鍵詞為1.84個。這一學科(焊接學科)論文總數(shù)與材料學科相比基本持平,但是篇均關(guān)鍵詞數(shù)卻略有上升。經(jīng)過規(guī)整、縮減后,這一階段頻次不小于50次的高頻詞共63個,與材料學科相比,焊接工藝以2 368次居于首位,焊機、焊縫、焊接電源、焊接控制、焊接質(zhì)量、焊接電流、電焊、埋弧焊、焊條等是出現(xiàn)200次上的高頻詞,可見,在該學科目前的主要研究熱點是焊接設(shè)備、焊接工藝、焊接工業(yè)參數(shù)等方面。這些方面的研究直接決定或影響到焊接質(zhì)量和焊接效果,這也與生產(chǎn)實際緊密結(jié)合,充分體現(xiàn)了這一學科的實踐性。

3.2 研究主題的異同

從材料學科形成的聚類圖可以看出,我國材料學科的主要熱點研究領(lǐng)域、研究主題、研究熱點可以總結(jié)為以下幾個方面:

3.1.1 材料工藝、參數(shù)研究

這方面的研究是我國材料學科研究領(lǐng)域研究成果最豐碩的部分之一。該類團群主要包括“材料熱處理類團”“材料工藝性能研究類團”兩個類團。在該階段,從關(guān)鍵詞聚類分析結(jié)果來看,隨著有計算機技術(shù)、數(shù)據(jù)/值模擬仿真技術(shù)及材料熱處理技術(shù)的發(fā)展。材料學科研究動態(tài)主要表現(xiàn)在以下兩個方面:第一,材料分析、材料加工更加精準化。第二,材料熱處理參數(shù)、方法始終是材料學科發(fā)展的重點。

3.1.2 工程材料研究

工程材料研究始終是材料學科研究的主要方向。工程材料類團群主要包括金屬材料類團、非金屬材料類團、復合材料類團。金屬材料類團一直是材料學科發(fā)展的主流,各種有色金屬它們是現(xiàn)代各種機器零部件的生力軍,它們?yōu)椴牧蠈W科的發(fā)展奠定了基礎(chǔ)。復合材料類團的研究是材料學科發(fā)展的延續(xù)和補充。在現(xiàn)當代化生產(chǎn)中,隨著對材料性能需求的日益提高,單純的金屬材料性能已經(jīng)不能滿足各類機器零部件的使用要求,為此復合材料的研究被材料學家們納入了研究領(lǐng)域,并且自從復合材料進入研究領(lǐng)域開始,到現(xiàn)在,乃至未來,復合材料的研究都將經(jīng)久不衰,這一點從關(guān)鍵詞詞頻分布都可以看出:復合材料出現(xiàn)的頻次排列第一、層合板、金屬基復合材料、高溫合金、陶瓷基復合材料、復合材料結(jié)構(gòu)等關(guān)鍵詞的都屬于這一類團,并且頻次分布也很靠前。

3.1.3 材料性能缺陷研究

材料性能缺陷研究也是我國材料學科乃至全世界材料學科研究的主題。這一研究類團群主要包括材料加工方法類團和材料缺陷類團。材料缺陷類團包含的關(guān)鍵詞主要有:疲勞、裂紋、磨損、斷裂、夾雜物等,這些關(guān)鍵詞頻次的分布在本研究統(tǒng)計中占有相當?shù)谋戎兀纱丝梢钥闯鲈鯓宇A防材料的各種缺陷,提高材料的加工及使用性能,至關(guān)重要。緊接著引出了材料學家們所關(guān)注的材料的加工類團(轉(zhuǎn)爐、電弧爐、熱軋、冷軋、軋制等)。雖然這一類團群的關(guān)注度不如工程材料研究,也不如材料工藝參數(shù)的研究。但是無論從各種工程材料來說,還是從各種材料的工藝參數(shù)研究來說其目的都是怎樣去避免材料的各種缺陷,從而提高和改善材料的加工性能、使用性能,達到人們生產(chǎn)加工的目的。

從焊接學科的聚類圖可以看出,我國焊接學科的主要熱點研究領(lǐng)域、研究主題、研究熱點可以總結(jié)為以下幾個研究方向:

3.1.3.1 焊接工藝參數(shù)研究。同材料學科一樣,焊接學科的焊接接工藝參數(shù)研究是本學科的研究主題和重點。在這一類團群中焊接工藝這一關(guān)鍵詞在頻次表中出現(xiàn)的次數(shù)達到了2 368次,可見在焊接學科中,工藝參數(shù)研究所站的比重和地位。焊接工藝規(guī)范、焊接工藝參數(shù)、焊接手法等方面是這一類團研究的主題,而這一研究主題隨著焊接設(shè)備和焊接方法的不同焊接工藝亦有不同。

3.1.3.2 焊接類型方法研究。這一類團是一個大面類團,焊接類型和方法直接決定或影響焊接工藝、決定了焊接設(shè)備、焊接工具的選擇。這一類團的關(guān)鍵詞主要有:手工電弧焊、堆焊、焊接方法、激光焊接、攪拌摩擦焊、點焊、埋弧焊、釬焊、氬弧焊、氣體保護焊等。隨著焊接技術(shù)的發(fā)展及焊接質(zhì)量要求的提高,該類團正朝著自動焊接、機器人焊接等自動化方向發(fā)展。

3.1.3.3 焊接工程、工具、材料研究。焊接工程、工具、材料這一類團群涉及焊接材料、焊接環(huán)境、焊接設(shè)備工具,從而間接地決定焊接方法的選擇、焊接工藝流程。這一研究類團,從各種焊接對象材料(管道、鋁合金、不銹鋼、奧氏體不銹鋼等)說起,涉及了焊接結(jié)構(gòu)、焊接工程、工程建設(shè)及焊接應用。分析了焊條、藥芯焊絲的使用環(huán)境、使用方法等。這一主題類團的研究,是該學科研究的基礎(chǔ),研究主題關(guān)鍵詞雖然詞頻分布沒有排在前列,但關(guān)鍵詞詞頻分布的范圍廣。未來該主題的研究將朝著細化焊接工具方向,具體可能以焊接工具研究所形式出現(xiàn)。

3.1.3.4 焊接質(zhì)量控制研究。這一類團的研究主題是焊接學科研究的目的所在。不管焊接工藝如何合理、焊接方法如何選擇、焊機及焊接工具的選擇的多么具有針對性,其最終目的是獲得優(yōu)質(zhì)的焊接質(zhì)量。在這一研究主題中,分析了各種焊接缺陷(裂紋、缺陷、變形等)各作者、學者提出了如何規(guī)避焊接缺陷的各種方法、技巧。目前這一研究主題隨著焊接材料的多樣化,生產(chǎn)要求的提高而日益嚴峻,機器人技術(shù)、自動焊技術(shù)的發(fā)展對焊接質(zhì)量的提高起著決定性的作用,但其普及應用任重而道遠。

4 類團關(guān)系分析

確定了材料學科、焊接學科類團后,就可以研究各學科類團間的相互關(guān)系,找出哪些類團是核心類團,它與其他類團之間聯(lián)系密切;哪些類團是非核心類團,它與其他類團之間聯(lián)系疏松;哪些類團與其他任何類團都沒有任何關(guān)系,屬于相對獨立類團。為此,筆者根據(jù)各類團之間的內(nèi)、外相互關(guān)系,利用pajek軟件繪制出了既能反映自身類團的內(nèi)部聯(lián)系強度又能反映這個類團與其他類團的外部聯(lián)系強度的類團關(guān)系圖(如圖1-1、圖1-2所示)。在圖中,類團的內(nèi)部聯(lián)系強弱用節(jié)點的大小來表示,節(jié)點越大,表明該類團的內(nèi)部聯(lián)系強度越小,反之,則相反;節(jié)點連線的顏色深淺和連線的粗細程度和表示兩節(jié)點間的外部聯(lián)系強度,兩節(jié)點間連線顏色越深、連線越粗,則表示兩類團之間的外部聯(lián)系強度越大,反之,則相反。

圖1-2 焊接學類團關(guān)系圖

5 結(jié)語

本部分研究采用共詞分析方法,利用聚類分析、先進的社會網(wǎng)絡(luò)分析方法和軟件Pajek,分別繪制出材料學科和焊接學科兩學科的聚類圖、類團關(guān)系圖,對兩個學科:材料學科和焊接學科研究主題進行了較為詳細的對比分析。通過分析對比得出兩個學科的發(fā)展變化特點:

5.1 材料學科和焊接學科都屬于工學學科,其發(fā)展研究主題存在共性

從兩個學科的研究主題來看,我國材料學科研究領(lǐng)域、研究熱點體現(xiàn)在復合材料、材料工藝參數(shù)研究、材料性能缺陷研究上,而焊接學科體現(xiàn)在焊接工程、工具材料、焊接工藝參數(shù)研究、焊接質(zhì)量(缺陷)控制上。兩個學科之間研究主題框架基本一致,其目的都是為了滿足生產(chǎn)實踐,都是為了規(guī)避缺陷(材料缺陷、焊接缺陷),提升加工質(zhì)量。

5.2 熱點研究領(lǐng)域顯現(xiàn)新特征

兩大學科的熱點研究領(lǐng)域各有新特征:材料學科的陶瓷基復合材料、鋁基復合材料、有限元分析、數(shù)值模擬等;焊接學科的自動焊技術(shù)、機器人技術(shù)等。

5.3 兩個學科研究范圍和內(nèi)容具有一定的連續(xù)性、階段性、變化性

兩個學科不論是材料學科還是焊接學科都是從工程材料研究到工藝參數(shù)研究,最后再到性能缺陷研究,整個研究過程呈現(xiàn)出連續(xù)性、穩(wěn)定性、階段性、變化性的特點。每個階段在各自基礎(chǔ)上由細化整體上呈現(xiàn)發(fā)展性。

參考文獻:

[1] 秦長江.基于共詞知識圖譜的人文學科研究熱點可視化的實證研究[J].圖書館理論與實踐,2010(12).

篇10

關(guān)鍵詞:信息融合技術(shù);預警系統(tǒng);企業(yè)運行

中圖分類號:TP277文獻標識碼:A文章編號:1007-9599 (2011) 24-0000-02

Application Research of Information Fusion Technology in Enterprise

Movement Early Warning System

Zhao Xin

(Wuhan University,School of Information Management,Wuhan430072,China)

Abstract:In order to make the enterprise develop better and faster,It’s important that making a prediction on the enterprise’s development condition by using information fusion technology,which can make early warning about the recessive existing problems in time.In the paper,clustering fusion algorithm and its improved algorithm were analyzed,and were applied in the early warning system of enterprise’s operation,we got enterprise’s development model.At last,the model was proved by an enterprise’s operation datum,the two fusion algorithms were applied and compared.

Keywords:Information fusion technology;Early warning system;Enterprise developing

一、引言

企業(yè)發(fā)展的過程中,生產(chǎn)產(chǎn)品的數(shù)量、產(chǎn)品的銷量以及人員的數(shù)量等信息的波動對企業(yè)的發(fā)展影響是非常大的,如果波動幅度過大,會對企業(yè)帶來巨大的損失。為保證企業(yè)能夠持續(xù)、良好運行發(fā)展,本文提出了企業(yè)運行預警系統(tǒng)。為企業(yè)未來的發(fā)展走向做出預報或警示。

近年來,信息融合技術(shù)已經(jīng)成為國內(nèi)外的研究熱點[1]。聚類分析是數(shù)據(jù)挖掘的一個重要研究領(lǐng)域,它是一種無監(jiān)督的學習方法,通過一定規(guī)則將數(shù)據(jù)按照定義的相似性劃分為若干個類,這些類由許多性質(zhì)相似的數(shù)據(jù)點構(gòu)成的,同一個類中的數(shù)據(jù)彼此相似,與其它類中的數(shù)據(jù)相異。聚類融合算法是聚類分析中一個新興且重要的研究方向,于2002年由A.Strehl和J.Ghosh正式提出,但在2001年A.LFred就已經(jīng)進行了類似的研究。聚類穩(wěn)定性、準確性和有效性是聚類分析領(lǐng)域中被廣泛研究的問題[2]。

本文詳細介紹了一種基于劃分的聚類融合方法,以某企業(yè)2001-2009年中的數(shù)據(jù)作為信息源,利用聚類融合算法對該企業(yè)近期數(shù)據(jù)進行分析、融合得出企業(yè)未來時段的生產(chǎn)、銷售及運行情況,計算出該企業(yè)的運行發(fā)展模式。并且給出了一種改進的聚類融合算法,以解決該聚類算法僅在劃分某些特定數(shù)據(jù)集時效果較好的不足和難以確定聚類數(shù)的問題。最后分別將利用兩種算法得到該企業(yè)2010年的運行發(fā)展預示,并和2010年該企業(yè)真正的發(fā)展模式進行比較。驗證該預警系統(tǒng)的可行性。并將兩種算法得出結(jié)果進行比較,論證利用改進的聚類融合算法得到的模型更為準確、可行。

二、聚類融合算法模型

(一)基于劃分的聚類融合算法。算法的基本思想是:給定要構(gòu)建的劃分的數(shù)目k,首先創(chuàng)建一個初始劃分,然后采用一種迭代的重定位技術(shù),通過對象在劃分見移動來改進劃分[3]。常用的著名算法是k-means和-medoids。也可稱為k均值聚類算法[4]。

(二)企業(yè)預警系統(tǒng)模型分析。根據(jù)某市某企業(yè)提供的數(shù)據(jù)信息,獲取2001-2009年間共108個月份中企業(yè)的主要信息,抽取出18個指標:人員增加數(shù)量,員工開支,產(chǎn)品1產(chǎn)量,產(chǎn)品2產(chǎn)量,產(chǎn)品3產(chǎn)量,產(chǎn)品4產(chǎn)量,產(chǎn)品5產(chǎn)量,產(chǎn)品1銷量,產(chǎn)品2銷量,產(chǎn)品3銷量,產(chǎn)品4銷量,產(chǎn)品5銷量,產(chǎn)品1成本,產(chǎn)品2成本,產(chǎn)品3成本,產(chǎn)品4成本,產(chǎn)品5成本以及其他因素。將這些信息歸納為產(chǎn)品種類、產(chǎn)品數(shù)量、各類產(chǎn)品的銷量、各類產(chǎn)品的成本、人員變動、工資開支和其他外因共7個方面的數(shù)據(jù)統(tǒng)計信息,通過應用三角函數(shù)提取周期法提取該企業(yè)的循環(huán)的主波,按照下述方法計算該企業(yè)運行發(fā)展波動的綜合值序列。

求第i個指標的波動循環(huán)因子 ;求第i個指標的標準化因子: ;求標準化波動因子: ;宏觀經(jīng)濟波動綜合值序列: (設(shè) 是第i個指標剔除季節(jié)因子后的序列)。

表示各類影響企業(yè)運行發(fā)展狀態(tài)的經(jīng)濟特征為:

A類:各種特征指標絕大多數(shù)處于最低位置或次低位置時,企業(yè)發(fā)展處于低谷狀態(tài),應該提前預警。

B類:如果產(chǎn)品產(chǎn)量增加而產(chǎn)品銷量降低時,即第三類向第二類轉(zhuǎn)換時,銷售市場存在問題或者市場中的產(chǎn)品有過?,F(xiàn)象,要提前發(fā)出預警。

C類:企業(yè)具有穩(wěn)定發(fā)展的特征,即各指標所占的位次保持在第二位或第三位,并且各指標沒有太大的波動,這種模式屬與運行發(fā)展的良好模式。

D類:產(chǎn)品成本投入升高而產(chǎn)品數(shù)量下降,其他各指標相應波動不大的情況,可能是由于其他外因,例如市場原材料價格上升或社會外力因素進行調(diào)控等。這類模式屬于黃燈區(qū),要保持警覺。

E類:各個指標都處于高峰,表示企業(yè)發(fā)展運行處于期,產(chǎn)品銷量高,但是投入也相對很大,相對來說各個指標都處于特殊的活躍期,但是這種情況一般很短暫,隨之而來的是企業(yè)運行的大幅度波動,應盡量避免這種情況發(fā)生,所以也要提前預警。

(三)對企業(yè)運行模式聚類。設(shè) , , 分別表示第j個指標在第i時期去掉季節(jié)因子的速度值序列,波動因子,標準化因子。 表示第j個指標的標準化因子[5]。

則(其中n為樣本個數(shù))

(其中k為特征指標個數(shù))

設(shè)

如果將初始分類定為k類,則對第i個樣本點的計算公式為:

如果該結(jié)果為m,則將第i個樣本點歸為第m類( )。

(四)修改初始分類。由于類與類之間可能有模糊區(qū),所以,如果要對該模糊區(qū)中的樣本確定其最佳的屬性歸屬類別,就需要修改初始分類[3]。

設(shè) 分別表示n個樣本點的坐標行向量,初始分類為k類: ,對應的中心坐標分別為 。每類的樣本數(shù)分別為 ,用l(i)表示 所屬的標號,定義 與 的距離為 ,即可得到:

定義分類函數(shù) 。通過該方法是分類函數(shù)達到最小的一種分類結(jié)果。即把歷史數(shù)據(jù)中各時期的綜合值所達到的區(qū)間分為若干個區(qū)間段,則同處于一個區(qū)間段的樣本在這時可能是擴張期,也可能是收縮期,因此同處于一類的樣本處于那個時期要結(jié)合未來的運行發(fā)展模式得到。

以前面所述中篩選出的7個特征指標每個月份的值作為一個樣本點(共108個),用前面講的聚類方法聚成5類,每個樣本的計算結(jié)果如表1所示。

表1 樣本計算結(jié)果統(tǒng)計

1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月

1 4.3 4.4 4.5 4.28 4.3 4.36 4 4.4 4.46 4.66 4.6 4.5

2 4.33 4.3 4.61 4.6 4.7 4.65 4.69 4.7 4.66 4.71 4.7 4.6

3 4 3.8 4.1 4 4.3 4.15 4.2 4.3 4.2 4.2 4.3 4.26

4 4.42 4.5 4.6 5.3 5.28 5.15 5.13 5.1 5.2 5.4* 5.6 5.3

5 4.6 5 5.6 6.8 6.75 6.7* 6.83 6.6 5 5.6 5.56 5

6 4.4 4.9 4.2 3.8 4 4.2 4.1 4 4.3 4.5 4.6 4.5

7 4.7 5.2 5* 4.6 5.1 5 4.78 4.8 4.73 4.7 4.91 5

8 4.9 5.8 5.76 5.7 5.66 5.5 5.46 5.6 5.8 5.9 5.5 6*

9 5.06 6.1* 6 5.6 5.3 5 4.8 4.2 4.6 4.5 4.6 4

(五)確定模式邊界識別函數(shù)。利用多維空間坐標系統(tǒng),將7個特征指標建立坐標系,企業(yè)運行模式在該多維空間坐標系中構(gòu)成了5個區(qū)域,每個區(qū)域都有自己的界限,樣本點落在哪個區(qū)域就表示企業(yè)運行處于何種模式。由判別函數(shù)非得到該企業(yè)的5類模式為: 。

如果要判斷第j期的企業(yè)運行模式,只需要把第j期的特征指標的值代入判別函數(shù),即可得到其所屬的模式。如果要判別未來時段的運行模式,根據(jù)特征指標的曲線建立與其相適應的預測模型,將預測值代入識別函數(shù)判斷其所屬的運行發(fā)展模式。

(六)系統(tǒng)檢驗。根據(jù)該企業(yè)提供的2001年-2009年中每個月的數(shù)據(jù)作為樣本的實際值代入模式識別函數(shù)確定的運行模式和該企業(yè)實際運行模式比較發(fā)現(xiàn),共有5個樣本點有偏差(表1中帶*號)。其中2個與實際運行數(shù)據(jù)偏差較大,另外3個實際數(shù)據(jù)基本接近。

三、基于改進的動態(tài)聚類融合算法

(一)改進方法。傳統(tǒng)基于劃分的動態(tài)聚類融合算法中的聚類個數(shù)k的選取以及相應的k個聚類初始中心點的選取都是隨機的[5]。如果該聚類個數(shù)k選取不當,很容易導致聚類運算所得到的結(jié)果差異偏大(如表1中加星號的表示偏差數(shù)據(jù))。

為了克服這些缺點,先考察不同的聚類個數(shù)k下的聚類成員之間的差異度,以及這些聚類成員在不同的權(quán)值下對融合結(jié)果的影響。即多次使用上述的基于劃分動態(tài)融合算法,得到所需的聚類成員,然后對這些成員按照常規(guī)方法進行融合,并初選此時的聚類個數(shù)為目標聚類個數(shù),用k*表示[6]。各個聚類成員的聚類個數(shù)k相應的記為 。

分析各聚類成員的聚類個數(shù)和K*的差值,以此為基礎(chǔ)設(shè)計加權(quán)函數(shù)對聚類成員進行加權(quán),重新計算矩陣并通過共識函數(shù)進行新的融合運算。該系統(tǒng)中采用的加權(quán)函數(shù)如下:

當新的聚類同其他聚類成員完全相符合時其值為0,聚類成員k值同目標個數(shù)偏差越大,差異度也就越大。對所有的聚類成員加權(quán)后,相應的所有聚類成員總的矩陣為:

其中j為改進算法循環(huán)次數(shù), 為各次循環(huán)所得新的聚類成員的加權(quán)值。H為基本聚類算法運行次數(shù), 為各次聚類成員, 為各聚類成員的矩陣。

(二)系統(tǒng)檢驗。和第一種方法一樣,將企業(yè)提供的2000年-2008年中每個月的數(shù)據(jù)作為樣本的實際值代入模式識別函數(shù)確定的運行模式和該企業(yè)實際運行模式比較發(fā)現(xiàn),只有2個樣本點有偏差。但這兩個樣本點和實際運行數(shù)據(jù)相當接近。

四、結(jié)論

本文詳細介紹了一種基于劃分的動態(tài)聚類融合算法和相應的改進算法,并分別將兩種方法應用于企業(yè)運行預警系統(tǒng)中,克服了傳統(tǒng)的企業(yè)發(fā)展模式中按照波動周期的四個不同階段(擴張期、收縮期、波峰、波谷),引起的不該報警時報警,該報警時又不報警的現(xiàn)象。同時根據(jù)應用兩種算法得到的預警模型的得到的數(shù)據(jù)分別和真實數(shù)據(jù)相比較,通過實驗的方式得出改進的算法更實用與企業(yè)發(fā)展預警系統(tǒng)中。

參考文獻:

[1]郭.基于信息融合的交通信息采集研究[D].北京:中國科學技術(shù)大學博士論文,2007:3-10

[2]趙法信,王國業(yè).數(shù)據(jù)挖掘中聚類分析算法研究[J].通化師范學院學報,2005,26,2:11-13

[3]萬志華,歐陽為民,張平庸.一種基于劃分的動態(tài)聚類算法[J].計算機工程與設(shè)計,2005,1,2:177-179

[4]謝穎.信息融合中幾種算法的研究[D].重慶:重慶大學碩士論文,2008:25-60