聚類范文10篇

時(shí)間:2024-02-18 15:43:29

導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗(yàn),為你推薦的十篇聚類范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

聚類分析K-means算法研究

摘要:通過對聚類分析及其算法的論述,從多個(gè)方面對這些算法性能進(jìn)行比較,同時(shí)以兒童生長發(fā)育時(shí)期的數(shù)據(jù)為例通過聚類分析的軟件和改進(jìn)的K-means算法來進(jìn)一步闡述聚類分析在數(shù)據(jù)挖掘中的實(shí)踐應(yīng)用。

關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;數(shù)據(jù)庫;聚類算法

隨著計(jì)算機(jī)硬件和軟件技術(shù)的飛速發(fā)展,尤其是數(shù)據(jù)庫技術(shù)的普及,人們面臨著日益擴(kuò)張的數(shù)據(jù)海洋,原來的數(shù)據(jù)分析工具已無法有效地為決策者提供決策支持所需要的相關(guān)知識,從而形成一種獨(dú)特的現(xiàn)象“豐富的數(shù)據(jù),貧乏的知識”。數(shù)據(jù)挖掘[1]又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabase,KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識的復(fù)雜過程。目的是在大量的數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識。

常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、異類分析、分類與預(yù)測、聚類分析以及演化分析等。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要技術(shù)之一。

1問題的提出

隨著社會的發(fā)展和人們生活水平的提高,優(yōu)育觀念[2,3]逐漸滲透到每個(gè)家庭,小兒的生長發(fā)育越來越引起家長們的重視。中國每隔幾年都要進(jìn)行全國兒童營養(yǎng)調(diào)查,然而用手工計(jì)算的方法在大量的數(shù)據(jù)中分析出其中的特點(diǎn)和規(guī)律,顯然是不現(xiàn)實(shí)的,也是不可行的。為了有效地解決這個(gè)問題,數(shù)據(jù)挖掘技術(shù)——聚類分析發(fā)揮了巨大的作用。

查看全文

R軟件系統(tǒng)聚類分析剖析

提要多元統(tǒng)計(jì)聚類方法已被廣泛應(yīng)用于自然科學(xué)和社會科學(xué)的各個(gè)領(lǐng)域,而在現(xiàn)實(shí)處理多元數(shù)據(jù)聚類分析中,離不開統(tǒng)計(jì)軟件的支持;R軟件由于其免費(fèi)、開源、強(qiáng)大的統(tǒng)計(jì)分析及其完美的作圖功能已得到越來越多人的關(guān)注與應(yīng)用;本文結(jié)合實(shí)例介紹了R軟件在多元統(tǒng)計(jì)系統(tǒng)分析中的應(yīng)用。

關(guān)鍵詞:R軟件;系統(tǒng)聚類分析;多元統(tǒng)計(jì)

引言

多元統(tǒng)計(jì)分析是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,也稱多變量統(tǒng)計(jì)分析;在現(xiàn)實(shí)生活中,受多種指標(biāo)共同作用和影響的現(xiàn)象大量存在,多元統(tǒng)計(jì)分析就是研究多個(gè)隨機(jī)變量之間相互依賴關(guān)系及其內(nèi)在統(tǒng)計(jì)規(guī)律的重要學(xué)科,其中最常用聚類分析方法,由于多元統(tǒng)計(jì)聚類分析方法一般涉及復(fù)雜的數(shù)學(xué)理論,一般無法用手工計(jì)算,必須有計(jì)算機(jī)和統(tǒng)計(jì)軟件的支持。

在統(tǒng)計(jì)軟件方面,常用的統(tǒng)計(jì)軟件有SPSS、SAS、STAT、R、S-PLUS,等等。R軟件是一個(gè)自由、免費(fèi)、開源的軟件,是一個(gè)具有強(qiáng)大統(tǒng)計(jì)分析功能和優(yōu)秀統(tǒng)計(jì)制圖功能的統(tǒng)計(jì)軟件,現(xiàn)已是國內(nèi)外眾多統(tǒng)計(jì)學(xué)者喜愛的數(shù)據(jù)分析工具。本文結(jié)合實(shí)例介紹R軟件在多元統(tǒng)計(jì)聚類分析中的應(yīng)用。

一、系統(tǒng)聚類分析

查看全文

新聚類判別分析研究思考

摘要:在分析經(jīng)典聚類判別分析方法實(shí)質(zhì)的基礎(chǔ)上,提出了一種新的聚類判別分析框架,改進(jìn)了一種基于樣本指標(biāo)值頻度計(jì)算的兩總體判別分析算法,提高了在對所有參與建立判別模型的樣本進(jìn)行判別時(shí)的計(jì)算速度;給出了建立在此改進(jìn)判別分析算法基礎(chǔ)上的一種動態(tài)聚類判別分析算法的設(shè)計(jì),并實(shí)現(xiàn)了所有算法。進(jìn)行相應(yīng)的實(shí)證研究,結(jié)果表明以此聚類判別分析框架對給定樣本集合進(jìn)行分析,可以迅速得到多個(gè)合理的聚類結(jié)果以及對聚類結(jié)果的清晰解釋,既可以對已有的聚類結(jié)果進(jìn)行驗(yàn)證,又可以進(jìn)行數(shù)據(jù)的探索性分析。

關(guān)鍵詞:聚類分析;判別分析;動態(tài)聚類

0引言

經(jīng)典聚類分析算法是基于距離計(jì)算的。然而除馬氏距離定義外,其他距離定義都存在樣本指標(biāo)的量綱處理問題;除馬氏距離和斜交空間距離定義外,其他距離定義都存在樣本指標(biāo)的相關(guān)性處理問題;另外,包括馬氏距離在內(nèi)的所有距離定義都存在將用于聚類的指標(biāo)同等對待的缺點(diǎn),不能反映不同指標(biāo)對聚類結(jié)果的貢獻(xiàn)程度。

一般情況下,在確定樣本間距離計(jì)算方法的基礎(chǔ)上,用不同的聚類分析方法得到聚類的結(jié)果是不會完全一致的。這是因?yàn)樵趯?shí)際應(yīng)用中,許多對象在不同類之間本身并無清晰的劃分。這導(dǎo)致了在既定用于聚類的指標(biāo)組合的情況下,用不同的聚類方法對同一組樣本進(jìn)行分析會得到不同的聚類結(jié)果。如上所述,即使使用同一種聚類方法,有時(shí)由于樣本的排列順序不同,也可能導(dǎo)致不同的分類結(jié)果。這就提出了對不同的聚類方法進(jìn)行評價(jià)的問題。關(guān)于所用方法好壞的評價(jià),現(xiàn)在還沒有一個(gè)合適的標(biāo)準(zhǔn)。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類,使得兩類間的離差平方和最大[1]。D.FisherWalter也指出,應(yīng)該尋找使類內(nèi)差異最小的聚類方法[2]。因此,評價(jià)不同聚類方法的一個(gè)重要方面,就是看這些方法得到的聚類結(jié)果在類內(nèi)的接近程度和在類間的相隔程度。一個(gè)較好的分類方法應(yīng)該得到類內(nèi)差異較小、類間差異較大的聚類結(jié)果。在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:a)根據(jù)分類問題本身的專業(yè)知識,結(jié)合實(shí)際需要來選擇分類的方法,并確定分類的個(gè)數(shù);b)用多種方法對數(shù)據(jù)進(jìn)行分析處理,把結(jié)果的共性取出來。如果用幾種方法的某些結(jié)果都一樣,則說明這樣的聚類確實(shí)反映了事物的本質(zhì)。將有爭議的樣本暫放一邊,或者用其他方法如判別分析進(jìn)行處理歸類。另外,在聚類分析方法既定的情況下,同一組樣本采用不同的指標(biāo)組合進(jìn)行聚類分析,通常也會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因主要是由于不同的指標(biāo)組合測度是樣本間的不同側(cè)面的相似程度,在進(jìn)行聚類分析時(shí)存在指標(biāo)組合選擇的問題。一般是根據(jù)聚類的實(shí)際需要進(jìn)行指標(biāo)的選擇,這是一個(gè)比較復(fù)雜并且?guī)в兄饔^性的問題。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),通常是先選擇多種指標(biāo)組合分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定出合適的測度指標(biāo)。

判別分析產(chǎn)生于20世紀(jì)30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計(jì)方法。近年來,判別分析在自然科學(xué)、社會學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類別。判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中,最直觀的是距離判別法。

查看全文

低碳經(jīng)濟(jì)下資源環(huán)境現(xiàn)狀的聚類分析

1我國各地區(qū)人均廢水、廢氣排放量的聚類分析

1.1我國各地區(qū)人均廢水排放量的聚類分析

隨著我國城市化速度的加快,城鄉(xiāng)居民生活水平不斷提高,廢水污染物排放量明顯增多.2011年,我國廢水排放總量為659億噸,其中化學(xué)需氧量2500萬噸,氨氮260萬噸,總氮447萬噸,總磷55萬噸,石油類21012噸,揮發(fā)酚2431噸,鉛155242千克,汞2892千克,鎘35899千克,六價(jià)鉻106395千克,總鉻293166千克,砷146616千克。文章選取2011年我國30個(gè)省市(西藏?cái)?shù)據(jù)缺失)廢水排放量數(shù)據(jù),運(yùn)用SPSS16.0軟件進(jìn)行聚類分析,將我國各地區(qū)人均廢水排放量分為四類。由表2可知,從人均廢水排放量來看,屬于Ⅰ類地區(qū)的有云南、甘肅,屬于Ⅱ類地區(qū)的有天津、河北、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、安徽、江西、山東、河南、湖北、湖南、廣西、海南、重慶、四川、云南、陜西、青海、新疆,屬于Ⅲ類地區(qū)的有北京、江蘇、浙江、廣東、寧夏,屬于Ⅳ類地區(qū)的有上海、福建.發(fā)達(dá)省份的人均廢水排放量較高,欠發(fā)達(dá)省份較低,發(fā)達(dá)地區(qū)工業(yè)經(jīng)濟(jì)繁榮,企業(yè)較多,導(dǎo)致工業(yè)廢水排放量居高不下。其中,寧夏造紙業(yè)企業(yè)較多,造成工業(yè)廢水排放量大。我國經(jīng)濟(jì)處于工業(yè)化快速發(fā)展階段,日趨嚴(yán)重的水污染使水體的使用功能降低,制約了我國經(jīng)濟(jì)可持續(xù)發(fā)展。

1.2我國各地區(qū)人均二氧化硫排放量的聚類分析

在廢氣排放方面,2011年我國二氧化硫排放總量為228萬噸,文章選取2011年我國30個(gè)省市(西藏?cái)?shù)據(jù)缺失)二氧化硫排放量數(shù)據(jù),運(yùn)用SPSS16.0軟件進(jìn)行聚類分析,將我國各地區(qū)人均二氧化硫排放量分為四類。由表2可知,從人均二氧化硫排放量來看,屬于Ⅰ類地區(qū)的有北京、海南,屬于Ⅱ類地區(qū)的有天津、河北、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、山東、河南、湖北、湖南、廣東、廣西、重慶、四川、云南,屬于Ⅲ類地區(qū)的有山西、遼寧、貴州、陜西、甘肅、青海、新疆,屬于Ⅳ類地區(qū)的有內(nèi)蒙古、寧夏。能源豐富的省份人均二氧化硫排放量較高,內(nèi)蒙古和寧夏是典型的以能源工業(yè)為支柱產(chǎn)業(yè)的省份,煤的開采量多,通過燃燒煤進(jìn)行火力發(fā)電,排放出大量的二氧化硫。

1.3我國各地區(qū)人均氮氧化物排放量的聚類分析

查看全文

聚類算法項(xiàng)目成本動因合并研究

摘要:在作業(yè)成本法實(shí)施過程中,由于成本動因數(shù)量龐大及其復(fù)雜性導(dǎo)致大多數(shù)企業(yè)放棄使用作業(yè)成本法。因此,科學(xué)合理的選擇及合并成本動因是保證作業(yè)成本法有效實(shí)施的關(guān)鍵。文章以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計(jì)類項(xiàng)目為例,運(yùn)用主成分分析與聚類分析算法將存在相關(guān)性成本動因進(jìn)行科學(xué)有效的合并,最終得到最具代表性的成本動因,顯著降低了作業(yè)成本計(jì)算的復(fù)雜性,在保障項(xiàng)目成本核算準(zhǔn)確性的同時(shí),減少了收集和處理成本數(shù)據(jù)的成本耗費(fèi)。

關(guān)鍵詞:主成分分析;成本動因合并;成本核算;層次聚類;作業(yè)成本法

一、引言

作業(yè)成本法(Activity-BasedCosting,ABC)自20世紀(jì)90年代初引入我國以來,應(yīng)用已日趨普遍,在行業(yè)領(lǐng)域方面已由最初的制造業(yè)擴(kuò)展到了零售、金融、保險(xiǎn)以及醫(yī)療衛(wèi)生等行業(yè)。隨著近年來園林規(guī)劃設(shè)計(jì)行業(yè)競爭的加劇,為了提高成本管理水平,將作業(yè)成本法引入到規(guī)劃設(shè)計(jì)類項(xiàng)目成本管理中就顯得十分必要。相對于其他行業(yè),規(guī)劃設(shè)計(jì)行業(yè)間接成本占比較大,費(fèi)用科目較多,不僅核算難度較大,在成本核算過程中需要大量的成本動因來計(jì)量間接費(fèi)用的耗費(fèi),大量的成本動因會增加成本核算過程中信息收集、處理的成本,然而,在實(shí)務(wù)中企業(yè)進(jìn)行成本核算不僅需要考慮結(jié)果的準(zhǔn)確性,還必須考慮核算成本的提高,這也導(dǎo)致很多企業(yè)放棄引入作業(yè)成本法。因此,企業(yè)在實(shí)際運(yùn)用作業(yè)成本法進(jìn)行成本核算過程中,需要合理選擇并有效合并成本動因,在不損失過多成本精確度的同時(shí)減少核算成本耗費(fèi)。機(jī)器學(xué)習(xí)作為實(shí)現(xiàn)人工智能技術(shù)的一種方法,憑借強(qiáng)大的計(jì)算能力分析數(shù)據(jù)的特征,將在某些特征上相同或相似數(shù)據(jù)自動形成集合。在成本動因合并的研究中,運(yùn)用基于機(jī)器學(xué)習(xí)算法中的降維、聚類等無監(jiān)督學(xué)習(xí)算法,有助于企業(yè)從大量的成本相關(guān)數(shù)據(jù)中客觀的選擇最具代表性的成本動因,避免人為的經(jīng)驗(yàn)判斷導(dǎo)致的主觀偏差,最終提高代表性成本動因選擇的可靠性??v觀已有文獻(xiàn),不少學(xué)者通過實(shí)例運(yùn)用將同質(zhì)性成本動因進(jìn)行合并,能夠?qū)崿F(xiàn)在可接受的誤差范圍內(nèi)保證核算結(jié)果的準(zhǔn)確度[1-2]。然而在規(guī)劃設(shè)計(jì)類項(xiàng)目研究方面,大多學(xué)者主要研究于作業(yè)成本法在規(guī)劃設(shè)計(jì)類項(xiàng)目適用性和實(shí)例運(yùn)用[3-4],較少從成本動因合并角度解決作業(yè)成本法在設(shè)計(jì)規(guī)劃類項(xiàng)目實(shí)際應(yīng)用中的成本效益失衡問題。鑒于此,本文以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計(jì)類項(xiàng)目為例,以現(xiàn)有成本動因合并理論為基礎(chǔ),結(jié)合設(shè)計(jì)規(guī)劃類企業(yè)的特點(diǎn),構(gòu)建基于主成分分析算法和層次聚類算法設(shè)計(jì)項(xiàng)目成本動因合并模型,將一組數(shù)據(jù)的“主要成分”提取出來而忽略剩下的次要內(nèi)容,達(dá)到數(shù)據(jù)降維的效果,以減少運(yùn)算資源消耗的目的,降低作業(yè)成本法實(shí)施成本和復(fù)雜度,提高了規(guī)劃設(shè)計(jì)類單位運(yùn)用作業(yè)成本法的可操作性,從而推進(jìn)成本核算工作。

二、A研究院項(xiàng)目成本核算的現(xiàn)狀與問題分析

A風(fēng)景園林規(guī)劃研究院(以下簡稱“A研究院”)隸屬于自收自支正處級公益二類事業(yè)單位。承擔(dān)城市園林綠化管理信息平臺建設(shè)工作以及根據(jù)資質(zhì)提供規(guī)劃編制、風(fēng)景園林設(shè)計(jì)、城市市政工程設(shè)計(jì)、建筑設(shè)計(jì)等技術(shù)服務(wù)。規(guī)劃設(shè)計(jì)類項(xiàng)目不同于傳統(tǒng)的制造行業(yè),其經(jīng)濟(jì)利潤的創(chuàng)造主要依賴人員的知識和技術(shù),知識技術(shù)作為單位最基本的核心生產(chǎn)要素,成本核算方法與傳統(tǒng)成本核算存在著顯著的差異。通過對A研究院實(shí)地調(diào)研以及結(jié)合歷史數(shù)據(jù)分析發(fā)現(xiàn),目前運(yùn)用作業(yè)成本法進(jìn)行項(xiàng)目成本核算仍存在一些問題。

查看全文

透析證候研究中變量聚類結(jié)果

近年來,有不少學(xué)者利用系統(tǒng)變量聚類方法對西醫(yī)病種中中醫(yī)癥狀的分布情況進(jìn)行研究。例如,麻氏等[1]通過對739例膽病病案進(jìn)行分析,得到9個(gè)類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊(yùn)熱證、肝膽氣郁證、血瘀證、脾失健運(yùn)證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。筆者剖析系統(tǒng)變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把它們詮釋為證候的合理性。我們的結(jié)論是,變量聚類的結(jié)果不能詮釋為證候。

1變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義

在麻氏等[2]分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。分析所得的變量類之一如下。

類1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結(jié)、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。

本節(jié)以這個(gè)類為例,剖析系統(tǒng)變量聚類結(jié)果的含義。要準(zhǔn)確把握這個(gè)類的含義,需要考慮3個(gè)因素,即“變量”與“事件”這兩個(gè)概念的區(qū)別、變量間相似系數(shù)的定義以及變量類間相似系數(shù)的定義。下面逐一討論這3個(gè)因素。

1.1變量與事件

查看全文

信息化水平聚類分析論文

1、變量指標(biāo)的選取

國家統(tǒng)計(jì)局在其《中國信息能力報(bào)告》中,設(shè)計(jì)了一套評價(jià)我國信息化水平的指標(biāo):指標(biāo)體系共分4級,有25個(gè)指標(biāo):①信息技術(shù)和信息設(shè)備應(yīng)用能力:a.每千人擁有PC數(shù);b.每千人擁有傳真機(jī)數(shù);c.每百人擁有電話數(shù);d.每千人擁有電視機(jī)數(shù);e.每千人擁有收音機(jī)數(shù);f.每萬人接入因特網(wǎng)用戶;g.每百萬人互聯(lián)網(wǎng)上網(wǎng)主機(jī)數(shù);h.每平方公里光纜長度;i.每百家企事業(yè)單位上網(wǎng)數(shù);j.基礎(chǔ)信息產(chǎn)業(yè)產(chǎn)值占GDP比重。②信息資源及開發(fā)利用能力:a.每戶打國際電話時(shí)間;b.每百人期刊發(fā)行量;c.每日信息量;d.網(wǎng)絡(luò)用戶平均上網(wǎng)時(shí)間;e.每萬人Web站點(diǎn)數(shù)。③人口素質(zhì):a.每萬人平均科學(xué)家和工程師數(shù);b.第三產(chǎn)業(yè)從業(yè)人數(shù)占就業(yè)總?cè)丝诒戎?;c.大學(xué)入學(xué)率;d.每十萬人在校學(xué)生數(shù);e.計(jì)算機(jī)專家和工程師數(shù)。④國家對信息產(chǎn)業(yè)發(fā)展的支撐:a.信息產(chǎn)業(yè)產(chǎn)值占GDP比重;b.研究開發(fā)(R&G)支出占GDP比重;c.每主線電信投資;d.人均GNP;e.教育投入。

鑒于遵循數(shù)據(jù)的客觀性和代表性,以及易得性,本文采取以下指標(biāo):每千人工業(yè)增加值x1;每千人電信業(yè)務(wù)量x2;每千人移動通信交換機(jī)容量x3;移動電話普及率x4;電話普及率x5;廣播綜合人口覆蓋率x6;電視綜合人口覆蓋率x7;有線電視普及率x8;每十戶寬帶上網(wǎng)用占有戶數(shù)x9;R&D經(jīng)費(fèi)支出占GDP比重x10;每十人從事科技活動人員總數(shù)占有的人數(shù)x11;每十人在校大學(xué)生人數(shù)占有的人數(shù)x12;每千人專利授權(quán)數(shù)占有數(shù)x13。其中缺省值用平均值代替或者臨近年數(shù)內(nèi)值代替。由于篇幅有限,指標(biāo)數(shù)據(jù)省略。

2、因子分析

因子分析法是能夠?qū)崿F(xiàn)數(shù)據(jù)簡化目的的有效方法之一。其基本思想是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,使不同組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子。運(yùn)用因子分析法,借助EXCEL多元統(tǒng)分析,對已得的指標(biāo)數(shù)據(jù)進(jìn)行分析處理,在處理過程中選取方差貢獻(xiàn)比率為0.80。

按照方差貢獻(xiàn)比率大于80%,應(yīng)提取前四個(gè)因子,它們所解釋的方差占總方差的84.58%,這四個(gè)因子就可以解釋原始數(shù)據(jù)的大部分信息了。

查看全文

K-Means聚類算法數(shù)據(jù)分析

摘要:K-Means算法是無監(jiān)督學(xué)習(xí)中經(jīng)典的算法之一,通過組間的相異性規(guī)則把不同事物劃分為若干類,使各類之間的數(shù)據(jù)最為相似,不同類數(shù)據(jù)相異性盡可能最大化。本文通過K-means聚類算法分析某學(xué)校大學(xué)生期末大學(xué)信息技術(shù)基礎(chǔ)和C語言程序設(shè)計(jì)的成績,通過數(shù)據(jù)分析表明想要提高學(xué)生的整體成績,需要在C語言程序設(shè)計(jì)上付出更大的努力。

關(guān)鍵詞:K-means;數(shù)據(jù)分析;機(jī)器學(xué)習(xí)

1概述

機(jī)器學(xué)習(xí)中有兩類大問題:一個(gè)是聚類,另一個(gè)是分類。聚類是統(tǒng)計(jì)學(xué)的概念,屬于非監(jiān)督機(jī)器學(xué)習(xí)(unsupervisedlearning),應(yīng)用中數(shù)據(jù)挖掘,數(shù)據(jù)分析等領(lǐng)域,根據(jù)數(shù)據(jù)不同特征,將其劃分為不同的數(shù)據(jù)類,屬于一種無監(jiān)督學(xué)習(xí)方法。它的目的是使得屬于同一類別個(gè)體之間的密度盡可能的高,而不同類別個(gè)體間的密度盡可能的低[1]。分類是用已知的結(jié)果類別訓(xùn)練數(shù)據(jù),對預(yù)測數(shù)據(jù)進(jìn)行預(yù)測分類,屬于有監(jiān)督學(xué)習(xí)(supervisedlearning),常見的算法如邏輯回歸、支持向量機(jī)、深度學(xué)習(xí)等。聚類也是對數(shù)據(jù)進(jìn)行歸類,不過聚類算法的訓(xùn)練數(shù)據(jù)只有輸入,事先并不清楚數(shù)據(jù)的類別,通過特征的相似性對文本進(jìn)行無監(jiān)督的學(xué)習(xí)分類。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常不相交的子集,每個(gè)子集稱為一個(gè)簇(cluster)[2]。K-means屬于經(jīng)典聚類算法,根據(jù)樣本間的距離或者相異性進(jìn)行聚類,把特征相似的樣本歸為一類,相異的樣本歸為不同的簇。

2理論基礎(chǔ)

K-Means算法是從訓(xùn)練集D={x1,x2,…,xn}中選取K個(gè)樣本作為初始聚類中心c=c1,c2,…,ck,計(jì)算數(shù)據(jù)集中每個(gè)樣本xi到k個(gè)樣本初始中心點(diǎn)的距離,并把每個(gè)樣本劃分到離它最近的中心點(diǎn)的類中;每個(gè)簇類別βj,重新計(jì)算該簇所有樣本的質(zhì)心βj=1|cj|i∈cjΣxj,重復(fù)以上兩步,迭代更新直到每類質(zhì)心的變化小于閾值或者達(dá)到最大迭代次數(shù)。基本步驟為選擇數(shù)據(jù)中心,計(jì)算距離,分簇,重新選擇數(shù)據(jù)的質(zhì)心,重復(fù),直到數(shù)據(jù)收斂或達(dá)到最大迭代次數(shù)。該算法不能保證收斂到全局最優(yōu)。選擇訓(xùn)練過程的偽代碼如下:訓(xùn)練數(shù)據(jù)n個(gè)m維的數(shù)據(jù),隨機(jī)生成初始化聚類中心k個(gè)m維的點(diǎn)。While(t)t為迭代次數(shù)Foriinrange(n+1):#n為樣本點(diǎn)個(gè)數(shù)。Forjinrange(k+1):#k為簇的數(shù)目。Foriinrange(k+1):#計(jì)算樣本i到每個(gè)簇質(zhì)點(diǎn)j的距離。找出屬于這個(gè)簇中的所有數(shù)據(jù)點(diǎn),計(jì)算這類的質(zhì)心。重復(fù)以上步驟,直到每類質(zhì)心變化小于設(shè)定的閾值或者達(dá)到最大的迭代次數(shù)。設(shè)置最大特征數(shù),設(shè)置分類的組K值,訓(xùn)練特征數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。本文將數(shù)據(jù)過濾清洗,去除停用詞轉(zhuǎn)化為向量模型,使用TF-IDF算法對詞頻進(jìn)行權(quán)重計(jì)算,TF是詞頻,IDF是逆文檔頻率,TF-IDF反應(yīng)了一個(gè)詞在文本中的重要性它的值是TF×IDF。使用Python中的sklearn模塊的TfidfTransformer、CountVectorizer方法計(jì)算TF-IDF值,轉(zhuǎn)化為空間向量模型,選用K-means聚類算法對數(shù)據(jù)進(jìn)行挖掘與分析。

查看全文

聚類分析在財(cái)務(wù)績效評價(jià)的應(yīng)用

[提要]本文探討數(shù)據(jù)挖掘技術(shù)中聚類分析在財(cái)務(wù)績效評價(jià)中的應(yīng)用進(jìn)展。介紹背景及意義,應(yīng)用現(xiàn)狀,簡述利用聚類分析法進(jìn)行財(cái)務(wù)績效評價(jià)的一般流程,并提出對財(cái)會和數(shù)據(jù)挖掘技術(shù)結(jié)合的一些看法和觀點(diǎn)。

關(guān)鍵詞:財(cái)務(wù)績效分析;指標(biāo)選取;聚類分析法

引言

(一)背景及意義。企業(yè)的財(cái)務(wù)績效是指企業(yè)的運(yùn)營、戰(zhàn)略的執(zhí)行等是否能提高企業(yè)最終的經(jīng)營業(yè)績。財(cái)務(wù)績效能夠詳細(xì)地反映出企業(yè)在對成本的控制能力、合理調(diào)配各項(xiàng)資金的水平、管理資產(chǎn)用于盈利的程度。然而,現(xiàn)階段,僅憑借簡單的數(shù)據(jù)分析對企業(yè)財(cái)務(wù)績效進(jìn)行分析是不充分、不全面的,所以需要引入其他的研究方法。而且隨著信息時(shí)代的來臨,鋪天蓋地的信息碎片為我們的財(cái)務(wù)工作帶來了巨大的數(shù)據(jù)量,財(cái)務(wù)工作中收集到的數(shù)據(jù)中往往存在一些內(nèi)在邏輯關(guān)系,因此學(xué)會利用數(shù)據(jù)挖掘技術(shù)對深入研究財(cái)務(wù)數(shù)據(jù)越發(fā)重要。數(shù)據(jù)挖掘中的聚類分析被廣泛應(yīng)用在各種財(cái)務(wù)分析中,如財(cái)務(wù)風(fēng)險(xiǎn)分析、財(cái)務(wù)績效分析、財(cái)務(wù)數(shù)據(jù)分析等。本文將探討聚類分析在財(cái)務(wù)績效評價(jià)中的應(yīng)用進(jìn)展。(二)相關(guān)概念1、財(cái)務(wù)績效評價(jià)。財(cái)務(wù)績效評價(jià)表示用科學(xué)合理的方法對企業(yè)某個(gè)時(shí)期內(nèi)的生產(chǎn)經(jīng)營結(jié)果進(jìn)行定性定量的分析,使得企業(yè)業(yè)績具有可比性。便于利益相關(guān)者們直觀地理解財(cái)務(wù)績效,并對企業(yè)經(jīng)營成果做出客觀、公正的評判。正是因?yàn)樨?cái)務(wù)績效評價(jià)的客觀性與公正性,財(cái)務(wù)績效評價(jià)已經(jīng)成為了分析企業(yè)經(jīng)營狀況不可缺少的部分。2、聚類分析。聚類分析的基礎(chǔ)是數(shù)據(jù)之間存在相似性,在此基礎(chǔ)上將數(shù)據(jù)分為幾類,是一種常見的數(shù)據(jù)挖掘手段。數(shù)據(jù)間的相關(guān)性是存在價(jià)值的,因此聚類分析可以被用于提取數(shù)據(jù)間存在的特性來產(chǎn)生價(jià)值。在進(jìn)行聚類之前,需要保證數(shù)據(jù)之間的相關(guān)性,這一步則需要通過因子分析來實(shí)現(xiàn)。

一、應(yīng)用現(xiàn)狀及評價(jià)

在財(cái)務(wù)績效評價(jià)和聚類分析的結(jié)合方面,國內(nèi)存在大量研究,下面對一些期刊論文進(jìn)行綜述,評價(jià)應(yīng)用的現(xiàn)狀及優(yōu)缺點(diǎn)等。帥麗媛選取我國煤炭上市公司作為研究對象,剔除ST公司以保證財(cái)務(wù)數(shù)據(jù)穩(wěn)定,用13個(gè)財(cái)務(wù)指標(biāo)反映企業(yè)的盈利、償債、營運(yùn)和發(fā)展能力。通過篩選,去除了3個(gè)指標(biāo),并將反向指標(biāo)做了正向化處理。最終的側(cè)重是盈利能力4個(gè)指標(biāo),其余能力均是選取2個(gè)指標(biāo)。第一個(gè)因子的貢獻(xiàn)率最高為35.667%,再結(jié)合其旋轉(zhuǎn)成分矩陣,能代表盈利能力的資產(chǎn)報(bào)酬率X3、凈資產(chǎn)收益率X4、營業(yè)凈利率X5、每股收益X6均超過0.85,說明通過因子分析,盈利能力最能影響財(cái)務(wù)績效評價(jià)。下一步對得分進(jìn)行K-means法聚類分析,得出以下四類情況。第一類:償債能力較強(qiáng)而盈利能力弱,之前分析出盈利能力最能影響評價(jià)結(jié)果,所以這一類整體排名均靠后。剩余三類排名也均是受盈利能力的強(qiáng)弱影響,比如金瑞礦業(yè),三個(gè)指標(biāo)排名都不靠前,卻能依靠一個(gè)盈利指標(biāo)使綜合排名拉高。指標(biāo)選取側(cè)重點(diǎn)在于盈利能力,所以排名最受盈利能力影響。對于煤炭上市公司指標(biāo)選取是否應(yīng)以盈利能力為主,其中原因作者并未敘述。煤炭公司以國企為主,一直是高耗能、高污染產(chǎn)業(yè),而現(xiàn)今時(shí)代主題是去產(chǎn)能、去庫存的供給側(cè)改革和“綠水青山就是金山銀山”發(fā)展理論,其核心指標(biāo)的選取應(yīng)該多加分析和探究。李慶東等人對醫(yī)藥上市公司的財(cái)務(wù)績效進(jìn)行聚類分析,在指標(biāo)選取過程中,提出了對盈利質(zhì)量和盈利數(shù)量的思考,最終敲定以32個(gè)指標(biāo)來評價(jià)115家企業(yè)的財(cái)務(wù)績效。通過因子分析把32個(gè)指標(biāo)降維,最終得到利用效果因子、主營業(yè)務(wù)獲利因子、現(xiàn)金流量因子、負(fù)債水平因子、所有者資本占固定資產(chǎn)價(jià)值因子、成長能力因子、經(jīng)營條件因子、資產(chǎn)保值增值因子和還債壓力因子。不僅能反映企業(yè)的盈利、負(fù)債、發(fā)展和營運(yùn)能力,還體現(xiàn)了企業(yè)的資本結(jié)構(gòu)、現(xiàn)金流量等。通過聚類分析,最終所有企業(yè)被分成5類,提煉出每一類的共同點(diǎn),并對醫(yī)藥行業(yè)的總體進(jìn)行論述,最后對需要提高的點(diǎn)提出相應(yīng)的對策。由于旋轉(zhuǎn)成分表、得分排名表等均沒有列示,只能看出其指標(biāo)多、公司多。創(chuàng)新之處在于,提出了盈利的質(zhì)量,不單單以盈利數(shù)量進(jìn)行分析,其結(jié)果更加合理。龐鳳嬌選取32家鋼鐵行業(yè)上市公司作為研究對象,剔除其中的ST公司,剩余10家上市公司。將鋼鐵行業(yè)的節(jié)能減排戰(zhàn)略目標(biāo)考慮到指標(biāo)選取當(dāng)中,并結(jié)合行業(yè)的實(shí)際發(fā)展情況,在傳統(tǒng)的財(cái)務(wù)績效評價(jià)體系中加入了股票投資獲利能力?,F(xiàn)今,在股市的投資活動已經(jīng)成為了眾多企業(yè)收入的重要來源,尤其是鋼鐵煤炭等高耗能、高污染傳統(tǒng)行業(yè)。作者通過專業(yè)知識結(jié)合行業(yè)狀況,形成了獨(dú)特的“綠色技術(shù)創(chuàng)新績效評價(jià)”體系,把每股收益、每股凈資產(chǎn)、每股未分配利潤和每股股利納入指標(biāo)體系,較為全面地反映公司的股市投資能力。隨后,剔除相關(guān)性較高的指標(biāo),形成近似值矩陣,如表1所示。將償債能力每個(gè)指標(biāo)的相關(guān)性進(jìn)行列示,用以展示指標(biāo)的篩選過程,讓讀者更清晰地理解。最終選擇了13個(gè)指標(biāo),發(fā)展能力3個(gè)、股票投資能力3個(gè)、盈利能力2個(gè)、營運(yùn)能力2個(gè)、償債能力3個(gè),指標(biāo)分配比較均勻,沒有特別偏重的情況。研究使用的聚類方法是層次聚類法,使用平均距離來計(jì)算因子間的距離。平均距離可以反映類內(nèi)每個(gè)點(diǎn)之間的距離,比較客觀、合理。此外,由于分析中加入了股票獲利能力,不僅給行業(yè)內(nèi)部人員參考建議,還能讓股票市場的投資者對公司股票的漲跌有了清楚的認(rèn)知。(表1)呂振君從盈利、償債、發(fā)展和營運(yùn)能力四個(gè)傳統(tǒng)方面來考察50家物流企業(yè)的財(cái)務(wù)績效,指標(biāo)選取很常規(guī)、很均勻,每組3個(gè)指標(biāo),但沒有見到對反向指標(biāo)的正向化處理。在聚類分析的過程中,作者創(chuàng)造性地對聚類完成后的三個(gè)種類建立了得分評判標(biāo)準(zhǔn),通過數(shù)據(jù)分析來清晰地展現(xiàn)每一類間的差別。付靜使用因子分析法和聚類分析法分析了28家上市公司的競爭力狀況,選取18個(gè)指標(biāo),運(yùn)用SPSS軟件進(jìn)行因子分析和聚類分析,但在聚類分析過程中,只對綜合得分這一個(gè)指標(biāo)進(jìn)行聚類。其指標(biāo)所含信息丟失嚴(yán)重,為避免信息損失,應(yīng)該對所有因子的得分進(jìn)行分別的權(quán)重計(jì)算,即用各自的得分乘以其權(quán)重,得出新的權(quán)重得分,再對結(jié)果進(jìn)行聚類,才能保證信息盡可能反映在結(jié)果中。綜上,在文獻(xiàn)閱讀的過程中,可以得出一些簡單的體會:指標(biāo)的選取應(yīng)該結(jié)合行業(yè)發(fā)展背景來看,不能忽略行業(yè)的制約因素和重大影響因素,比如龐鳳嬌建立的“綠色技術(shù)創(chuàng)新績效評價(jià)”體系,為高污染、高排放企業(yè)績效評價(jià)提供借鑒意義。此外,指標(biāo)在體系中的分布應(yīng)該盡量均勻,不能厚此薄彼,如果偏重點(diǎn)過于集中,那么得出的結(jié)論是具有一定導(dǎo)向性的,比如說盈利能力指標(biāo)占所以指標(biāo)的50%以上,盈利指標(biāo)的權(quán)重得分一定最高。在指標(biāo)選取過程中,需要對反向指標(biāo)進(jìn)行正向化處理,比較常見的有用1減去原指標(biāo)、取倒數(shù)等處理手段。具體實(shí)施過程可以借鑒龐鳳嬌的相關(guān)性矩陣處理,可以直接清晰地反映出如何剔除指標(biāo)。另外,進(jìn)行聚類分析時(shí),不能僅用單個(gè)指標(biāo)或綜合得分進(jìn)行聚類,因?yàn)樵跀?shù)據(jù)折疊、展開過程中丟失的信息太多,而且如果類內(nèi)只有一個(gè)數(shù)據(jù),與別的數(shù)據(jù)計(jì)算之間的歐式距離沒有意義。此外,如果能像呂振君那樣建立一個(gè)分類評分標(biāo)準(zhǔn),那么整個(gè)績效評價(jià)過程會更加完善,得出的結(jié)果也更有說服力。

查看全文

雙網(wǎng)格校正小波聚類在航空發(fā)動機(jī)的應(yīng)用

摘要:航空發(fā)動機(jī)的核心部件轉(zhuǎn)子系統(tǒng),它的工作狀態(tài)關(guān)系到整臺機(jī)械設(shè)備的運(yùn)行狀態(tài),對其進(jìn)行狀態(tài)監(jiān)測和故障診斷能夠提高生產(chǎn)效率、避免重大事故發(fā)生,對現(xiàn)代工業(yè)的發(fā)展具有重大的意義。通過運(yùn)用雙網(wǎng)格校正小波聚類算法分析航空發(fā)動機(jī)的故障信號可以更好的將同類數(shù)據(jù)歸類,并將噪聲數(shù)據(jù)從類中分離出來,從而提高聚類精度和更快得到聚類結(jié)果,因此該診斷方法可以提高航空發(fā)動機(jī)轉(zhuǎn)子系統(tǒng)的故障診斷水平。

關(guān)鍵詞:小波聚類;雙網(wǎng)格校正;航空發(fā)動機(jī);故障診斷

航空航天產(chǎn)業(yè)的快速發(fā)展,越來越得到人們的重視,安全問題也成了重中之重的事情,輕則影響飛機(jī)的正常運(yùn)行,重則機(jī)毀人亡,會給社會和人們帶來嚴(yán)重的經(jīng)濟(jì)損失。航空發(fā)動機(jī)作為飛機(jī)的重要組成部分,直接關(guān)系到飛機(jī)的安全飛行。而航空發(fā)動機(jī)的核心零部件轉(zhuǎn)子系統(tǒng),轉(zhuǎn)子系統(tǒng)的正常運(yùn)行尤為重要,直接關(guān)系到飛機(jī)的運(yùn)行狀態(tài),因此對轉(zhuǎn)子系統(tǒng)進(jìn)行狀態(tài)監(jiān)測和故障診斷具有重要意義。WaveCluster算法是由GholamhoseinSheikholeslami、SurojitChatterjee、AidongZhang提出的,經(jīng)過多次完善,最終形成了現(xiàn)有的Wave-Cluster算法[1]。鄧貝貝對小波聚類算法在轉(zhuǎn)子故障診斷中的應(yīng)用進(jìn)行了初步探索[2];劉曉波教授提出一種基于雙網(wǎng)格校正的小波聚類算法,并應(yīng)用于轉(zhuǎn)子故障診斷中[3],因此本文利用雙網(wǎng)格校正小波聚類算法對航空發(fā)動機(jī)轉(zhuǎn)子系統(tǒng)的故障信號進(jìn)行診斷。

1基于雙網(wǎng)格校正小波聚類算法

小波聚類最終的量化結(jié)果是運(yùn)用一種尺寸對空間進(jìn)行均勻量化,一般而言,通過細(xì)化網(wǎng)格來準(zhǔn)確捕獲邊界,但細(xì)化網(wǎng)格產(chǎn)生的網(wǎng)格點(diǎn)數(shù)的波動因閾值的設(shè)置可能使類分裂成更多小類,這就造成細(xì)化網(wǎng)格、聚類精度與閾值之間存在矛盾,而并行校正算法在這之間找到了一個(gè)平衡:降低網(wǎng)格劃分和密度閾值對聚類結(jié)果的影響,雙網(wǎng)格校正算法的框圖如圖1所示。小波聚類[4]最重要的思想是將數(shù)據(jù)空間轉(zhuǎn)換為信號空間,而后在信號空間中利用小波變換的原理去求解數(shù)據(jù)空間中數(shù)據(jù)聚類的問題,這種轉(zhuǎn)換最大限度地利用了小波變換和網(wǎng)格聚類兩者的優(yōu)勢?;陔p網(wǎng)格校正小波聚類算法是以兩種尺寸對空間并行量化,運(yùn)用元胞數(shù)組結(jié)構(gòu)對有效信息進(jìn)行存儲和運(yùn)算,降低高維空間復(fù)雜度,運(yùn)用廣度優(yōu)先搜索[5]鄰居網(wǎng)格單元連通聚類,提高聚類精度,并行地進(jìn)行原始網(wǎng)格小波聚類和校正網(wǎng)格小波聚類,最后通過校正算法對原始網(wǎng)格小波聚類結(jié)果進(jìn)行校正[6]。在量化之前就要先確定下特征空間的維數(shù)d。在雙網(wǎng)格校正小波聚類中,采取的是兩種尺度的網(wǎng)格對信號數(shù)據(jù)空間進(jìn)行量化,確定K的取值范圍[Kmin,Kmax]。根據(jù)啟發(fā)式方法確定K的取值:[Kmin]。根據(jù)經(jīng)驗(yàn)公式K=int(姨N(yùn)),得到最佳劃分值為[Kmax]。其中,N為數(shù)據(jù)的個(gè)數(shù),d為特征空間的維數(shù)。

2實(shí)驗(yàn)分析

查看全文