煤炭資源關(guān)鍵詞搜索算法研究

時(shí)間:2022-06-24 10:22:17

導(dǎo)語:煤炭資源關(guān)鍵詞搜索算法研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

煤炭資源關(guān)鍵詞搜索算法研究

K-means算法在煤炭資源關(guān)鍵詞搜索算法中的研究

K-means算法是比較典型的搜索引擎算法。K-means算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來進(jìn)行計(jì)算的。K-means算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。具體如下:輸入:kdatan①選擇k個(gè)初始中心點(diǎn),例如c0data0…ck-1datak-1;②對(duì)于data0…。datan分別與c0…cn-1比較,假定與ci差值最少,就標(biāo)記為i;③對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算ci所有標(biāo)記為i的dataj之和/標(biāo)記為i的個(gè)數(shù);④重復(fù)2、3直到所有ci值的變化小于給定閾值。

FCA算法在煤炭資源關(guān)鍵詞搜索算法中的研究

在其理論中每個(gè)形式概念由兩部分組成:外延(對(duì)象部分)和內(nèi)涵(屬性部分)。形式概念分析的兩個(gè)重要的組成部分是形式背景和概念格。概念格的每一個(gè)節(jié)點(diǎn)是一個(gè)形式概念,由兩部分組成:外延和內(nèi)涵。外延,即概念所覆蓋的所有對(duì)象的集合;內(nèi)涵,則被認(rèn)為這些對(duì)象所擁有的共同特征的集合。概念格作為形式概念分析核心的數(shù)據(jù)結(jié)構(gòu),本質(zhì)上描述了對(duì)象和特征之間的聯(lián)系,表明了概念之間泛化和例化之間的關(guān)系,其相應(yīng)的Hasse圖,則實(shí)現(xiàn)了對(duì)數(shù)據(jù)的可視化。在搜索引擎算法中,根據(jù)文本匹配的基本原理,研究基于形式概念分析(FCA)的文本匹配方法,主要是使用FCA的方法來表示網(wǎng)頁,使網(wǎng)頁的內(nèi)容表達(dá)的更合理,根據(jù)現(xiàn)在的網(wǎng)頁表示形式,制定與之適合的網(wǎng)頁與用戶輸入的關(guān)鍵詞的匹配操作,以便更加準(zhǔn)確地計(jì)算網(wǎng)頁與用戶所輸入的關(guān)鍵字的匹配程度,根據(jù)用戶對(duì)檢索到的網(wǎng)頁感興趣的程度來修改對(duì)網(wǎng)頁的表示,以提高信息檢索的質(zhì)量。當(dāng)煤炭技術(shù)人員和煤炭愛好者輸入查詢文本或者關(guān)鍵字的時(shí)候,根據(jù)網(wǎng)頁與用戶輸入的關(guān)鍵詞的匹配操作,便可以返回所要搜索的結(jié)果。

K-means算法與FCA算法的實(shí)驗(yàn)結(jié)果的比較

在實(shí)驗(yàn)過程中運(yùn)行的機(jī)器是1臺(tái)PC,配有CPUIntelPentium(雙核),內(nèi)存為2GB,硬盤160G,運(yùn)行的操作系統(tǒng)為WindowsXPSP3。算法實(shí)驗(yàn)結(jié)果如表1所示,算法時(shí)間對(duì)比如表2所示。通過上述實(shí)驗(yàn)中發(fā)現(xiàn)FCA算法程序運(yùn)行時(shí)間明顯比K-means算法運(yùn)行時(shí)間長,但是準(zhǔn)確率比K-means算法算法高一些;使用概念格提高了準(zhǔn)確率,由于FCA算法較復(fù)雜,但是運(yùn)行時(shí)間比較長;使用K-means算法,由于FCA算法較簡單,所以節(jié)省了運(yùn)行時(shí)間。

通過上述的研究分析,K-means與FCA算法適合作為搜索引擎的算法,而且有各自的優(yōu)點(diǎn)和缺點(diǎn),使用基于K-means與FCA的煤炭資源關(guān)鍵詞搜索算法將會(huì)使搜索引擎所搜索到人們滿意的結(jié)果,煤炭技術(shù)人員和煤炭愛好者使用搜索引擎會(huì)搜索到更滿意的結(jié)果。

本文作者:朱正國工作單位:攀枝花學(xué)院