很黄很黄的美女裸体视频,国产调教失禁久久,福利一区二区三区视频在线观看

導(dǎo)語：網(wǎng)頁歸類算法應(yīng)用論文一文來源于網(wǎng)友上傳，不代表本站觀點(diǎn)，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

網(wǎng)頁歸類算法應(yīng)用論文

自有文字和書籍以來，人類就開始注意文章的分門別類和編撰目錄。那些目錄事實(shí)上就將文章按照的類別進(jìn)行了分類。九十年代以來，Internet以驚人的速度起來，Web的容量增長迅速，平均每天增加100萬個頁面。技術(shù)發(fā)展到今天，靠人來閱讀互聯(lián)網(wǎng)上信息和對網(wǎng)上信息做分門別類和已經(jīng)不可能。

搜索引擎的分類瀏覽模式由此應(yīng)運(yùn)而生論文。它的目錄分類的質(zhì)量較高，檢索效果好；但是需要人工維護(hù)，因此存在成本高、信息更新慢、維護(hù)的工作量大的缺點(diǎn)。而基于模糊技術(shù)的網(wǎng)頁自動歸類能依據(jù)網(wǎng)頁中所包含的文本的語義將大量的網(wǎng)頁自動分門別類，從而更好地幫助人們把握信息。

網(wǎng)頁模糊歸類步驟與算法

簡單地說，網(wǎng)頁自動歸類所要完成的任務(wù)就是在給定的分類體系下，根據(jù)網(wǎng)頁的內(nèi)容自動地確定網(wǎng)頁關(guān)聯(lián)的類別。如果從純數(shù)學(xué)角度來看，網(wǎng)頁分類的過程實(shí)際上就是一個多對多的映射過程。依據(jù)“貝葉斯假設(shè)”的內(nèi)容，可以假定組成網(wǎng)頁的元素在確定網(wǎng)頁類別的作用上相互獨(dú)立。這樣，可以使用網(wǎng)頁中出現(xiàn)的字或詞的集合來代替網(wǎng)頁，即用一個向量來表示文本：D（W1,W2,W3……Wn），其中Wi為第i個元素（以下均稱為“特征項(xiàng)”）的數(shù)值。當(dāng)然，這將丟失大量關(guān)于網(wǎng)頁內(nèi)容的信息，但是這種假設(shè)可以使網(wǎng)頁的表示和處理形式化，從而讓計(jì)算機(jī)可以處理網(wǎng)頁。

構(gòu)成網(wǎng)頁中的文本的詞匯，數(shù)量是相當(dāng)大的，因此，表示網(wǎng)頁的向量空間的維數(shù)也相當(dāng)大，可以達(dá)到幾萬維，所有幾萬個詞匯對網(wǎng)頁分類的意義是不同的。首先，需要考慮詞語的性質(zhì)。一些通用的、各個類別都普遍存在的詞匯對分類的貢獻(xiàn)是很小的，因此特征提取過程需要去掉對表達(dá)網(wǎng)頁類別不太重要的詞匯。例如“的”、“地”、“得”、“著”、“了”等等。其次，在某特定類中出現(xiàn)比重大而在其他類中出現(xiàn)比重小的詞匯對文本分類的貢獻(xiàn)大，為了提高分類精度，可以利用詞語的互信息量篩選出針對該類的特征項(xiàng)集合。具體操作是算出每個詞語的互信息量并排序，然后抽取前n個詞語作為該類別的特征項(xiàng)，抽取的原則是反復(fù)試驗(yàn)使得網(wǎng)頁歸類效果最優(yōu)。互信息量(I)計(jì)算公式由下式給出：

為了讓計(jì)算機(jī)為我們進(jìn)行網(wǎng)頁的自動歸類，必須先對計(jì)算機(jī)進(jìn)行訓(xùn)練。只要訓(xùn)練網(wǎng)頁足夠多，那么由計(jì)算機(jī)進(jìn)行的歸類活動也將是準(zhǔn)確的。所有的訓(xùn)練樣本都需表示為向量。并使用每個詞的相對詞頻（TF-IDF公式）對網(wǎng)頁樣本的特征項(xiàng)進(jìn)行量化。然后，將每個類別中的所有訓(xùn)練樣本數(shù)據(jù)合成為一個平均參照樣本，計(jì)算方法就是將每個特征項(xiàng)的值求算術(shù)平均。相對詞頻計(jì)算公式由下式給出：

在歸類過程中，采用三級模糊綜合評判。一級指標(biāo)因素集（網(wǎng)頁中出現(xiàn)位置）包括：網(wǎng)頁題名、文章標(biāo)題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標(biāo)記。二級指標(biāo)因素集（詞性）包括：名詞,動詞,形容詞,副詞,介詞,連詞,助詞,數(shù)字,符號。三級指標(biāo)因素集：待分類網(wǎng)頁中所包含的全部詞語的頻數(shù)。評價集確定為V={V1(不屬于0),V2(不太可能屬于0.25),V3(可能屬于0.5),V4(很可能屬于0.75),V5(屬于1)}。

專家隨機(jī)抽取了300篇網(wǎng)頁，對這些網(wǎng)頁進(jìn)行人工自由標(biāo)引、人工打分、詞頻統(tǒng)計(jì)，并進(jìn)行統(tǒng)計(jì)數(shù)據(jù)的分析、，將一級指標(biāo)因素權(quán)重集確定為A={0.128,0.128,0.128,0.104,0.104,0.104,0.06,0.06,0.06,0.06,0.05,0.05}；根據(jù)語言學(xué)專家對各類別中不同詞性的詞語對標(biāo)志一個類別（以中圖分類法為標(biāo)準(zhǔn)）重要性程度統(tǒng)計(jì)和評分，將二級指標(biāo)因素權(quán)重集確定為An={0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05}；根據(jù)詞語的互信息量確定出三級指標(biāo)因素權(quán)重為Anm={Anm1,Anm2…Anmx}其中，Anmx即為對應(yīng)詞語的互信息量

隸屬函數(shù)采用卡夫曼教授提出的隸屬函數(shù)確定方法（正態(tài)分布模型）確定如下：

①詞頻針對“不屬于”的隸屬函數(shù)

②詞頻針對“不太可能屬于”的隸屬函數(shù)

③詞頻針對“不可能屬于”的隸屬函數(shù)

④詞頻針對“很可能屬于”的隸屬函數(shù)

⑤頻針對“屬于”的隸屬函數(shù)

其中，axyz是訓(xùn)練樣本中詞語的相對詞頻；x為樣本網(wǎng)頁中對應(yīng)詞的統(tǒng)計(jì)詞頻；系數(shù)是通過人工評判得到一些特殊點(diǎn)，由待定系數(shù)法求出的。

下面就要根據(jù)多級模糊綜合評判的計(jì)算方法與步驟將待歸類網(wǎng)頁與所有類別的平均參照樣本進(jìn)行一遍計(jì)算，得出一組表示該網(wǎng)頁與各個類別貼近度的數(shù)值。然后按照“最大隸屬原則”，將網(wǎng)頁劃到Vn值最大的對應(yīng)的類別中；或者用“域值法”，事先確定一個不大于1的域值λ，若Vn>λ則認(rèn)為網(wǎng)頁屬于此類別，因此，一個網(wǎng)頁可能同時屬于多個類別。

網(wǎng)頁模糊歸類實(shí)例

（1）．前期工作

•簡化的分類的標(biāo)準(zhǔn)：類，類，科教類

•訓(xùn)練樣本數(shù)目：48篇（三類各16篇）

•待歸類網(wǎng)頁：

•一級指標(biāo)因素及權(quán)重：U={U1=0.5,U2=0.5}

•二級指標(biāo)因素及權(quán)重：U1={U11=1.0}

U2={U21=0.4},U22=0.26),U23=0.34}

•三級指標(biāo)因素及權(quán)重：

U11={U111=0.86},U112=0.14)}

U21={U211=0.11,U212=0.35,U213=0.21,U214=0.06,U215=0.10,U216=0.17}

U22={U221=0.26,U222=0.38,U223=0.36}

U23={U231=0.46,U232=0.54}

•經(jīng)濟(jì)類訓(xùn)練網(wǎng)頁樣本相對詞頻：

a11={a111(經(jīng)濟(jì)1.2),a112(快訊1.2)}

a21={a211(我國1.1),a212(經(jīng)濟(jì)2.2),a213(水平1.8),a214(三年0.5),a215(人民0.9),a216(生活1.3)}

a22={a221(實(shí)現(xiàn)1.3),a222(翻番1.8),a223(提高1.7)}

a23={a231(連續(xù)1.6),a232(日益1.7)}

（2）．模糊綜合評判

首先統(tǒng)計(jì)待分類網(wǎng)頁的各個詞語的絕對詞頻如下：

U11={U111(經(jīng)濟(jì)1),U112(快訊1)}

U21={U211(我國1),U212(經(jīng)濟(jì)2),U213(水平1),U214(三年1),U215(人民1),U216(生活1)}

U22={U221(實(shí)現(xiàn)1),U222(翻番1),U223(提高1)}

U23={U231(連續(xù)1),U232(日益1)}

總共可以得到4個一級模糊綜合評判矩陣如下：

構(gòu)造二級模糊綜合評判矩陣

①采用M(∧,∨)算子的運(yùn)算結(jié)果

②采用M(•,)算子的運(yùn)算結(jié)果

構(gòu)造三級模糊綜合評判矩陣

①采用M(∧,∨)算子的運(yùn)算結(jié)果

②采用M(•,)算子的運(yùn)算結(jié)果

多因素綜合評判

①采用M(∧,∨)算子的運(yùn)算結(jié)果

②采用M(•,)算子的運(yùn)算結(jié)果

網(wǎng)頁歸類決策

通過三輪計(jì)算得出下表：

樣本與類別貼近度經(jīng)濟(jì)類體育類科教類

采用M(∧,∨)算子0．680．310．42

采用M(•,)算子

0．800．160．27

不管采用哪一種算子，如果用“最大隸屬原則”判斷，顯然都應(yīng)該屬于“經(jīng)濟(jì)類”；如果用“域值法”（λ=0.6）判斷，也應(yīng)該都屬于“經(jīng)濟(jì)類”。

結(jié)果分析

由上述算例可以看出，若用“最大隸屬原則”判斷，取λ=0.68，采用M(∧,∨)算子的算法就無法對此網(wǎng)頁歸類了，而采用M(•,)算子卻可以對網(wǎng)頁正確歸類。另外，采用M(•,)算子的結(jié)果區(qū)分效果比較明顯，與人工歸類的結(jié)果比較接近。由此可見，采用M(•,)算子的算法明顯優(yōu)于采用M(∧,∨)算子的算法。

本文的實(shí)例網(wǎng)頁最后得出的與“經(jīng)濟(jì)類”網(wǎng)頁的貼近值僅0.8，比理想值（人工估計(jì)為0.9）偏低了了一些，與其他類別的貼近值也存在一些偏差。這是因?yàn)楸疚闹信e的例子為了簡單起見，訓(xùn)練文本才48篇，導(dǎo)致計(jì)算機(jī)訓(xùn)練不足；另外，待歸類網(wǎng)頁過于簡單。這些都導(dǎo)致了歸類結(jié)果與理想值的偏差,在實(shí)際情況下，這些都可以避免。

作者在自行開發(fā)的“網(wǎng)頁模糊歸類測試系統(tǒng)”平臺上作了大量對于網(wǎng)頁的歸類測試工作(詳見附錄)，測試文檔與訓(xùn)練網(wǎng)頁都是取自“新聞網(wǎng)”新聞網(wǎng)頁。在訓(xùn)練網(wǎng)頁達(dá)到1200篇的時候，歸類準(zhǔn)確率封閉測試為85.73%，開放測試為78.82%。雖然這種以模糊綜合評判為核心的算法實(shí)現(xiàn)的系統(tǒng)初始化工作比較繁重，但是歸類的結(jié)果準(zhǔn)確率很高，因此還是非常具有實(shí)際價值的。

［1］卜東波.聚類/分類及其在大規(guī)模文本挖掘中的,北京:院技術(shù)研究所,2000.

［2］邊肇祺,張學(xué)工.模式識別(第二版),北京:清華大學(xué)出版社,2000,83-159,284-300.

［3］韓正忠,方寧生.模糊數(shù)學(xué)應(yīng)用,南京:東南大學(xué)出版社2003.2

［4］劉智穎.語言理解與機(jī)器翻譯,清華大學(xué)出版社2001.7

［5］劉祖根.基于WordNet的文本分類技術(shù)研究和實(shí)現(xiàn),長江大學(xué)2002

［6］龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統(tǒng)的研究與實(shí)現(xiàn),計(jì)算機(jī)應(yīng)用研究,2001,9(9):23-26.

［7］劉增良.模糊技術(shù)與應(yīng)用選編,北京航空航天大學(xué)出版社,1997.2(1)ISBN7-81012-691-1

［8］孫貽源.模糊數(shù)學(xué),華中工學(xué)院出版社,1984

［9］張俊福.應(yīng)用模糊數(shù)學(xué),地質(zhì)出版社,1988.11

網(wǎng)頁歸類算法應(yīng)用論文

熱門標(biāo)簽

相關(guān)文章

精品范文