搜索引擎研究范文
時間:2023-04-02 18:55:54
導語:如何才能寫好一篇搜索引擎研究,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
1.“確解用戶之意,切返用戶之需。”
2.“門戶網(wǎng)站都想著是怎樣省錢,而不是怎樣花錢來買技術?!?/p>
3.“搜索引擎不是人人都能做的領域,進入的門檻比較高?!?/p>
4.“只是優(yōu)秀還不夠,最好的方式是將一件事情做到極致?!?google十大真理)
5.“做搜索引擎需要專注”“對于一項排到第四的業(yè)務,門戶很難做到專注?!?/p>
6.“用戶無法描述道他要找什么,除非讓他看到想找的東西?!?/p>
7.“所謂楔形,其實就是個倒三角,倒三角的尖端部分代表搜索技術,中部是基于技術的產(chǎn)品應用平臺,最上端是對整個搜索引擎用戶人群文化的認識和理解,以及現(xiàn)代公司競爭最關鍵也最捉摸不定的所謂品牌?!薄靶ㄐ巍碧N涵的另一個意義是:楔子要打到墻里,尖端是否銳利很重要,但楔子的破壞性有多強,究竟能在墻面擠壓出多大的空間,其中端、后端的沉穩(wěn)與厚重才是關鍵。
搜索引擎的技術和理念都是需要時間和經(jīng)驗的積累的,更是需要長期不斷的完善進步的,絕對不要認為可以一蹴而就,要達到一個相對成熟領先的搜索引擎從開始到領先的周期一般需要是四年。著急不得。原因是因為搜索引擎太復雜,而且“用戶無法描述他要找什么,除非讓他看到想找的東西?!币磺卸夹枰?,嘗試,問題需要一個一個解決,用戶的需要得一點點的挖掘。搜索引擎是一個產(chǎn)品,給用戶提供服務的產(chǎn)品,需要長期的不斷的改進升級調(diào)整才能持續(xù)不斷的提用戶體驗,需要滿足用戶不斷增長并且變化的需求、需要不斷適應網(wǎng)絡的變化。這是因為網(wǎng)絡環(huán)境是不斷變化的、網(wǎng)民的需求也是不斷變化的。千萬不要把搜索當成項目來做,做完了撂那讓用戶去用那你肯定沒戲。在搜索引擎領域是講體驗的、新的引擎如果用戶體驗一旦整體上有領先一年以上的差距并且持續(xù)2年,那前期的領先者的優(yōu)勢就蕩然無存,因為搜索引擎的用戶轉移成本相對而言是比較低的而且口碑是最佳的傳播方式。如果一個搜索引擎不能持續(xù)不斷的技術創(chuàng)新理念創(chuàng)新,那對于這個搜索引擎來說就等于死亡。我們一般形容搜索引擎的領先是以時間計算的。比如:中搜離百度整體差距×年,百度離google的整體差距×年,……只要你能在用戶體驗上保持一年的領先優(yōu)勢持續(xù)2年,不需要炒作,一切紛至沓來。在用戶體驗面前,任何的炒作都顯得很渺小。作垂直搜索引擎,麻雀雖小,但是五臟俱全。無論理念文化、產(chǎn)品管理、應用、技術都和搜索引擎的楔形理論沒有什么區(qū)別。所以要做好一垂直搜索必須解決這幾個方面。
楔形的尖:垂直搜索技術。
垂直搜索技術主要分為兩個層次:模板級和網(wǎng)頁庫級。模板級是針對網(wǎng)頁進行模板設定或者自動生成模板的方式抽取數(shù)據(jù),對網(wǎng)頁的采集也是針對性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點是快速實施、成本低、靈活性強,缺點是后期維護成本高,信息源和信息量小。網(wǎng)頁庫級就是在信息源數(shù)量上、數(shù)據(jù)容量上檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁庫搜索引擎級別的要求,和模板方式最大的區(qū)別是對具體網(wǎng)頁不依賴,可針對任意正常的網(wǎng)頁進信息采集信息抽取……。這就導致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當然模板方式和網(wǎng)頁庫級的方式不是對立的,這兩者對于垂直搜索引擎來說是相互補充的,因為技術只是手段,目的是切反用戶之需。本文談及的技術主要是指網(wǎng)頁庫級別垂直搜索引擎技術。搜索引擎的確是一項對技術要求比較高的應用,幾年前相關的人才也比較少?,F(xiàn)在搜索技術人才多了,相關的技術和技術的應用得相對以前而言更加成熟,但是競爭也更加激烈了。
垂直搜索大致需要以下技術:
1.信息采集技術
2.網(wǎng)頁信息抽取技術
3.信息的處理技術,包括:重復識別、重復識別、聚類、比較、分析、語料分析等
4.語意相關性分析
5.分詞
6.索引
信息采集技術,垂直搜索引擎spider和網(wǎng)頁庫的spider相比應該是更加專業(yè),可定制化??啥ㄏ蛐缘牟杉痛怪彼阉鞣秶嚓P的網(wǎng)頁忽略不相關的網(wǎng)頁和不必要的網(wǎng)頁,選擇內(nèi)容相關的以及適合做進一步處理的網(wǎng)頁深度優(yōu)先采集、對頁面有選擇的調(diào)整更新頻率……,采集可通過人工設定網(wǎng)址和網(wǎng)頁分析url方式共同進行。垂直搜索對信息的更新有著特別的要求,根據(jù)這些特點可以從以下幾點考慮1.信息源的穩(wěn)定性(不能讓信息源網(wǎng)站感覺到spider的壓力)2.抓取的成本問題3.對用戶體驗改善程度。根據(jù)以上幾點制定一種比較好的策略,要做到恰到好處。策略上可以評估網(wǎng)站/網(wǎng)頁更新的系數(shù)、網(wǎng)站/網(wǎng)頁的重要系數(shù)、用戶點擊系數(shù)(或曝光系數(shù))、網(wǎng)站穩(wěn)定系數(shù)……,根據(jù)這些系數(shù)來確定對這些網(wǎng)站/網(wǎng)頁更新的頻率。再由于新信息和更新了的信息list頁面前面或者首頁,所以對網(wǎng)頁進行很好的分級可以以低成本很好的解決更新問題,系數(shù)比較低的網(wǎng)頁一月update一次,稍微高點的一周update一次、中等的幾天到一天一次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫……基于視覺網(wǎng)頁塊分析技術,模擬IE瀏覽器的顯示方式,對網(wǎng)頁進行解析。根據(jù)人類視覺原理,把網(wǎng)頁解析處理的結果,進行分塊,再根據(jù)需要,對這些塊進行處理,如:采集定向、介紹抽取和一些必要的內(nèi)容的抽取正文抽取……結構化信息抽取技術,將網(wǎng)頁中的非結構化數(shù)據(jù)按照一定的需求抽取成結構化數(shù)據(jù)。有兩種方式,簡單的就是模板方式,另外就是對網(wǎng)頁不依賴web結構化信息抽取方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對網(wǎng)頁信息結構化抽取后再結構化數(shù)據(jù)進行深度的處理,提供專業(yè)的搜索服務。所以web結構化信息抽取的技術水平是決定垂直搜索引擎質(zhì)量的重要技術指標。其實web結構化信息抽取在百度、google早已經(jīng)廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網(wǎng)頁庫抽取出企業(yè)信息,添加到其地圖搜索中的,google通過這種技術正在顛覆做內(nèi)容的方式。同樣的技術應用還在qihoo、sogou購物、shopping等各種應用中體現(xiàn)。簡單的語法分析,簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數(shù)據(jù)的質(zhì)量,低成本的獲得某類信息,改善排序,尋找需要的內(nèi)容……信息處理技術,信息處理包括的范圍比較廣,主要包括去重、聚類、分析……,這根據(jù)需要相關的技術就非常多。
數(shù)據(jù)挖掘,找出您的信息的關聯(lián)性對于垂直搜索來說非常重要,有效,可以在這些相關性上為用戶提供更細致的服務。
分詞技術,面向搜索的分詞技術,建立和您的行業(yè)相關的詞庫。注意這是面向搜索的分詞,不是面向識別和準確的分詞。就這個工作安排十幾個人不停的維護也不會嫌多。索引技術,索引技術對于垂直搜索非常關鍵,一個網(wǎng)頁庫級的搜索引擎必須要支持分布索引、分層建庫、分布檢索、靈活的更新、靈活的權值調(diào)整、靈活的索引和靈活的升級擴展、高可靠性穩(wěn)定性冗余性。還需要支持各種技術的擴展,如偏移量計算等。其它技術,略。
垂直搜索引擎的技術評估應從以下幾點來判斷
1.全面性
2.更新性
3.準確性
4.功能性
鍥形的中和尾:產(chǎn)品應用平臺和對搜索引擎文化理念的理解
對于任何一個產(chǎn)品來說,產(chǎn)品的模式是最重要的,技術只是手段、工具、途徑。用戶不會關心你的技術是如何實現(xiàn)的、更不會關心你的技術水平是什么樣的,只要用戶感覺:這就是我需要的東西,很好用,而且是最好用的。那么你的產(chǎn)品就OK了??紤]一個產(chǎn)品的模式需要考慮的東西很多,如:用戶需要什么?需求有多大?能不能完整的實現(xiàn)用戶的需求?需要什么資源?怎么做到?競爭分析?差異化?根據(jù)自身情況能做到什么程度?怎么樣保持領先優(yōu)勢?能否收到錢?怎么樣收錢?怎么樣推廣?需要多少時間?如何保證在時間窗口期內(nèi)有效完成進度?如何分步分期優(yōu)先完成用戶最需要的需求?如何建立有效的反饋機制讓我可以了解用戶的需求變化和挖掘用戶自己也無法表達的需求?如何進一步改善?分期需要多大的投入?如何降低整體成本和前期成本?如何分期投入?投資回報比?周期?……
1.確解用戶之意
任何應用最難的就是了解用戶的需求,甚至是用戶自己都不知道的需求。
建立完善的、快速的用戶意見反饋機制和用戶需求調(diào)查機制,所有人都應傾聽用戶的牢騷、建議。不斷的分析、修改。
2.切返用戶之需
滿足用戶的需求,一切紛至沓來。不需要炒作,請把您的資源多多花費在為用戶提供良好的體驗上來。
3.不要干擾用戶的意圖,培養(yǎng)用戶的使用習慣和技巧
有一個故事是這樣的:還在yahoo使用google的搜索的時候,華爾街的幾個分析師來評估這兩個搜索哪個好用,去掉logo。結果一致評價yahoo的檢索效果好。因為yahoo是使用的google檢索結果,并且對熱點關鍵詞進行了人工調(diào)整。但是一轉身這些分析師回到自己的電腦邊查詢東西,不約而同的打開了google。
4.細節(jié)決定成敗
信息不是越多越好,在海量的信息時代,如果不能妥善的整理信息,那就等于沒有信息。每個頁面的每個字,每個像素、圖片的放置都值得花費時間去琢磨。把用戶最需要的放在最顯眼的位置,次需要的放置到更多頁面,不需要的扔掉。
5.將一件事情做到極致
不僅僅要關注80%的用戶的80%的需求,20%的用戶的20%的需求是您成敗關鍵所在。
6.專注
這么多需要你解決的問題,你還能干其它事情?對于一個排在第四的業(yè)務你是沒有機會的。所以垂直搜索引擎的成功肯定不是具備良好資源的行業(yè)門戶、也不會是大搜索的公司,必然是專注于某一行業(yè)的搜索引擎公司。因為只有專注,才能將一件事情做到極致。
7.創(chuàng)新
失敗不要緊,但是如果搜索引擎公司沒有創(chuàng)新,那這個搜索引擎公司必然面向的就是死亡。
8.需要完全掌握主要技術。
一個核心業(yè)務不可能通過外包手段來解決技術問題。雖然找個大公司外包技術看起來很美麗,很快速,甚至成本比較低。但是這是在毀滅你的將來。因為這是產(chǎn)品,不是項目。產(chǎn)品是需要不斷完善調(diào)整的,用戶的需求也是變化的需要挖掘的,互聯(lián)網(wǎng)也是變化的,你外包技術絕對不可能做到靈活、及時滿足各種變化。在和競爭對手競爭的時候您如何保持您的領先優(yōu)勢?(前文說了,如果被對手保持領先一段時間,那么你之前的領先優(yōu)勢就蕩然無存)。這里還沒有考慮競爭問題,購買其它搜索引擎公司的技術,對方會不會把真正的技術毫不保留的賣給你。再說,賣你你你能搞懂嗎?技術再困難也要自行解決。否則你注定失敗。最好的辦法就是購買核心技術縮短研發(fā)周期、成本、風險,再在這個核心技術進行自主研發(fā)。這是垂直搜索的技術門檻,看似不高,其實很高。
對于技術問題可以迂回解決,用最簡單的技術滿足用戶最迫切的需求。用戶是不會關心技術實現(xiàn)的。模板方式可以是網(wǎng)頁結構化信息抽取技術的補充。對于可行的應用早期采用模板技術也是不錯的選擇。比如chinabbs就做的很好,用戶的主要需求是要瀏覽到好的帖子,所以加強內(nèi)容的建設,找高水平的編輯做推薦,而且在界面和易用性上也很不錯。領先qihoo。技術方面他們初期采用的應該是模板自動生成方式采集論壇信息,比qihoo技術水平差,但是這目前不是用戶需求的關鍵,而且qihoo技術水平層次雖然高但是如果不成熟,體現(xiàn)給用戶的東西未必就強。Chinabbs接下來再解決技術難點,在技術上有提升,那么他就能持續(xù)保持領先優(yōu)勢了。(但是話又說回來,招聘好的編輯很容易,技術要提升一個層次并且成熟很難,而且很耗費時間,當然用戶習慣和知名度也是需要很長時間培養(yǎng)的)
9.用最簡單的技術實現(xiàn)用戶最迫切的需要
技術重要,但是技術的使用得當更重要,技術是為用戶體驗服務的。只要能滿足用戶需要,什么技術都可以,簡單不代表不行,用最簡單的技術實現(xiàn)用戶最迫切的需要。百度的整體技術我認為離google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google好,原因就是將簡單的技術用于實現(xiàn)用戶迫切的需求。舉個我身邊的例子來描述簡單的技術實現(xiàn)需求:我把我們的基于視覺的網(wǎng)頁塊分析的正文抽取技術演示給一好友看,好友看后說:我們也實現(xiàn)了。我大驚,他們不是做搜索的,居然也實現(xiàn)了!他告訴我他們實現(xiàn)的方法后,我再次吃驚,深感簡單的技術也可以很好的解決問題,雖然不完全解決,但是能滿足自己的需求就好。他們的解決方法是:對網(wǎng)頁的html進行分析,將整段文字中沒有html代碼的文字提取出來,這就是正文。(驚嘆!!如此簡單!!注:他們的信息源都是這樣的格式)
10.根據(jù)中國本土互聯(lián)網(wǎng)特點,強力的antispam,對信息進行清洗。
11.很多人誤解垂直搜索就是把相關的行業(yè)網(wǎng)頁做一個采集,進行正文抽取,實現(xiàn)搜索,完成信息冊查詢。其實并非如此。如果這樣無法和網(wǎng)頁搜索競爭,網(wǎng)頁搜索很容易就可以將網(wǎng)頁庫按行業(yè)分類、按地區(qū)分類。
篇2
隨著互聯(lián)網(wǎng)技術和互聯(lián)網(wǎng)應用系統(tǒng)的快速發(fā)展,各個領域的互聯(lián)網(wǎng)應用系統(tǒng)都已經(jīng)積累了海量的Web數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、用戶數(shù)據(jù)、評價數(shù)據(jù)、關聯(lián)數(shù)據(jù)、狀態(tài)數(shù)據(jù)等等。這些數(shù)據(jù)不僅內(nèi)容極其豐富,而且很大程度上都開放給互聯(lián)網(wǎng)用戶,可以免費的訪問、下載和處理。這就為進一步集成和開發(fā)這些Web數(shù)據(jù)的潛在價值,建立增值應用提供了重要基礎。聚類搜索是近年來發(fā)展最為迅速的互聯(lián)網(wǎng)數(shù)據(jù)集成和增值技術。聚類搜索是在垂直搜索基礎上發(fā)展起來的新型搜索技術。垂直搜索是主要針對行業(yè)的專業(yè)搜索,側重于某一行業(yè)領域,其目的是使用戶能夠更加方便地找出所需的專業(yè)信息。而聚類搜索是為了進一步提高搜索的精度使其符合用戶的搜索習慣和興趣,在搜索引擎的搜索結果中進行聚類,把搜索出來的信息進行分類處理,將使信息資源更加清晰明了。
目前國內(nèi)對聚類搜索引擎的綜述主要見于文獻[1]和文獻[2],雖然這兩篇文章對聚類搜索引擎進行了很好的綜述和分析,對聚類搜索引擎的形成和發(fā)展過程進行了說明,并對主流聚類搜索系統(tǒng)進行了測評和分析,但是對于聚類系統(tǒng)的功能分析還不夠詳盡,對于聚類搜索引擎未來的發(fā)展沒有給出明確的定位。
本文首先給出了典型聚類搜索引擎系統(tǒng)的基本工作流程,對聚類搜索引擎的發(fā)展歷史和現(xiàn)狀進行了概括式綜述,然后從聚類對象、聚類功能和聚類算法三個角度對聚類搜索引擎進行研究,并全面分析了若干著名聚類搜索引擎。
本文結構:第1節(jié)介紹聚類搜索引擎的發(fā)展現(xiàn)狀;第2節(jié)對聚類搜索引擎的功能進行分析;第3節(jié)對典型聚類搜索引擎進行綜述;第4節(jié)描述聚類搜索引擎的發(fā)展趨勢;第5節(jié)總結全文。
1聚類搜索引擎的研究現(xiàn)狀
1.1聚類搜索引擎概念和工作過程
所謂聚類搜索引擎,就是運用聚類技術對搜索結果進行自動聚類分析的搜索工具。其特點是去重性強、分類性強、匯集性強,即可以及時去除重復信息,對搜索的結果進行分門別類,并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關鍵字,從一個或多個搜索引擎獲取搜索結果;②對搜索結果進行預處理,過濾掉重復、無效信息;③將文檔中關鍵短語作為特征提取出來生成聚類標簽;④將文檔分配到生成的聚類標簽下;⑤將聚類后的搜索結果進行排序并顯示給用戶。
1.2國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀
搜索引擎的發(fā)展階段總共經(jīng)歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機器進行自動爬取和分析,利用鏈接分析技術實現(xiàn)更為準確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習慣記憶等方面,是未來搜索引擎主要的發(fā)展方向。
近幾年,國際上對聚類搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類搜索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個在搜索引擎上使用聚類方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類搜索引擎,符合用戶使用習慣,搜索效率高?;贘ava的開源Carrot2聚類搜索引擎[5]可自動的把搜索結果歸類到相應的語義類別中,它的一個亮點是速度和易用性的提高。中文搜索領域,早期比較有實力的聚類搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復信息的煩惱。Bbmao的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結果的功能,同時完成海量信息的分門別類。近期出現(xiàn)的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發(fā)點是兩大搜索引擎的搜索結果的很大的差異性。這類系統(tǒng)對搜索結果進行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用戶更便捷地找到需要的信息。
有關國內(nèi)外聚類搜索引擎的相關技術,主要有聚類分析、聚類算法、中文信息處理等技術。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質(zhì)量的研究。Sudipto Guha等研究人員[8]應用概念關聯(lián)代替?zhèn)鹘y(tǒng)的計算歐式距離,來衡量數(shù)據(jù)之間的相似度,從而確定聚類,達到了很好的效果。
國內(nèi)一些學術組織和團體很早就開始對自動文本分類、聚類領域等相關內(nèi)容進行研究,從“天網(wǎng)”和“網(wǎng)絡指南針”開始北京大學和清華大學就開始致力于網(wǎng)頁的聚類技術研究。此外,北京科技大學的麻雪云提出了一種基于關鍵名詞短語聚類的中文搜索結果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯(lián)網(wǎng)信息,對搜索結果進行聚類分析。國防科技大學的肖坤對STC算法和Lingo算法進行了比較,并對STC算法進行了改進,設計實現(xiàn)了一個面向校園網(wǎng)聚類搜索引擎系統(tǒng)[10]。
2聚類搜索引擎的功能分析
2.1聚類對象分析
現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價數(shù)據(jù)、社交數(shù)據(jù)。
商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類信息,并按照銷量、價格、信用進行了排序,對商品的聚類分析清晰明確。評價數(shù)據(jù)主要包括論壇對相關主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品的滿意度評價信息等。大連海事大學的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡論壇熱點話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡注冊用戶個人資料信息、用戶關注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類的關聯(lián)信息,對實現(xiàn)智能和個性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。
2.2聚類功能分析
聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。
智能聚類:聚類搜索引擎大多具有這項功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會對搜索結果自動分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻。
去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時間,是十分實用的一項聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結果后,比比貓可以自動為用戶獲取最有搜索結果并取掉重復的信息。
多媒體:除了文本聚類,聚類搜索引擎還關注視頻、音頻等多媒體信息進行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強,用戶輸入音樂名稱,將獲得全新的聚類結果,該結果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關度最高。
覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結果覆蓋全面,可聚類的對象內(nèi)容豐富。
2.3聚類算法分析
聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點進行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結構的聚類算法,將聚類的結果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結構的聚類算法,它將搜索結果聚類后按照主題自動分類成圖形界面顯示出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結構的聚類算法,是通過標簽云的形式將在語義上相關的詞聚類,構成網(wǎng)狀鏈接。
3典型聚類搜索引擎
3.1 Vivisimo系統(tǒng)
Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結果,對查詢的結果進行聚類分析,經(jīng)過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結果,主要是文本信息。Vivisimo的聚類功能主要是文本的聚類,通過對文本內(nèi)容進行搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預先標記或分類的資源中整合、分類內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對檢索的結果進行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預。
目前Vivisimo的商業(yè)應用十分廣泛,它對信息的分類很體貼,具有人性化。其細致的檢索結果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數(shù)據(jù)資源庫,依附于其他大型搜索引擎,獨立性較差,檢索功能有待加強。
3.2 Carrot2系統(tǒng)
Carrot2是基于Java開發(fā)的開源聚類搜索系統(tǒng)[6],主要用于對搜索結果進行聚類。與Vivisimo相似,首先也是用戶輸入關鍵字在Bing、baidu、google等知名搜索引擎進行搜索,然后對返回的搜索結果進行聚類,并通過樹形的分類圖進行顯示出來。Carrot2的聚類對象主要是各大搜索引擎返回的搜索結果,其通過文檔聚類平臺workbench,對搜索的數(shù)據(jù)進行聚類分析,并通過文檔聚類服務器DCS,將聚類結果作為REST服務呈現(xiàn)。最后,Carrot2以WebApp方式將聚類結果作為網(wǎng)絡應用呈現(xiàn)給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于奇異值分解的索引結果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。
目前Carrot2支持的聚類算法較多,代碼開源可以進行版本的更新和改進。該系統(tǒng)應用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。
4聚類搜索引擎發(fā)展趨勢
文獻[1]通過對大量搜索引擎的評測,發(fā)現(xiàn)獨立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結果的聚類方法進行了評測,對聚類搜索引擎的趨勢的分析也主要側重于聚類方法。本文認為聚類搜索引擎未來將向數(shù)據(jù)海量化,鏈接社交化,聚類綜合化三個方向發(fā)展。
4.1數(shù)據(jù)海量化
現(xiàn)階段的聚類搜索由于數(shù)據(jù)集較為單一,聚類算法過于老舊,造成呈現(xiàn)給用戶的檢索結果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類搜索的發(fā)展壯大。所以未來聚類搜索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列搜索結果,而是通過對搜索的詞條和海量的網(wǎng)頁的內(nèi)容進行分析,自動對搜索結果進行聚類和分類,為用戶提供豐富而直觀的結果。
4.2鏈接社交化
在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡形成了一個巨大的Deep Web(針對網(wǎng)絡爬蟲而言),而這個數(shù)據(jù)量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進行聚類搜索可望更好滿足用戶的個性化需求。
4.3聚類綜合化
聚類的多元化、跨領域、綜合化將是新型聚類搜索的重要特點。局限于單個應用領域的聚類搜索已經(jīng)難以適應需要,跨領域聚類將是未來聚類搜索面臨的主要挑戰(zhàn)。
5結束語
隨著Web2.0的蓬勃發(fā)展,網(wǎng)頁數(shù)量成級數(shù)增長,為了使互聯(lián)網(wǎng)用戶更加方便、快捷的得到需要的信息,聚類搜索代表著一種重要搜索引擎的發(fā)展方向。隨著聚類搜索引擎的算法和數(shù)據(jù)源的逐步完善,聚類搜索引擎技術將得到迅猛發(fā)展和更為廣泛的應用。(來源:電腦知識與技術 編選:)
參考文獻:
[1]蘇建華,張燦,聚類搜索引擎研究[J].新世紀圖書館,2009(6):72-75.
[2]蒼宏宇,譚宗穎,聚類搜索引擎發(fā)展現(xiàn)狀研究[J],圖書情報工作,2009,53(2):125-127.
[3]沈賀丹,潘亞楠,關于搜索引擎的研究綜述[J].計算機技術與發(fā)展,2006.16(4):147-152.
[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441.
[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.
[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.
[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.
[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].
[9]麻雪云,基于聚類的元搜索引擎設計和實現(xiàn)[D].北京:北京信息科技大學,2008.
[10]肖坤,面向用戶興趣的校園網(wǎng)聚類搜索引擎的研究與實現(xiàn)[D].長沙:國防科技大學,2010.
篇3
關鍵詞:比較購物;電子商務;比較購物搜索引擎
中圖分類號:F49
文獻標識碼:A
文章編號:1672-3198(2010)19-0330-02
1 引言
隨著Internet的不斷發(fā)展,電子商務這一全新概念急速興起,傳統(tǒng)直效營銷的許多渠道已被網(wǎng)上購物所取代。然而,為了獲得最實惠的商品,網(wǎng)上購物消費者必定會登陸不同的網(wǎng)上購物網(wǎng)站,對同一商品進行比較,這種行為會消耗客戶太多的時間,“比較購物”為解決這一問題打下了堅實的基礎。所謂比較購物是指為網(wǎng)上購物消費者提供多個購物網(wǎng)站中同一商品的比較信息,包括商品價格、支付方式、配送方式、商家信譽度等的比較資料。目前比較購物可以使網(wǎng)上購物消費者足不出戶即可“貨比三家”,使消費者在短暫的時間內(nèi)獲得所需商品的詳細信息,從而做出購買決策,當然,由于電子商務的整體環(huán)境需進一步完善,比較購物也存在著一定的風險。本文從比較購物搜索引擎的概念著手,對目前比較流行的幾個比較購物搜索引擎進行比較,以此為基礎構建了比較購物搜索引擎的模型,并以大拿網(wǎng)(省略)為實例,證明這個模型是可行的。
2 目前常用比較購物搜索引擎的比較
2.1 比較購物搜索引擎的概念
隨著加入比較購物網(wǎng)站的服務商數(shù)量和商品數(shù)量的迅速增加,比較購物網(wǎng)站已經(jīng)與搜索引擎具有類似的特征,即作為用戶查詢商品信息的工具,為制定購買決策提供支持,購物搜索引擎可以理解為搜索引擎的一種細分,即在網(wǎng)上購物領域的專業(yè)搜索引擎。購物搜索引擎是從比較購物網(wǎng)站發(fā)展起來的,比較購物最初的設想,是為消費者提供從多種在線零售網(wǎng)站中進行商品價格、網(wǎng)站信譽、購物方便性等方面的比較資料,隨著比較購物網(wǎng)站的發(fā)展,其作用不僅表現(xiàn)在為在線消費者提供方便,也為在線銷售上推廣產(chǎn)品提供了機會,實際上也就等類似于一個搜索引擎的作用了,并且處于網(wǎng)上購物的需要,從比較購物網(wǎng)站獲得的搜索結果比通用搜索引擎獲得的信息更加集中,信息也更全面(如有些比較購物網(wǎng)站除了產(chǎn)品價值信息之外,還包含了包含對在線銷售商的評價等),于是比較購物網(wǎng)站也就逐漸演變?yōu)橘徫锼阉饕?。因此一些網(wǎng)站開始逐漸放棄“比較購物”一詞,而改稱為“比較購物搜索引擎”。
比較購物搜索引擎以滿足消費者的實際需求為出發(fā)點,幫助消費者從無數(shù)的在線銷售網(wǎng)站中找到自己所需要的商品與服務。比較購物搜索引擎將從網(wǎng)上商店抽取的商品信息存儲到數(shù)據(jù)庫中,當消費者查看商品信息時,系統(tǒng)將根據(jù)用戶的請求從數(shù)據(jù)庫中提取數(shù)據(jù),顯示給消費者。
比較購物搜索引擎區(qū)別于一般網(wǎng)頁搜索引擎的功能在于,除了搜索商品、了解商品說明等基本信息外,還可以進行商品價格比較,并對商品和在線商家進行評級,這些評比結果對于消費者購買決策有一定的影響,尤其對于知名度不是很高的在線商家,通過比較購物搜索引擎,不僅增加了被用戶發(fā)現(xiàn)的機會,若在評比上有較好的排名,也有助于增加消費者的信任。因此,當消費者進入比較購物網(wǎng)站進行商品信息檢索時,就可以獲得比較豐富的信息,使消費者可以做出對自己最好的決定。
2.2 比較購物搜索引擎的比較
全國的B2C網(wǎng)上商店已經(jīng)達到10萬家,網(wǎng)上商品數(shù)超過6000萬件,要找到消費者滿意的商品相當困難。比較購物成為目前最受歡迎的網(wǎng)上購物方式,比較購物的優(yōu)勢和好處是用戶可以對同一件商品的不同商家、不同報價進行同時對比和選擇,更重要的是用戶可以直接比較用戶對不同商家同一產(chǎn)品的評論,對商家提供的配送服務、支付方式、售后服務、打折優(yōu)惠信息進行透明比較,一目了然。通過比較購物,用戶只需在一個站點即可真正做到貨比多家,買東西不吃虧。
目前中國出現(xiàn)的比較購物網(wǎng)站正在逐步的完善中,每個比較購物網(wǎng)站都有自己的特色,我們將通過表1對5家比較有代表性的比較購物網(wǎng)站進行分析:
更新速度時時更新每天更新每天更新每天更新每天更新
盈利模式競價排行、廣告收入、與商家利潤分成廣告收入、與商家利潤分成廣告收入、商品銷售分成、商家為點擊付費與商家利潤分成、廣告收入競價排名廣告、與商家利潤分成、第三方購物
經(jīng)營范圍通信、數(shù)碼、辦公用品綜合性綜合性計算機、通信、數(shù)碼產(chǎn)品綜合性
目前我國比較購物網(wǎng)站都能夠比較準確、及時地提品基本信息,各比較購物網(wǎng)站也有自己的特色,如:“搜易得”和“中商網(wǎng)”為顧客提供了先行賠付的服務,消除了購物者的后顧之憂;2006年,“搜易得”推出全新“點擊付費模式”,可以更加直觀地更加合理地反映出商戶的收益/付出比;“中商網(wǎng)”重視本地化購物,創(chuàng)新地提出了第三方購物的理念。
3 比較購物搜索引擎的模型
隨著中國互聯(lián)網(wǎng)和電子商務的發(fā)展,越來越多的B2C、C2C模式的電子商務網(wǎng)站如雨后春筍般涌現(xiàn)出來,為廣大用戶提供了購物的新途徑,并直接促成了“中國互聯(lián)網(wǎng)的第二個春天”。然而,網(wǎng)上商店由于其功能的單一性,消費者必將花費更多的時間和精力對多個網(wǎng)上商店的商品價格、商家信譽、支付方式、配送方式等信息進行多次比較才能獲得自己所喜歡的商品。筆者提出的比較購物引擎的模型(如圖1所示)使這種情況得到了一定的改善,比較購物網(wǎng)站依托先進的搜索技術,整合眾多電子商務網(wǎng)站的資源,將其數(shù)據(jù)庫融合為一個數(shù)據(jù)庫,為廣大用戶提供卓越的購物導購服務。
圖1 比較購物搜索引擎模型
整個比較購物的過程大致步驟如下:進入比較購物網(wǎng)站,填寫相關信息(用戶名稱、登錄密碼、郵箱等)進行注冊,注冊成功后再登錄網(wǎng)站,在搜素欄中輸入自己所要購買的商品名稱后將出現(xiàn)不同的報價范圍,消費者根據(jù)自身條件比較、選擇適合自己的報價范圍,網(wǎng)站數(shù)據(jù)庫根據(jù)消費者的選擇來提供相關信息,消費者再通過比較不同商家的報價、商家信譽、配送方式等信息來選擇購物網(wǎng)站進行購買。
4 實例研究
比較購物搜索引擎的興起有效地解決了供應方和需求方的脫節(jié)問題,使消費者的網(wǎng)上購物更加方便、快捷。本文將通過比較購物網(wǎng)站――大拿網(wǎng)來具體描述比較購物搜索引擎的優(yōu)勢。大拿網(wǎng)(省略)是由北京賽寶時代信息技術有限公司(Beijing Cyber Times Information Technology co.,Ltd)開發(fā)的比較購物網(wǎng)站。大拿網(wǎng)以建立全球最大的中文比較購物網(wǎng)站為目標,在“互惠互利”的前提下,竭力發(fā)展與廣大B2C電子商務網(wǎng)站的合作關系,為消費者提供了價格比較、綜合搜索、信譽評級三項服務。下面以購買“索尼T90”為例簡要敘述比較購物流程:進入大拿網(wǎng)(省略)首頁,選擇免費注冊進入注冊界面
填寫相關信息提交,登錄大拿網(wǎng),在搜索欄中輸入要購買的商品名稱“索尼T90”,可以得到不同的報價范圍(如圖2所示),消費者根據(jù)自身需求選擇合適的報價范圍后,點擊“查看詳情”進入如圖3所示界面,可以查看所選報價范圍內(nèi)出售該商品的商家的信用評級、商品的價格、商品的購買信息等,大拿網(wǎng)還啟用糾錯系統(tǒng)來不斷完善比較購物體系,消費者根據(jù)多方面的比較后選擇合適的電子商務網(wǎng)站就可以購得令消費者滿意的商品。
5 結論
通過本文的比較分析可以知道,比較購物搜索引擎逐漸被人們所認識、了解并廣泛使用是可以理解的。比較購物網(wǎng)站的出現(xiàn),使消費者面對眾多的網(wǎng)上商店不再感到眼花繚亂而無所適從;比較購物網(wǎng)站的出現(xiàn),可以使消費者在最短的時間內(nèi),在浩如煙海的信息海洋中挑選出自己想要的商品,而且上手簡單方便。當然,由于電子商務整體環(huán)境還有待進一步的完善,比較購物搜索引擎自身也存在一定的局限性,但是,比較購物搜索引擎為消費者方便、快捷地購物提出了希望。
參考文獻
篇4
【關鍵詞】搜索引擎;商標侵權;關鍵詞;責任認定
一、搜索引擎商標侵權概述
1.搜索引擎商標侵權的界定
搜索引擎商標侵權是指將他人的部分或者全部商標設置為自己的Meta標簽,或者通過競價排名購買他人的商標作為自己的關鍵詞從而引起互聯(lián)網(wǎng)用戶的混淆,并由此牟取不正當利益的行為。根據(jù)互聯(lián)網(wǎng)調(diào)查數(shù)據(jù)表明,在互聯(lián)網(wǎng)的熱門服務中,搜索引擎以64.5%的使用率位居第三。由于網(wǎng)頁的廣告和銷售收入與網(wǎng)頁的訪問量成正比,因此網(wǎng)頁經(jīng)營者們?yōu)榱颂岣呔W(wǎng)頁的點擊率、增加收入,往往都會利用搜索引擎技術吸引客戶,由此引發(fā)的搜索引擎商標侵權糾紛也就越來越多。研究搜索引擎商標侵權問題不僅可以更好地保護商標權人的利益,保護相關商標的商譽,打擊侵害商標權的違法行為,還可以凈化互聯(lián)網(wǎng)的競爭環(huán)境,促進互聯(lián)網(wǎng)更快更好地發(fā)展。
2.搜索引擎商標侵權類型分析
第一種,Meta標簽引起的商標侵權。Meta標簽可以用來描述網(wǎng)頁的基本情況,還可以對關鍵詞及網(wǎng)頁等級進行設定,在網(wǎng)頁設計中會將Meta標簽嵌入網(wǎng)頁源代碼中。當互聯(lián)網(wǎng)用戶使用搜索引擎查找某一信息時,搜索引擎可以根據(jù)Meta標簽快速的找到相關的信息網(wǎng)站。[1]一些網(wǎng)頁設計者為了提高自己網(wǎng)頁的點擊率或者其他牟利的原因,利用一般的互聯(lián)網(wǎng)用戶看不到Meta標簽這一特點,將他人的商標設置為自己的Meta標簽,互聯(lián)網(wǎng)用戶使用搜索引擎查找該商標時,網(wǎng)頁就會轉到將Meta標簽設置為該商標的網(wǎng)站,這便引起了商標侵權糾紛。
第二種,關鍵詞檢索引起的商標侵權。將Meta標簽設置為他人商標存在不會被搜索引擎搜索到的風險并且容易被技術檢測出來引起商標侵權糾紛,于是一種更為隱蔽的網(wǎng)絡推廣手段出現(xiàn)了,即為關鍵詞檢索。關鍵詞檢索的原理是公司向搜索引擎網(wǎng)站購買與公司產(chǎn)品或者服務相關的關鍵詞,當用戶搜索該關鍵詞時,該公司的網(wǎng)站頁面就會出現(xiàn)在搜索結果頁面中較為突出的位置。而一些公司為了推廣自己公司的產(chǎn)品或者服務向搜索引擎網(wǎng)站購買他人公司的關鍵詞,當用戶搜索該關鍵詞時,很容易因為誤認就進入了購買該關鍵詞的公司網(wǎng)站,這就是關鍵詞廣告引起的商標侵權類型。[2]
第三種,搭載廣告引起的商標侵權。搭載廣告引起的商標侵權是指某公司并未購買某關鍵詞,但是當用戶搜索某一關鍵詞時,該公司通過搭載廣告的形式仍然出現(xiàn)在搜索結果的頁面上。典型的廣告搭載的例子就是“淘寶”和“易趣”這兩個購物網(wǎng)站,互聯(lián)網(wǎng)用戶使用谷歌搜索“淘寶”時,搜索結果中會出現(xiàn)“想淘寶,上易趣”這個廣告鏈接,而點擊該鏈接就會進入易趣網(wǎng)站。其實搭載廣告也是利用了關鍵詞來進行商標侵權的,某些搜索引擎商利用搜索結果,將一些關鍵詞提供給該關鍵詞購買者的競爭對手作為搭載廣告從而從中獲利。
二、搜索引擎引起的商標侵權的認定
傳統(tǒng)的商標侵權的認定可以適用《侵權責任法》上關于侵權行為的規(guī)定,那么搜索引擎引起的商標侵權應該如何認定呢?筆者認為搜索引擎引起的商標侵權是傳統(tǒng)商標侵權在網(wǎng)絡中的延伸,其同樣可以適用《侵權責任法》,即從過錯,違法行為,損害事實以及因果關系這四個方面來認定搜索引擎引起的商標侵權。[3]
1.過錯
對于主觀過錯的認定同樣要從搜索引擎服務提供商和作為鏈接的第三方網(wǎng)站這兩個方面去分析。對于搜索引擎服務提供商,應適用過錯推定原則。即如果其在提供競價排名服務時沒有盡到審查義務或者已知侵權情況發(fā)生而沒有及時采取相應的補救措施就應當認定為其主觀有過錯。對于作為鏈接的第三方網(wǎng)站,如果其有將他人的部分或者全部商標設置為自己的Meta標簽或者購買他人已注冊的商標作為自己的關鍵詞這種行為就應當認定為其主觀有過錯,除非網(wǎng)站經(jīng)營者能夠證明自己沒有過錯。適用過錯推定原則一方面避免了受害方在網(wǎng)絡環(huán)境下舉證困難的不利因素,另一方面保證了網(wǎng)絡交易的順暢發(fā)展。[4]
2.違法行為
搜索引擎商標侵權主體不僅包括搜索引擎服務提供商,還包括作為鏈接的第三方網(wǎng)站。因此從這兩個主體分別分析其行為有無違法性。首先看搜索引擎服務提供商違法行為的表現(xiàn)形式。搜索引擎服務提供商并不是商標的直接侵權者,他對商標侵權的責任在于在提供競價排名服務時他對第三方網(wǎng)站提供的關鍵詞沒有盡到審查義務,致使商標專用權人受到了損害或者是商標專用權人已經(jīng)告知其這種侵權行為,而搜索引擎服務提供商沒有積極的采取補救措施。再來分析作為鏈接的第三方網(wǎng)站行為的違法性,如果他在自己的網(wǎng)頁代碼中將他人的 部分或者全部商標設為Meta標簽,這種行為無疑是具有違法性的。如果該第三方網(wǎng)站只是參與了競價排名服務,那么這種行為是否具有違法性還要看其購買的關鍵詞是否是已注冊的商標以及其是否具有不正當經(jīng)競爭的目的等。
3.損害事實
損害事實,既包括對公共財產(chǎn)的損害,也包括對私人財產(chǎn)的損害,同時還包括對非財產(chǎn)性權利的損害,只要對他人人身或財產(chǎn)利益造成了受損的事實,均構成損害事實。[3]商標是一種無形資產(chǎn),一個有著良好商譽的商標能給商標權人帶來巨大的商業(yè)利益,商標的損害后果相較于其他損害事實來說是特殊的。結合《商標法》的立法宗旨,我們要認定搜索引擎引起的商標侵權的損害事實,其包括以下幾個方面:
(1)是否侵害了商標專用權人的商業(yè)利益,是否使商標所享有的信譽降低以及是否侵害了生產(chǎn)經(jīng)營者的利益;
(2)是否侵害了消費者的利益;
(3)是否破壞了網(wǎng)絡交易秩序等。[5]
4.因果關系
侵權行為中的因果關系是指違法行為與損害結果之間的客觀聯(lián)系,即特定的損害事實是否是行為人的行為必然引起的結果。只有當二者間存在因果關系時,行為人才應承擔相應的民事責任。因此,因果關系是侵權行為構成要件的必備環(huán)節(jié)。因果關系也可以分為直接的因果關系和間接的因果關系。作為鏈接的第三方網(wǎng)站將他人的部分或者全部商標設置為自己的Meta標簽或者參與競價排名服務購買他人的商標作為自己的關鍵詞,這種侵害他人商標專用權的行為與損害事實有著直接的聯(lián)系。而提供競價排名服務的搜索引擎商幫助第三方網(wǎng)站侵害商標權人的利益,這種行為和損害事實有著間接地聯(lián)系。
三、完善搜索引擎商標侵權責任的具體建議
1.明確搜索引擎商標侵權的責任承擔主體
(1)搜索引擎服務商的審查和補救義務
要減少搜索引擎商標侵權的糾紛,搜索引擎服務商需要盡到一定的審查義務,同時在侵權情況發(fā)生后商標專用權人提出異議時也應當及時進行補救。首先,搜索引擎服務商應當對第三方網(wǎng)站申請購買的關鍵詞進行審查,隨著現(xiàn)在網(wǎng)絡技術的發(fā)展,程序人才輩出,搜索引擎服務商應當設計一套程序。這套程序中應當包含所有已注冊的商標,區(qū)分為馳名商標和普通的注冊商標。對于馳名商標,與其有關的關鍵詞一律屬于商標權人,不得賣給其他任何第三方網(wǎng)站。而對于普通的注冊商標,如果購買人能夠提供合理的說明,則可以進行關鍵詞購買。其次,搜索引擎服務商應當對購買關鍵詞的第三方網(wǎng)站進行審查。如果作為鏈接的第三方網(wǎng)站將關鍵詞作為自己的商標,使消費者產(chǎn)生了混淆,那么應當及時刪除,否則將會侵害商標權人的利益。最后,一旦侵害情況發(fā)生,且商標權人已經(jīng)及時將此情況告知搜索引擎服務商,搜索引擎服務商應當立即對鏈接的第三方網(wǎng)站進行刪除或者屏蔽,否則就應當共同承擔侵權責任。
(2)作為鏈接的第三方網(wǎng)站的責任
作為鏈接的第三方網(wǎng)站在合理使用關鍵詞的情況下不構成商標侵權,但是我國對于合理使用并沒有作出一個明確的界定,而搜索引擎中商標侵權的認定又比較的復雜,可以從以下兩個方面對第三方網(wǎng)站是否屬于商標侵權責任承擔主體進行認定。
(1)作為鏈接的第三方網(wǎng)站主觀上有沒有惡意,有沒有使用他人商標增加點擊率的不良意圖,會不會使互聯(lián)網(wǎng)用戶對第三方網(wǎng)站的商標和使用的關鍵詞商標產(chǎn)生誤認。由于這種善惡意都是主觀狀態(tài),所以我們應該從以下幾個方面去考察,第三方網(wǎng)站購買關鍵詞是在該商標成為知名商標前還是之后;第三方網(wǎng)站是否必須使用該關鍵詞來描述自己的網(wǎng)站;第三方網(wǎng)站使用該關鍵詞是否使消費者產(chǎn)生了混淆,有沒有對這種混淆采取避免措施等。
(2)作為鏈接的第三方網(wǎng)站使用該關鍵詞只是為了描述自己的網(wǎng)站,而并非出于搭便車的心理。一些關鍵詞雖然被作為商標,但是它并沒有失去其本身的含義,第三方網(wǎng)站購買該關鍵詞只是為了說明自己的服務或者產(chǎn)品,并沒有將其作為商標使用使消費者產(chǎn)生混淆或者在自己的網(wǎng)頁中采取了避免混淆的措施,在這種情況下作為鏈接的第三方網(wǎng)站就不需要承擔侵權責任。
2.明確搜索引擎商標侵權的責任形式
從一些案件的判決結果可以看出,在搜索引擎商標侵權中是以共同侵權責任制度來解決搜索引擎服務商這一間接侵權行為。根據(jù)《中華人民共和國侵權責任法》第八條第二款及《民法通則》第130條的規(guī)定,認定搜索引擎服務商與作為鏈接的第三方網(wǎng)站對商標權人承擔連帶責任。在司法實踐中,用共同侵權來解決搜索引擎商標侵權案件有一定的弊端。如果搜索引擎服務商與作為鏈接的第三方網(wǎng)站承擔連帶責任,由于我們很容易找到搜索引擎服務商,而作為鏈接的第三方網(wǎng)站經(jīng)營者我們很難找到,所以商標權人往往會選擇實施了間接侵權行為的搜索引擎服務商,這無疑是不公平的。在網(wǎng)絡技術發(fā)達的今天,如果使搜索引擎服務商與作為鏈接的第三方網(wǎng)站承擔連帶責任,那么搜索引擎服務商的注意義務將大大提高,這不僅僅會造成不公平,更不利于互聯(lián)網(wǎng)的發(fā)展?;谝陨侠碛桑瑧斒撬阉饕娣丈毯妥鳛殒溄拥牡谌骄W(wǎng)站分別承擔相應的民事責任,搜索引擎服務商承擔其間接侵權的責任而第三方網(wǎng)站承擔其直接侵權的責任。這樣有主有次,一方面搜索引擎服務商因為會承擔相應的間接侵權責任而盡到自己的審查義務,另一方面作為鏈接的第三方網(wǎng)站也會為自己的侵權行為買單,既體現(xiàn)公平,也能夠加強商標的保護,促進互聯(lián)網(wǎng)的發(fā)展。
3.搜索引擎商標侵權責任的承擔
根據(jù)我國《侵權責任法》的相關規(guī)定,考慮到搜索引擎商標侵權主要是侵害了商標權人所擁有商標的商譽,所以搜索引擎商承擔侵權責任的方式主要有停止侵害、賠禮道歉、消除影響及賠償損失等四種方式。其中我國現(xiàn)行計算商標侵權的損害賠償主要依據(jù)是權利人的損失、侵權人的獲利以及法定的賠償數(shù)額。搜索引擎引起的商標侵權也依然適用這三個標準,即作為鏈接的第三方網(wǎng)站的獲利、商標權人的損失以及法定的賠償數(shù)額。作為鏈接的第三方網(wǎng)站的獲利可以根據(jù)其在侵權行為持續(xù)期間所獲的全部銷售收入減去成本之后,都作為侵權人的獲利,而這里第三方網(wǎng)站的獲利是由于消費者對其產(chǎn)品產(chǎn)生混淆得來的。[6]而商標權人的損失則是由于第三方網(wǎng)站的侵權使得商標權人的產(chǎn)品銷售量減少從而產(chǎn)生的損失,這一部分損失應當由商標權人來舉證。法定賠償是指在人民法院無法查清受害人實際損失和侵權人營利數(shù)額時,人民法院按法律規(guī)定的賠償數(shù)額確定的賠償數(shù)額。[7]
參考文獻
[1]張乃根,符望.全球電子商務的知識產(chǎn)權法[M].上海:上海交通大學出版社,2004:222.
[2]焦文銘.搜索引擎侵權的法律分析[J].江蘇警官學院學報,2007(2):2-3.
[3]孫艷花.商標侵權認定研究[J].商業(yè)文化,2011(7):9-10.
[4]鄧富國,曹新明.網(wǎng)上搜索引擎商標侵權探析[J].人民司法,2002(4):5-6.
基金項目:本文系2011年度遼寧省大連市科技計劃項目“大連市知識產(chǎn)權保護能力建設的法律對策研究”(項目編號:2011D12ZC137);遼寧省社會科學規(guī)劃基金項目重點項目(遼寧文化產(chǎn)業(yè)發(fā)展法律問題研究(項目編號:L12AFX001)支持。
作者簡介:
篇5
關鍵詞:搜索引擎 查準率 查全率
中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3791(2012)12(c)-0022-01
搜索引擎在國外發(fā)展的較早,比較著名的有:Google,Yahoo,Excit,Lycos等。其中根據(jù)ComScore公司近兩年的統(tǒng)計,全球近75%的網(wǎng)民使用過谷歌搜索引擎或其提供的各種衍生服務。而我國主要從1997年開始發(fā)展面向中文信息檢索的中文搜索引擎。到現(xiàn)在,國內(nèi)搜索行業(yè)已被百度所統(tǒng)領。
雖然搜索引擎的出現(xiàn)確實為人們在網(wǎng)上查找信息提供了強有力的手段和有效的工具,但是目前,屬于某個領域的各種中文搜索引擎的數(shù)量越來越多,從而使搜索引擎產(chǎn)生了一定的局限性。并且在信息維護、網(wǎng)絡站點負載,管理及服務等方面暴露了一些問題與不足。
1 搜索效率
搜索引擎的兩個主要指標是查準率(precision)和查全率(recall)。查準率從一個方面描述了搜索引擎系統(tǒng)的查詢開銷。如果某次查詢的查準率是85%,則15%的文獻是不相關文獻,但用戶瀏覽其中的內(nèi)容以確定它們是否包含所需信息。對于實際系統(tǒng),索引速度和檢索速度也是重要指標。事實上,在測試中,絕大多數(shù)系統(tǒng)的平均查準率都在0.1~0.5之間,最好的測試結果平均查準率也不到0.6。根據(jù)直觀估計當前Internet上的著名搜索引擎,如yahoo,google等,它們的平均查準率小于0.2。這說明搜索引擎系統(tǒng)的性能還有很大的提高空間,但提高系統(tǒng)性能是非常困難的。
2 站點和網(wǎng)絡負載
這也是目前網(wǎng)絡搜索引擎存在的最大問題。網(wǎng)絡搜索機器人快速地讀取文檔,必然會導致了大量的網(wǎng)絡流量和站點負載,傳輸大量的數(shù)據(jù)時,某些站點很有可能會因為機器人要讀取文檔而一直處于繁忙狀態(tài)。機器人所造成的負載很大程度上是由于機器人為了對相應數(shù)據(jù)建立索引,需要讀取整個文檔造成的。另外,當機器人沿鏈接作深度優(yōu)先搜索時,WEB服務器的負載往往也很重。
3 搜索引擎間的數(shù)據(jù)重復
常用的搜索引擎很少能夠與其它的搜索引擎共享它們的數(shù)據(jù)。其結果就是多個搜索引擎檢索相同的資源和文檔,多個機器人搜索訪問同樣的WEB站點,無疑帶來了不必要的網(wǎng)絡和服務器負載。當用戶使用多個搜索引擎尋找信息時,也給用戶造成不必要的麻煩。
4 鏈接和數(shù)據(jù)的易變性
這是搜索引擎所面臨的一個重要問題。對搜索引擎的影響是,索引數(shù)據(jù)庫存儲的文檔和鏈接信息很有可能已經(jīng)改變了位置或己經(jīng)被刪除。當用戶查詢某些信息時,搜索引擎給出文檔和鏈接的列表,而當用戶試圖沿著鏈接到遠程站點訪問這些信息時,他們也許會收到這樣的出錯信息,“沒有找到服務器”。
5 缺乏統(tǒng)一的規(guī)劃、協(xié)調(diào)與合作
目前國內(nèi)搜索行業(yè)百度已是一方霸主。然而,搜狗也在推出搜索引擎開放平臺,中搜更是強力打造自己的第三代搜索引擎,包括一淘網(wǎng)、網(wǎng)易有道等垂直搜索也漸成“氣候”。搜索是互聯(lián)網(wǎng)產(chǎn)品中的高科技產(chǎn)品,企業(yè)間的競爭不應局限于與同業(yè)者的橫向競爭,更應該在自身的技術深度上勤加耕耘。同時相互協(xié)作,取長補短,為用戶提供更好的搜索產(chǎn)品和體驗。
6 網(wǎng)絡知識產(chǎn)權立法落后
我國對網(wǎng)絡中的侵權行為,沒有成型的法律進行規(guī)定。目前大多采用《著作權法》的相關規(guī)定來解決,但是在網(wǎng)絡環(huán)境下,知識產(chǎn)權的客體得到了拓展,網(wǎng)絡知識產(chǎn)權侵權的類型也呈現(xiàn)多樣化。因此傳統(tǒng)的著作權法有著其局限性,為適應網(wǎng)絡知識產(chǎn)權保護范圍擴大化的要求,必須揭示和分析存在的問題并加強和完善保護措施,以保證權利人的權益得到切實的保護。
針對中文搜索引擎存在的種種問題,結合國外搜索引擎發(fā)展過程中的經(jīng)驗,筆者認為中文搜索引擎可采取以下對策。
(1)建立垂直化、專業(yè)化搜索引擎。
垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式。
它是針對性的為某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務??梢院唵蔚恼f成是搜索引擎領域的行業(yè)化分工。市場需求多元化決定了搜索引擎的服務模式必將出現(xiàn)細分,針對不同行業(yè)提供更加精確的行業(yè)服務模式。通用搜索引擎的發(fā)展為垂直搜索引擎的出現(xiàn)提供了良好的市場空間,勢必將出現(xiàn)垂直搜索引擎在互聯(lián)網(wǎng)中占據(jù)部分市場的趨勢,也是搜索引擎行業(yè)細分化的必然趨勢。
(2)建立搜索引擎協(xié)調(diào)機制,制定網(wǎng)站的有關標準。
隨著中文搜索引擎的日益增多,各類搜索引擎開發(fā)與資源建設的重復現(xiàn)象也越來越嚴重。因此,建立統(tǒng)一的機構,協(xié)調(diào)各搜索引擎網(wǎng)站之間的開發(fā)設計與資源建設也就提上了日程。
(3)發(fā)展中文搜索引擎的個性化信息服務。
個性化搜索是以用戶為中心的搜索技術,它獲取以多種形式表達的用戶需求,并綜合利用這些用戶信息,提高搜索引擎滿足用戶需求的能力。個性化服務通過收集和分析用戶信息來學習用戶的興趣和行為,從而實現(xiàn)主動推薦的目的。
目前的技術發(fā)展過程中,搜索引擎逐漸更加注重對于用戶群體的個性化使用習慣的培養(yǎng),百度推出的“個性化首頁”產(chǎn)品就為用戶提供登錄后推薦信息和應用的極大便利,以此鼓勵用戶提供個性化信息,提升搜索效果并增加用戶黏性。隨著搜索引擎在網(wǎng)絡應用環(huán)境中的更深層次參與,這類個性化產(chǎn)品的數(shù)量和應用規(guī)模也有繼續(xù)擴大的趨勢,而個性化搜索技術的發(fā)展也呈現(xiàn)出更加積極的前景。
(4)多媒體搜索技術。
隨著多媒體信息處理技術在近年來的發(fā)展,搜索引擎的部分多媒體搜索產(chǎn)品開始越來越多的依靠媒體內(nèi)容提升搜索服務水平。2011年,谷歌、百度和搜狗搜索都提供了以圖片作為查詢需求表示的“以圖搜圖”的圖片搜索功能,滿足用戶對于圖片獲取的信息訴求。
(5)健全有關的網(wǎng)絡法規(guī)。
法律法規(guī)不健全會為搜索引擎的發(fā)展帶來一定的阻礙。所以,我們要制定并健全現(xiàn)有的法律法規(guī)。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,各類中文信息資源的日益豐富,賦予了中文搜索引擎無限的生機,同時也給中文搜索引擎的發(fā)展帶來了嚴峻挑戰(zhàn)。各類中文搜索引擎只有切實研究用戶信息需求的特點,不斷完善和發(fā)展搜索技術,走適合自己發(fā)展的商業(yè)化道路,才能在眾多的搜索引擎中獲得屬于自己的發(fā)展空間,才能在激烈的競爭過程中立于不敗之地。
參考文獻
[1] 劉奕群.中文搜索引擎發(fā)展研究報告[R].中國人工智能學會通訊,2012(5).
篇6
關鍵詞:元搜索;相似度;去重;排序
中圖分類號:TP311 文獻標識碼:A DoI: 10.3969/j.issn.1003-6970.2012.06.016
Meta Search Engine Results to Weight and Sorting of
【Abstract】Go heavy and sorting are two key issues to improve the quality of the results of the meta-search engine, the article analyz
es the cosine similarity, three kinds of text similarity based on tf-IDf weight algorithm, using the UrL, title, and calculation of summary similarity toweight; Board sort stars sort, the polling method, location, sort, and the concept of feasible search results, a comprehensive sorting algorithm. the experimental results show that the integrated sorting algorithm accuracy, recall rate of better than other algorithms.
【Key words】Meta-search; Similarity; to heavy; Sort
元搜索引擎是指通過集成多個獨立的搜索引擎,將用戶的檢索請求轉換處理后提交給它們,并將每個獨立搜索引擎返回的結果統(tǒng)一進行去重,并重新排序后反饋給用戶[1][2]。由于元搜索的數(shù)據(jù)來源是獨立搜索引擎,返回的結果中通常會有重復數(shù)據(jù),同一條結果在不同搜索引擎中返回結果的位置也不一樣,因此,如何去除重復數(shù)據(jù),同時將質(zhì)量好的結果排序靠前是元搜索要解決的兩個關鍵問題。
元搜索的結果來自用多個獨立的成員搜索引擎,雖然不同的成員搜索引擎的覆蓋范圍不一樣,但返回的結果中會出現(xiàn)重復數(shù)據(jù),降低了檢索結果的質(zhì)量[3]。因此,在將結果返回給用戶前,需要將重復內(nèi)容去除。重復內(nèi)容通常會有如下兩種情況:一種是內(nèi)容完全一樣,另一種是內(nèi)容相似,如同一個內(nèi)容主題,在不同的網(wǎng)站用了稍微有區(qū)別的表示。
第一種重復只需要判斷URL或網(wǎng)頁標題即可識別,第二種內(nèi)容重復則需要計算返回結果中的標題、摘要的相似度,達到某一相似度即可判斷為重復。因此,在結果去重時首先判斷兩網(wǎng)頁的URL和標題是否相同,若是,則認為重復;否則,提取兩網(wǎng)頁的摘要并進行相似度計算,判斷兩網(wǎng)頁是否為重復網(wǎng)
文本相似度的計算方法通常采用文本挖掘中的余弦相似度來衡量,基本思想是將待檢測的文本表示為一個特征向量,通過計算向量的夾角余弦值來判斷。余弦值接近于1,說明相似度較高。特征向量通常用字或者詞出現(xiàn)的次數(shù)來表示,如:令Di為待檢測文檔,其特征向量表示為:
Di=D((ti1,wi1),(ti2.wi2),…,(tin.win))
其中tij表文檔i的第j個特征詞,wij表示該特征詞的頻次。文檔Di和Dk之間的相似度利用公式(2)計算:
TF-IDF算法是通過統(tǒng)計文檔詞頻來計算詞權重[4],基本思想是:一個詞在特定文檔中出現(xiàn)的次數(shù)越高,說明它在區(qū)分該文檔內(nèi)容屬性方面的能力越強(TF),一個詞語在文檔中出現(xiàn)的范圍越廣,說明它區(qū)分文檔內(nèi)容的屬性越低(IDF)。其計算公式為:
wij=tfij×idfj=tfij×log(
其中tfij指詞語tj在文檔di中出現(xiàn)的次數(shù);idfj指出現(xiàn)詞語tj的文檔的倒數(shù)。N表示文檔總數(shù),nj指出現(xiàn)詞語tj的文檔數(shù)。wij表示了詞語tj在文檔的權重,使用該值來表示文檔特征向量。
元搜索的結果排序是指對其調(diào)用的所有成員搜索引擎返回結果重新進行排序處理。目前元搜索引擎采用的排序算法多種多樣,有的是對成員搜索引擎返回的結果信息進行綜合,根據(jù)各個成員搜索引擎的排序信息,來重新進行排序;有的則先將成員搜索引擎的結果收集起來,再重新選擇某種排序方法對這些結果進行處理;有的是給不同成員搜索引擎的檢索結果分配一定的分值,對其進行融合處理,之后按序顯示給用戶[5]。常見的算法有如下幾種:
Board排序類似于選舉,根據(jù)票數(shù)多少進行排序。在元搜索中,對于某個查詢,它被幾個成員搜索引擎檢索到,則該結果記錄就得幾票,最后統(tǒng)計各個結果記錄的票數(shù),按照票數(shù)多少排序。為了更好地利用原來成員搜索引擎的排序信息,對每個成員搜索引擎的結果按照從前到后的順序分配一定的權值,統(tǒng)計結果時乘以相應的權值,可細化每個結果所得票數(shù)。
星星排序是首先統(tǒng)計某個搜索結果記錄在多少個成員搜索引擎的前面幾條信息中出現(xiàn),以此作為相關度評價指標。對于某個查詢結果,若在一個成員搜索引擎的前幾條中出現(xiàn),就得到一個“星”,得到的“星”越多,則該記錄就越重要。最后比較每個結果所得的“星”的個數(shù),并以此排序。
輪詢法( round-robin)首先把成員搜索引擎根據(jù)其性能按照一定次序排列好,然后按照這些次序將每個查詢結果中的第一項依次列出,再把每個查詢結果中的第二項依次列出,依此類推。一個結果出現(xiàn)在多個搜索引擎中的以第一次出現(xiàn)該結果的為基準,后面出現(xiàn)的不再參加排序。中途出現(xiàn)某搜索引擎的結果已經(jīng)取完時,則跳轉到下一個搜索引擎。
篇7
[關鍵詞]搜索引擎優(yōu)化;關鍵詞廣告;SEO
[DOI]10.13939/ki.zgsc.2016.32.159
1 引 言
互聯(lián)網(wǎng)的迅速發(fā)展,帶動了互聯(lián)網(wǎng)信息的膨脹,其商業(yè)價值也被人們所發(fā)掘。更多的行業(yè)將信息投放到網(wǎng)絡當中,希望通過搜索引擎廣告或其他類型廣告被發(fā)現(xiàn),以低成本帶來可觀的收益。這其中的搜索引擎優(yōu)化則是目前來看最為主流和有效的廣告推廣形式,大部分企業(yè)都青睞這一方式。
我國搜索引擎行業(yè)已經(jīng)比較成熟。搜索引擎關鍵詞搜索成為企業(yè)主要關注的領域。為了能夠給企業(yè)帶來更好的推廣效益,需要及時更新搜索引擎營銷,來適應當前的網(wǎng)絡環(huán)境,滿足客戶的需求。這就需要時刻對行業(yè)情況以及搜索引擎的抓取方式進行分析,為商家?guī)砀嗟纳虣C。
2 關鍵詞提取相關文獻述評
2.1 關鍵詞提取方法
目前,市場上主流的關鍵詞提取方法主要包括:啟發(fā)式原則提取文本當中的關鍵詞,借助于無監(jiān)管學習方式來提取關鍵詞,以自動標示文獻主題為基礎的提取方式,以詞語網(wǎng)絡為基礎的關鍵詞提取方式等。
2.2 存在的問題
雖然關鍵詞提取方式眾多,不過都存在著或大或小的缺陷,比如: 一般的提取方式是為文本產(chǎn)生可以表示其主旨的關鍵詞,但是搜索競價廣告關鍵詞優(yōu)化的目標卻沒有這么簡單,任何可能會引導用戶進入企業(yè)網(wǎng)址的詞匯都應納入候選目標當中。還有,關鍵詞產(chǎn)生范疇存在差別。一般的提取方式均提取特定文本當中的關鍵詞,但是搜索競價廣告關鍵詞優(yōu)化方式產(chǎn)生的關鍵詞僅有極少數(shù)顯現(xiàn)在推廣信息當中,剩余的均依據(jù)計算方式的設置在別的材料當中體現(xiàn)。
為了能夠解決方法存在的一些問題,本文以搜索廣告的特征為基礎推出一種提取方式來產(chǎn)生種子關鍵詞。
3 種子關鍵詞生成
3.1 問題分析
搜索廣告種子關鍵詞提取要獲取的結果是一批和主旨存在關聯(lián)的關鍵詞,這類詞語當中輸入方,參加到之后的環(huán)節(jié)當中。
3.2 模型簡介
這種方式是以序列模式發(fā)掘為基礎的。序列模式發(fā)掘屬于速度較快的一類方式。文章選用的是以這一方式為基礎的迭代法來發(fā)掘語言模式及提取關鍵詞。這一以模式發(fā)掘為基礎的關鍵詞提取模型的操作流程簡單地介紹如下:其一是選出一批備選的關鍵詞當作種子并且運用序列模式發(fā)掘的計算方式以選出的關鍵詞為基礎來選擇關鍵詞的模式,其二為運用語言模式提取關鍵詞。此次迭代獲得的關鍵詞將會當作下一輪迭代首個步驟的輸入來發(fā)掘接下來的語言模式。這一迭代流程重復操作直至不再產(chǎn)生全新的語言模式。
文章將廣告文本處置成數(shù)個語句的集合,關鍵詞是可以表現(xiàn)語句主旨的單詞。語言模式是和關鍵詞緊密相聯(lián)的詞序。比如:在例句“店鋪出售鮮花”當中,“鮮花”便是關鍵詞,詞序“店鋪出售”便是語言模式。
3.3 語言模式挖掘
3.3.1 初始關鍵詞選擇
這種算法第一步便是要選取一批最初的關鍵詞用作發(fā)掘最初的語言模式。文章指出,ODP 的目錄名能夠被選定成最初的關鍵詞集合??墒沁@種目錄名無法涉及全部的關鍵詞,因而這一算法必須持續(xù)地迭代,從而發(fā)掘出全新的關鍵詞。
3.3.2 語料預處理
在展開語言模式發(fā)掘以前,最初的語料庫必須展開預先處置,文章將預先處置的全部程序表述為:
(1)運用文本預先處置的方式對其展開預先處置,這類的活動包含中文分詞處置、詞句分離、量詞消除等。
(2)利用來更換關鍵詞表格當中的詞語。比如,若關鍵詞表格當中包括“鮮花” 一詞,則語句“買鮮花贈人”將會被修正成“買贈人”。展開這類更換的誘因在于經(jīng)過這種更換能夠提取更為豐富的關鍵詞。若運用上面的模式和語句“買手機贈人”展開配置,則“手機”將會被當作關鍵詞而提出。
3.3.3 序列模式挖掘算法
文章將語句視為詞語的集合,因為采用序列模式發(fā)掘的方式來提取語言模式。
文章把全部的序列按照元組來劃分并且存進數(shù)據(jù)庫,元組呈現(xiàn)成< sid,s>,在這當中 sid 是序列的標記,s 是屬于該元組內(nèi)的某個詞語集序列。若序列α屬于s的子集,那么便說s 包含α。文章把序列α的支撐度界定成數(shù)據(jù)庫S當中包含α的元組的數(shù)量,其具體可闡釋為:
Support(α)=|{ |(∈S)∧(α∈s)}|
若Support(α)超過了設置的閾值,便將α當作模式。
序列模式發(fā)掘方式的目的是尋找相應數(shù)據(jù)庫當中全部的模式。在文章的語言發(fā)掘方式當中序列屬于文本預先處置流程當中的分段,序列中的要素便是分段中的詞語。
3.3.4 模式匹配
語言模式發(fā)掘方式產(chǎn)生的語言模式將用作配置語料庫從而產(chǎn)生全新的關鍵詞。若某個詞語或是短句在發(fā)掘的語言模式當中有所表現(xiàn)而且處在的位置,則這一詞語將會被選定成關鍵詞。比如:語言模式: “喜愛”。若語料庫當中的某個語句為“年輕的姑娘都非常喜愛玫瑰花”,便選取“玫瑰花”當作關鍵詞。文章借助于模式配置來提取文檔當中的關鍵詞。
4 結 論
搜索競價廣告關鍵詞優(yōu)化力爭為在搜索引擎中投送推廣信息的人群供應最佳的關鍵詞選取規(guī)劃,從而幫助其獲取更高限度的經(jīng)濟利益,并且促使其脫離繁雜的人工操作階段,有力地給予他們科學引導。因而,對其的探究具有極大的運用價值。
本文給出了一種廣告關鍵詞抽取算法用于抽取廣告中的關鍵詞。該算法首先利用序列模式挖掘算法抽取語料庫中的語言模式,然后利用抽取得到的語言模式庫對廣告進行關鍵詞抽取。這種算法克服了傳統(tǒng)的基于統(tǒng)計信息的關鍵詞抽取算法在廣告關鍵詞抽取領域中的不足,其抽取結果的準確率和查全率都有很大提升。
參考文獻:
[1]丁銀芳.基于Web日志挖掘的個性化推薦原型系統(tǒng)研究與實現(xiàn)[D].南京:南京農(nóng)業(yè)大學,2009.
[2]張建娥.基于TFIDF和詞語關聯(lián)度的中文關鍵詞提取方法[J].業(yè)務研究,2012(10).
篇8
關鍵詞:網(wǎng)絡營銷 關鍵詞廣告 關鍵詞分析
1.搜索引擎關鍵詞廣告定義
關鍵詞廣告【1】是一種文字鏈接型網(wǎng)絡廣告,通過對文字進行超級鏈接,讓感興趣的網(wǎng)民點擊進入公司網(wǎng)站、網(wǎng)頁或公司其它相關網(wǎng)頁,實現(xiàn)廣告目的。搜索引擎關鍵詞廣告已經(jīng)成為諸多企業(yè)進行搜索引擎營銷時首要選擇的方法。
2.關鍵詞廣告的特點和形式
對于廣告主來說,挑選有效關鍵詞并將廣告信息提交審核通過后,其廣告信息就可以隨時被展現(xiàn)在搜索結果中,通過改變關鍵詞的單次點擊價格就可以預估出廣告出現(xiàn)的大置,若廣告主需要改變廣告信息內(nèi)容,可以隨時對標題、創(chuàng)意、連接地址進行改動,通過改動連接地址可以引導網(wǎng)絡用戶到達廣告主想要其到達的任意一個網(wǎng)頁。同時,廣告主可以利用搜索引擎服務商提供的效果監(jiān)測工具對關鍵詞廣告的各項數(shù)據(jù)進行實時跟蹤和監(jiān)控??偟脕碚f,關鍵詞廣告的特點可以總結為廣告投放具有隨時性及可控性、廣告信息及出現(xiàn)位置調(diào)整便捷、關鍵詞廣告具有強精準性和靈活性、廣告效果具有實時可控性。
3.關鍵詞選擇的常用方法
目前企業(yè)在進行搜素引擎關鍵詞廣告營銷過程中普遍采用的是“關鍵詞選擇的常用方法”,這種方法有其便捷性,即使是剛剛接觸搜索引擎營銷的新人也可以使用,但是它有很大的弊端。相比之下,層級遞進式關鍵詞選擇法則可以很好的幫助企業(yè)及營銷人員從企業(yè)營銷的多個維度出發(fā)來滿足網(wǎng)絡用戶的搜索需求,從而達到提升企業(yè)投資回報率的目的。
利用關鍵詞工具進行關鍵詞選擇的方法存在很大的弊端,如果沒有一個明確的目標,那么選擇關鍵詞的過程將是一個盲目的過程,對于企業(yè)及網(wǎng)絡營銷人員來說其只能作為關鍵詞選擇過程中的輔助方法使用。
4.關鍵詞選擇的創(chuàng)新方法層級遞進式選擇法
(1)關鍵詞的初選
以整形美容行業(yè)關鍵詞選擇為例,說明初選的方法。整形美容行業(yè)關鍵詞主要可以分為四個類別:即品牌詞、行業(yè)詞、短語詞和長尾詞。
品牌詞中包含的是含有企業(yè)牌品的關鍵詞。
行業(yè)詞是在短語詞的基礎上添加修飾或限定詞進行拓展后得到的短語詞稍長的關鍵詞,形容限定詞主要分為以下幾種類別:技術方法、效果、手術、治療、價格、醫(yī)院、專家、地域等。
短語詞主要按照以下幾個類別來進行細分:項目詞、部位詞、項目+部位詞以及三種類型的關鍵詞組合后的新詞。
長尾關鍵詞包括以下幾類詞:癥狀+解決詞、病因詞、(短語詞、行業(yè)詞)加效果詞、比較詞、加形容詞后的長度比較長的關鍵詞。
(2)以優(yōu)先級為基礎的關鍵詞過濾
企業(yè)在進行搜索引擎關鍵詞營銷時,不能盲目選擇網(wǎng)絡用戶查詢信息過程中使用數(shù)量多的關鍵詞,而是要選擇與自身網(wǎng)站內(nèi)容最相關、價值最高的關鍵詞。按照關鍵詞價值的不同,將關鍵詞劃分為三個等級:低級詞、中級詞和高級詞。高級詞:指得是那些與網(wǎng)站自身內(nèi)容非常相關但是網(wǎng)絡用戶通過搜索引擎搜索較少,但是點擊率高的關鍵詞;中級詞:指的是那些與網(wǎng)站內(nèi)容比較相關,網(wǎng)絡用戶搜索量較多,點擊率比高級詞低的詞;低級詞:指的是那些與網(wǎng)站自身內(nèi)容相關,網(wǎng)絡用戶通過搜索引擎搜索量高,點擊率比中級詞低的關鍵詞。
(3)以滿足用戶搜索需求的關鍵詞過濾
網(wǎng)絡用戶從出現(xiàn)整形需求到真正進入目標網(wǎng)站的過程可以分為以下六個行為階段:即病因癥狀了解階段、尋求非手術治療階段、手術治療信息了解階段、比較對比階段、尋求手術治療階段、再次尋求手術治療階段。
在這六個階段中,尋求非手術治療階段主要是網(wǎng)絡用戶想通過非手術方法獲得治療,處于這個階段的網(wǎng)絡用戶并沒有考慮通過手術方法進行治療,所以企業(yè)在進行關鍵詞選擇時可將這個階段的詞完全過濾掉;
再次尋求手術治療階段主要是受術者尋求手術治療失敗后需要進行手術修復的階段,這個階段網(wǎng)絡用戶會非常謹慎,一般會選擇更加權威的醫(yī)院接受治療。對于權威性高的醫(yī)院需要對此階段加大投入:
病因癥狀了解階段的網(wǎng)絡用戶主要是通過搜索引擎查詢特定癥狀或者病因找到企業(yè)網(wǎng)站,并閱讀網(wǎng)站上已經(jīng)準備好的內(nèi)容來為他們答疑解惑,在這之后引導其發(fā)現(xiàn)自己所需服務。這個階段選擇的關鍵詞例詞見下表:
當網(wǎng)絡用戶開始查詢具體的手術項目、方法、治療方法、效果、副作用/后遺癥、治療費用時,就進入了手術治療信息了解階段。這個階段選擇的關鍵詞例詞見下表:
在比較對比階段,網(wǎng)絡用戶在對病因癥狀、治療方法、手術項目進行了解的基礎上進行醫(yī)院和專家的對比選擇;具體關鍵詞例詞見下表:
當網(wǎng)絡用戶帥選出了自己信賴的醫(yī)院及專家后,便會直接進入網(wǎng)站通過網(wǎng)站進行在線咨詢,這時就到了尋求手術治療階段。
(4)以企業(yè)營銷目標進行關鍵詞過濾
以提升品牌知名度為標準的關鍵詞選擇過濾出來的關鍵詞主要是包含企業(yè)名稱或者可以體現(xiàn)出企業(yè)產(chǎn)品或者服務優(yōu)勢的關鍵詞,通過篩選,最終確定的關鍵詞種類有“品牌詞”、“行業(yè)詞”中的‘效果詞’以及“長尾詞”中的‘比較詞’。
以網(wǎng)站轉化為標準的關鍵詞選擇過濾出來的關鍵詞主要集中在“行業(yè)詞” “品牌詞”和“短語詞”。由于行業(yè)詞和品牌詞中的關鍵詞含有企業(yè)品牌和網(wǎng)絡用戶搜索5個階段的關鍵詞,其能夠帶來更高的轉換率,故而將這三類關鍵詞設置為重點關鍵詞。對于“長尾詞”中的效果詞、比較詞,其可以體現(xiàn)出醫(yī)療企業(yè)的權威性和優(yōu)勢“激光脫毛效果好”、“武漢脫毛醫(yī)院哪家好”等能夠很好體現(xiàn)三甲醫(yī)院權威的關鍵詞也可以帶來較高轉化率,這兩類關鍵詞歸類至次重點關鍵詞?!伴L尾詞”中的“癥狀+解決”詞和“病因詞”,由于其不能明確判斷網(wǎng)絡用戶需求,其轉化率就會相應偏低,故將其歸類至非重點關鍵詞,在進行關鍵詞廣告投放過程中可以選擇這類關鍵詞,也可以將其剃除。
醫(yī)療企業(yè)在使用層級遞進式關鍵詞選詞法進行關鍵詞選擇時,需要研究網(wǎng)絡用戶的搜索行為,并結合企業(yè)自身情況,合理使用關鍵詞過濾組合,只有這樣才能選擇到有利于醫(yī)療企業(yè)搜索引擎營銷的關鍵詞組合。
5.總結
企業(yè)搜索引擎關鍵詞營銷活動開始前,關鍵詞的選擇一般都是不完美的,對于想要通過搜索引擎進行關鍵詞廣告投放來開展網(wǎng)絡業(yè)務的企業(yè)來說,需要對關鍵詞營銷的效果進行跟蹤測試,不斷地對測試結果加以分析,根據(jù)分析結果有目的性的增加或者減少關鍵詞,以期讓企業(yè)的搜索引擎關鍵詞營銷效果達到最佳。
企業(yè)在利用搜索引擎進行關鍵詞營銷時,需要明白關鍵詞是需要根據(jù)營銷效果及目的進行不斷調(diào)整的,當碰到網(wǎng)企業(yè)營銷目標發(fā)生變化、競爭對手品牌提升或者企業(yè)產(chǎn)品、服務進入不同時期等情況時,企業(yè)需要根據(jù)情況進行關鍵詞的再選擇,否則,已選擇的關鍵詞或跟蹤而選定的有效關鍵詞,就會出現(xiàn)轉化率降低的情況,進而影響企業(yè)進行搜索引擎關鍵詞營銷的效果。
參考文獻:
篇9
關鍵詞:網(wǎng)絡 搜索引擎 發(fā)展 使用技巧
中圖分類號:G520文獻標識碼: A
1 搜索引擎技術發(fā)展史
從搜索引擎所采取的技術來說,可以將搜索引擎技術的發(fā)展劃分為4個時代。
1.1 分類目錄的時代
這個時代也可以稱為“導航時代”,Yahoo和國內(nèi)hao123是這個時代的代表。通過人工收集整理,把屬于各個類別的高質(zhì)量網(wǎng)站或者網(wǎng)頁分門別類羅列,用戶可以根據(jù)分組目錄來查找高質(zhì)量的網(wǎng)站。這種方式是純?nèi)斯さ姆绞?,并未采取什么高深的技術手段。
采取分類目錄的方式,一般被收錄的網(wǎng)站質(zhì)量都較高,但是這種方式可擴展性不強,絕大部分網(wǎng)站不能被收錄。
1.2 文本檢索的時代
文本檢索的一代采用經(jīng)典的信息檢索模型,比如布爾模型、向量空間模型或者概率模型,來計算用戶查詢關鍵詞和網(wǎng)頁文本內(nèi)容的相關程度。網(wǎng)頁之間有豐富的鏈接關系,而這一代搜索引擎并未使用這些信息。早期的很多搜索引擎比如Alta Vista、Excite等大都采取這種模式。
相比分類目錄,這種方式可以收錄大部分網(wǎng)頁,并能夠按照網(wǎng)頁內(nèi)容和用戶查詢的匹配程度進行排序。但是總體而言,搜索結果質(zhì)量不是很好。
1.3 鏈接分析的時代
這一代的搜索引擎充分利用了網(wǎng)頁之間的鏈接關系,并深入挖掘和利用了網(wǎng)頁鏈接所代表的含義。通常而言,網(wǎng)頁鏈接代表了一種推薦關系,所以通過鏈接分析可以在海量內(nèi)容中找出重要的網(wǎng)頁。這種重要性本質(zhì)上是對網(wǎng)頁流行程度的一種衡量,因為被推薦次數(shù)多的網(wǎng)頁其實代表了具有流行性。搜索引擎通過結合網(wǎng)頁流行性和內(nèi)容相似性來改善搜索質(zhì)量。
Google率先提出并使用PageRank鏈接分析技術,并大獲成功,這同時引進了學術界和其他商業(yè)搜索引擎的關注。后來學術界陸續(xù)提出了很多改進的鏈接分析算法。目前幾乎所有的商業(yè)搜索引擎都采取了鏈接分析技術。
采用鏈接分析能夠有效改善搜索結果質(zhì)量,但是這種搜索引擎并未考慮用戶的個性化要求,所以只要輸入的查詢請求相同,所有用戶都會獲得相同的搜索結果。另外,很多網(wǎng)站擁有者為了獲得更高的搜索排名,針對鏈接分析算法提出了不少鏈接作弊方案,這樣導致搜索結果質(zhì)量變差。
1.4 用戶中心的時代
目前的搜索引擎大都可以歸入這個時代,即以理解用戶需求為核心。不同用戶即使輸入同一個查詢關鍵詞,但其目的也有可能不一樣。比如同樣輸入“蘋果”作為查詢詞,一個追捧不iPhone的時尚青年和一個果農(nóng)的目的會有相當大的差距。即使是同一個用戶,輸入相同的查詢詞,也會因為所在的時間和場合不同,需求有所變化。而目前搜索引擎大都致力于解決如下問題:如何能夠理解用戶發(fā)出的某個很短小的查詢詞背后包含的真正需求,所以這一代的搜索引擎稱之為以用戶為中心的一代。
為了能夠獲取用戶的真實需求,目前搜索引擎大都做了很多技術方面的嘗試。比如利用用戶發(fā)送查詢時的時間和地理位置信息,利用用戶過去發(fā)出的查詢詞及相應的點擊記錄等歷史信息等技術手段,來試圖理解用戶此時此地的真正需求。
2 網(wǎng)絡搜索引擎的發(fā)展趨勢
2.1 個性化搜索
互聯(lián)網(wǎng)的發(fā)展已經(jīng)進入了新的階段,即以用戶為中心的階段。如何通用用戶的網(wǎng)上行為建立用戶的個人模型,并基于此提供精準的個性化服務成為各種研究的重點。搜索引擎也不例外,個性化搜索即是為了解決這個問題而提出的技術領域。
對于搜索引擎用戶來說,由于其個人興趣不同,即使是同一個查詢詞,也可能其搜索意圖迥異。如用用戶發(fā)出查詢“Ajax”,如果這個用戶是計算機工程人員,那么很有可能希望查找的是技術資料;而如果這個用戶是個球迷,那么很可能希望查找的是了阿賈克斯球隊的信息。所以即使是相同的查詢詞,如何為不同的用戶提供個性化的搜索結果,成為衡量搜索引擎搜索質(zhì)量非常重要的標準。
2.2 社會化搜索
隨著Facebook的逐日流行,社交網(wǎng)絡平臺和相關應用占據(jù)了互聯(lián)網(wǎng)的主流。社交網(wǎng)絡平臺強調(diào)用戶之間的聯(lián)系和交互,這對傳統(tǒng)的搜索技術提出了新的挑戰(zhàn)。傳統(tǒng)搜索技術強調(diào)搜索結果和用戶需求的相關性,社會化搜索除了相關性外,還額外增加了一個維度,即搜索結果的可信賴性。對于某個查詢,相關的搜索結果可能成千上萬,但是如果是處于用戶社交網(wǎng)絡內(nèi)其他用戶的信息、點評的評論或者驗證過的信息則更可依賴,這是與用戶的心理密切相關的。社會化搜索即結合了這種相關性和可依賴性,為用戶提供更準確、更值得信任的搜過結果。
社會化搜索的本質(zhì)是信息過濾與推薦,即對用戶的疑問,社會化搜索系統(tǒng)推薦合適的人來回答用戶疑問,或者通過社交關系過濾掉不可依賴內(nèi)容,推薦可依賴內(nèi)容。根據(jù)其他用戶和提問者的關系,社會化搜索系統(tǒng)重點關注4類關系:直接有社交聯(lián)系的成員,比如熟人或者朋友;有相同興趣的成員;用戶所加入網(wǎng)絡社區(qū)的成員;領域專家。直接具有社交聯(lián)系的成員對搜索者具有直接影響力,比如購物搜索時對產(chǎn)品品牌的評價;有相同興趣的成員則形成了有效的信息過濾者或者推薦者;搜索者所在社區(qū)的成員從本質(zhì)講也是有相同興趣的成員,對于搜索者的問題能夠開有效的信息過濾和推薦;而領域專家則對問題的解答具有權威性。通過結合或者分別使用以上4類社區(qū)成員的信息,社會化搜索系統(tǒng)可以給搜索者提供合適的回答者或者值得依賴的信息。
2.3 實時搜索
隨著Twittet、微博等微信息的個人媒體平臺逐步興起,對搜索引擎的實時性要求日益提高。微博平臺和傳統(tǒng)的信息平臺比如網(wǎng)頁、博客、新聞等相比,有其特殊性。其中一個突出的特點是時效性強,越來越多突發(fā)事件的首次出現(xiàn)的微博平臺上,比如某地地震或者社會事件,這是有其必然性的。
實時搜索與傳統(tǒng)的網(wǎng)頁搜索有很大差異。實時搜索的核心強調(diào)“快”,即用戶的信息能夠第一時間被搜索引擎發(fā)現(xiàn)、索引并搜索到。傳統(tǒng)搜索引擎在實現(xiàn)機制上很難達到這一點,所以實時搜索在搜索引擎的爬蟲、索引系統(tǒng)和搜索結果排序方面都有自己獨有的特點。在索引構建方面,實時搜索要求第一時間對新的內(nèi)容進行索引,即用戶則信息可搜。這對傳統(tǒng)的索引機制提出了挑戰(zhàn),要求索引系統(tǒng)支持在建立索引的過程中,也能夠提供搜索服務。
在搜索結果排序方面,實時搜索也有其特點,除了內(nèi)容相關性要求外,時間因素是搜索排序中首要的考慮因素,很多實時搜索系統(tǒng)默認按時間順序排序,即最新的信息排在前列。對于一個完善的實時搜索排序算法來說,一般重點考慮以下4方面的因子:
(1)內(nèi)容相關性:信息是否與用戶查詢主題相關。
(2)時效性:時間越近的信息,其搜索排名應該越靠前。
(3)信息重要性:越重要或者越流行的信息排名應該越靠前,作為重要性或者流行性的判斷指標有很多,比如信息來源是否可靠(微博中信息者的重要性)、被轉發(fā)次數(shù)多少、被評論次數(shù)多少等都可以作為判斷指標。
(4)社交性:一般來說,微博平臺同時也是一個社交平臺,微博用戶的關注人和被關注人體現(xiàn)了這種社交性。排序時,應該將搜索結果的社交性體現(xiàn)出來,即用戶關注人的信息排名應該靠前。
2.4 移動搜索
隨著智能的快速發(fā)展,基于手機等移動設備的搜索日益流行。移動設備對搜索應用的需求與PC等不同,主要源于其與PC相比資源的有限性,比如手機的屏幕較小,可顯示區(qū)域不多;手機存儲和計算資源能力較弱;手機設備打開網(wǎng)頁的速度較慢;手機輸入較為煩瑣等。所以針對移動設備的搜索需要根據(jù)手機等移動設備自身的特點,開發(fā)適合其資源和設備的搜索應用。
使用手機搜索與PC搜索一樣,由3個步驟組成:用戶輸入查詢,搜索引擎提供搜索結果信息,用戶點擊打開感興趣的頁面??紤]到移動設備的資源有限,在這3個步驟都要考慮如何增加用戶的體驗。對于用戶輸入查詢這一環(huán)節(jié)來說,因為輸入難度比桌面設備大,不夠便捷,包括移動設備中的中文輸入法由于資源所限,智能性不足,所以對于移動搜索來說,如何讓用戶輸入更便捷是最主要的問題。由于移動設備屏幕較小,如何在這么上的展示面積早讓用戶更快、更直接地找到答案至關重要。所以,移動設備搜索對搜索的精度及搜索結果的展示方式要求更高。如果用戶在搜索結果的摘要區(qū)域無法獲得答案,就必須點擊網(wǎng)頁,查看頁面內(nèi)容,以搜索引擎目前的搜索精度來看,這步多多少少是難免的。既然如此,目標網(wǎng)頁往往內(nèi)容很多,包含導航欄、廣告欄、大量圖片等既消耗帶寬資源,又與用戶搜索內(nèi)容無關的信息,所以在這上步驟,移動搜索的問題就轉化成了如何提供給用戶頁面中最重要、最相關的部分。搜索系統(tǒng)可以為用戶提供加工過的目標頁面,通過分析目標網(wǎng)頁的結構,自動提取重要內(nèi)容,只將這部分內(nèi)容展示給用戶,有效增加用戶體驗。
3 網(wǎng)絡搜索引擎的使用技巧
21世紀是信息社會,由于Internet的廣泛應用和發(fā)展,世界范圍內(nèi)的信息交流、信息資源共享成為現(xiàn)實,網(wǎng)絡已成為人們進行交流、獲取信息的重要途徑。但因特網(wǎng)上的信息內(nèi)容龐雜,缺乏統(tǒng)一的組織和管理,使用者只有掌握一定的搜索技巧,才能準確、及時、有效地獲取自己所需的信息,實現(xiàn)網(wǎng)絡信息存在價值,提高信息資源使用效率。
3.1 選擇合適的搜索引擎
不同的搜索引擎特點不同,優(yōu)勢不一,信息覆蓋范圍也有所差異,合理的方式應該是依據(jù)檢索目的和具體要求選擇不同的搜索引擎。如果需要查找綜合性、概括性的主題概念,或是對檢索準確度要求較高的課題,可以使用目錄式搜索引擎。如果需要檢索特定的信息,或是較為專、深、具體或類屬不明確的課題,應該用關鍵詞索引式搜索引擎。
3.2 適當使用垂直搜索引擎
一個搜索引擎很難收集所有主題的網(wǎng)絡信息,很難將各主題都做得精確而又專業(yè)。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。比如股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結果的滿意度較高。
3.3 使用元搜索引擎
采用不同的搜索引擎,檢索效果的不同,在一個搜索引擎上找不到的信息卻可能在另一個搜索引擎上找到,每個單一搜索引擎的搜索范圍只能達到整個www資源的30―50%,查準率不到50%。所以,用戶常常要切換多個搜索引擎進行檢索,并要了解多個搜索引擎,這給用戶帶來了不便。元搜索引擎通過一個統(tǒng)一用戶界面幫助用戶在多個搜索引擎中選擇和利用一個或多個合適的搜索引擎來實現(xiàn)檢索操作,并將檢索結果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,是對分布于網(wǎng)絡的多種檢索工具的全局控制機制,查全率和查準率都比較高。
3.4 提煉準確的搜索關鍵詞
使用搜索引擎進行信息搜索,最重要的是關鍵詞的選擇,關鍵詞選擇得準確與否直接影響到檢索效果的好壞。因此,用戶提供的關鍵詞必須能準確表達自己的檢索意圖。盡量不要選擇常用詞匯進行搜索,盡量不要使用自然語言,盡量使用多個頁不是一個關鍵詞。
3.5 使用限制指令
限制指令把檢索限制在某些指定的字段內(nèi),限制了檢索詞在數(shù)據(jù)庫中出現(xiàn)的位置,以提高檢索效果。如:使用site命令指定在某個特定的網(wǎng)站內(nèi)查找相關信息,使用inurl命令指定僅在網(wǎng)頁的url搜索,使用intitle命令指定僅在網(wǎng)頁的title中搜索,使用filetype命令指定搜索文件的特定類型,等等。
3.6 盡量使用“高級搜索”
大多數(shù)搜索引擎都提供高級搜索功能,其選項在默認值、靈活性、定位精確性等方面都優(yōu)于普通搜索功能。利用“高級搜索”中的選項限制可以有效且更加方便地控制檢索結果的范圍,可以省去用戶自行設定檢索式的麻煩。搜索引擎提供的范圍限制類型大體有分類范圍、地域范圍、時間范圍、網(wǎng)站類型范圍,以及其他特殊范圍。一些搜索引擎提供了許多特殊范圍的限定,如域名后綴(com、gov、org等)、文件類型(文本、圖形、聲音等)。
結束語:隨著科學的進步與技術的發(fā)展,Internet上信息數(shù)量也越來越龐大,而且含有大量的多媒體信息,如何充分利用這一巨量的信息資源,是用戶所渴望和追求的,而通過搜索引擎來查詢是查找信息最方便、快捷的途徑。但是搜索引擎數(shù)量眾多、各有所長,使用者應充分利用各個搜索引擎的優(yōu)勢與特點,靈活運用并加以綜合利用,以最快捷的方式獲得最佳搜索結果。
參考文獻:
[1] 馬志杰 我國搜索引擎評價研究的現(xiàn)狀、問題及對策 圖書館學研究 2013(04)
篇10
關鍵詞:搜索引擎優(yōu)化;電子商務網(wǎng)站排名;研究策略
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2009)26-7404-02
Research on the Search Engine Optimization Srtategy of E-commerce website
WANG Pu, TAO Jian-wen
(Computer Application Research Institute of Zhejiang Business Technology Institute,Ningbo 315012,China)
Abstract: Search engine optimization is very important for E-commerce to promote its role.Based on analysis the factors of impacting the website search engine rank,the SEO strategy of website engine ranking is proposed.
Key words: search engine optimization; E-commerce website rank; strategy
近年來迅猛發(fā)展的電子商務,讓無數(shù)企業(yè)從中獲得了巨大的商機,在這個電子商務大潮中,搜索引擎優(yōu)化(SEO)無疑成為了開路先鋒。搜索引擎優(yōu)化就是這樣一個角色,它可以把網(wǎng)上的客戶帶到商家的身邊,讓商家從無數(shù)的
競爭者中脫穎而出。所以說搜索引擎優(yōu)化在電子商務發(fā)展中起著重要的作用。
1 搜索引擎優(yōu)化
搜尋引擎優(yōu)化(Search Engine Optimization,簡稱SEO)是一種利用搜索引擎的搜索規(guī)則來提高目的網(wǎng)站在有關搜索引擎內(nèi)的提名的方式。由于不少研究發(fā)現(xiàn),搜索引擎的用戶往往只會留意搜索結果最開首的幾項條目,所以不少網(wǎng)站都希望透過各種形式來影響搜索引擎的排序。所謂“針對搜尋引擎做優(yōu)化的處理”,是指為了要讓網(wǎng)站更容易被搜尋引擎接受。搜尋引擎會將網(wǎng)站彼此間的內(nèi)容做一些相關性的資料對比,然后再由瀏覽器將這些內(nèi)容以最快速且接近最完整的方式,呈現(xiàn)給搜索者。
2 影響電子商務網(wǎng)站搜索引擎排名的主要因素
影響網(wǎng)站搜索引擎排名的因素很多,主要有網(wǎng)站設計的優(yōu)化、關鍵詞和文本優(yōu)化、單個網(wǎng)頁的優(yōu)化、網(wǎng)站外部連接的優(yōu)化。本文主要針對影響電子商務網(wǎng)站搜索引擎排名的主要因素進行闡述。
2.1 購物車系統(tǒng)商品信息的提取
電子商務網(wǎng)站最重要的一個功能就是在線購物,商家當然希望搜索引擎盡可能多的搜索到相應的商品信息。然而現(xiàn)在大多數(shù)的購物車系統(tǒng)都是在數(shù)據(jù)庫中存儲商品信息,而在訪客點擊產(chǎn)品鏈接的時候,網(wǎng)站系統(tǒng)將信息從數(shù)據(jù)庫中讀出來呈現(xiàn)在網(wǎng)頁上。這個做法不僅方便而且便于管理,也方便訪客來進行在線搜索商品。但是它有一個致命的缺點:像google這樣的搜索引擎是很難抓取到這樣的商品信息,這就像搜索引擎抓取不到存儲在數(shù)據(jù)庫里面的網(wǎng)頁內(nèi)容一樣。
2.2 關鍵詞的選擇
在做電子商務網(wǎng)站推廣中,關鍵詞是搜索引擎優(yōu)化的核心。我們知道,適當?shù)年P鍵詞,能給商家?guī)砀嗟臐撛谟脩?。遺憾的是,許多站點在設計之初或者根本沒有考慮關鍵詞策略,或者雖認識到關鍵詞的重要性,但選取關鍵詞時,完全是站在站點和設計人員的角度選擇的。這兩種做法都是不可取的,相反,我們應該站在用戶的角度來選取關鍵詞,因為站點最終是供用戶訪問的,而不是讓站點的設計人員訪問的。
2.3 網(wǎng)頁標題的優(yōu)化
電子商務網(wǎng)站的每一個網(wǎng)頁都應該有一個能準確描述該網(wǎng)頁內(nèi)容(通常是商品信息內(nèi)容)的獨立的標題,正如每個網(wǎng)頁都應該有一個惟一的URL一樣,這是一個網(wǎng)頁區(qū)別于其他網(wǎng)頁的基本屬性之一。然而根據(jù)新競爭力網(wǎng)絡營銷管理顧問針對103個企業(yè)網(wǎng)站調(diào)查發(fā)現(xiàn),只有14.5%的網(wǎng)站為每個內(nèi)容頁面設計相應的標題(含并不專業(yè)的網(wǎng)頁標題),其他超過85%的企業(yè)網(wǎng)站中所有的網(wǎng)頁都共用一個網(wǎng)頁標題,通常為企業(yè)名稱或者企業(yè)名稱縮寫,其中有些網(wǎng)站甚至沒有合理的網(wǎng)頁標題。
3 電子商務網(wǎng)站搜索引擎優(yōu)化(SEO)策略
如何使電子商務網(wǎng)站能夠在google搜索引擎上排名靠前,根據(jù)筆者對搜索引擎優(yōu)化的研究,針對電子商務網(wǎng)站的特點,總結出以下基本策略。
3.1 動態(tài)網(wǎng)頁靜態(tài)化
我們需要購物車系統(tǒng)制作出的產(chǎn)品網(wǎng)頁能夠適應搜索引擎,即這些網(wǎng)頁必須是靜態(tài)的,而不是包含數(shù)據(jù)庫變量和問號的網(wǎng)頁名稱。如下面的所示網(wǎng)頁是很少能被搜索引擎收錄的:/mn/detailApp/48810956?ref=GT&patid=gau&ud=470956&pdid=b24。而同樣內(nèi)容的網(wǎng)頁如下面所示的靜態(tài)網(wǎng)址,就有很大機會被搜索引擎收錄:/mn/detailApp/adr/model/titaniasd.asp。所以在設計電子商務站時,要選擇一個能夠生成靜態(tài)網(wǎng)頁的購物車系統(tǒng)。美國尚奇公司的zWebCommurce購物車系統(tǒng)不僅能生成靜態(tài)網(wǎng)頁,而且能在各個網(wǎng)頁加入seo的網(wǎng)頁標簽,方便對網(wǎng)頁進行搜索引擎優(yōu)化,使網(wǎng)頁更有機會攀升在搜索結果的前列。
3.2 確定關鍵詞的常用免費工具
3.2.1 Google Suggest
/webhp?complete=1,在這個工具上,輸入一個搜索關鍵詞后,Google立刻給出一系列相關的詞語,并且展示有多少網(wǎng)頁使用了這個搜索關鍵詞。這個工具可以幫助商家擴大關鍵詞的選擇范圍。
3.2.2 Google 關鍵詞工具
/select/KeywordToolExternal這個工具是給那些想進行Goolge競價廣告的客戶使用的。但我們從這些用于廣告的關鍵詞中,也能夠發(fā)現(xiàn)人們在平時搜索中可能使用到哪些關鍵詞。
3.3 網(wǎng)頁標題優(yōu)化
3.3.1 關鍵詞的采用和突出
為了讓搜索引擎讀懂網(wǎng)頁標題中所表示的意義,應該將網(wǎng)頁標題放置在標簽對中。最重要的關鍵詞應該放置在最前列。例如“北京賓館”、“便宜舒適”和“交通方便”三個關鍵詞作為標題,“北京賓館”放在最前面,而將第二關鍵詞放在其次,最多不要使用三個以上的關鍵詞。
3.3.2 控制標題長度和關鍵詞頻率
標題的長度應該是言簡意賅的,英文標簽控制在40-60個字母之間,而中文最好在19個字以內(nèi)。搜索引擎是不看超過一定限度的標題的。關鍵詞的使用應該注意合理地分配到各個網(wǎng)頁中。在某頁使用的關鍵詞,在其他頁就要考慮是否還是那么重要。盡量避免同一關鍵詞反復出現(xiàn)在多個網(wǎng)頁的標題中而使搜索引擎感到困惑。
4 結論
綜上所述,對于從事電子商務的企業(yè)來說,搜索引擎優(yōu)化是一種讓客戶自己找到商家的省錢、省力的營銷模式。但隨著網(wǎng)絡技術的不斷創(chuàng)新,電子商務網(wǎng)站也需要做出適合自身特點的搜索引擎優(yōu)化策略,去適應新技術的發(fā)展。
參考文獻:
[1] 歐朝暉.解密SEO-搜索引擎優(yōu)化與網(wǎng)站成功策略[M].北京:電子工業(yè)出版社,2007:97-98.