網絡爬蟲技術在交通信息獲取的應用

時間:2022-08-04 11:18:51

導語:網絡爬蟲技術在交通信息獲取的應用一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

網絡爬蟲技術在交通信息獲取的應用

摘要:互聯網上的有關交通的網頁文本數據常常是非結構化、分散性的,面對不斷增長的海量信息,如何從中提取出有用的交通信息具有一定難度.傳統的信息采集處理方法很難高效準確地完成海量信息處理.由此,網絡爬蟲技術則顯示出其優(yōu)越性.文中介紹了網絡爬蟲技術的基本內容,總結了各類交通信息獲取方法的研究,從不同方面綜述了國內外應用網絡爬蟲技術解決交通信息獲取問題的研究歷史和現狀,展望了網絡爬蟲技術在交通中的應用前景.

關鍵詞:交通工程;交通信息;網絡爬蟲技術;綜述

在交通系統運行過程中會產生一系列的交通信息,各種信息技術廣泛應用于智能交通系統的同時,積累了海量的交通數據,這些數據分散地分布在互聯網網頁上.海量交通信息對信息采集及處理方法等都提出了新的更高的要求.傳統的信息采集處理方法大多是對有限的、有規(guī)則的信息數據進行收集,并不能對海量交通信息進行批量獲取、保存,以及管理,因此無法準確高效地解決海量交通信息獲取問題.在相關的研究中,有學者利用數據挖掘技術進行了大規(guī)模交通數據管理、整合和挖掘[1].近年來,國內外一些學者嘗試使用網絡爬蟲技術來獲取互聯網上的海量交通信息,將網絡爬蟲技術應用到了交通信息的獲取分析中.從目前的研究成果來看,網絡爬蟲技術對于交通中的各類信息獲取具有很好的應用前景,將成為交通信息獲取研究的重要方法之一.

1網絡爬蟲技術

網絡信息獲取技術,是指對網絡流中非結構化的信息,設法將其讀取出來,然后將其保存至結構化的本地數據庫[2].其中,網絡爬蟲是最典型的例子.網絡爬蟲,通常又稱之為Web信息采集器或網絡蜘蛛,是遍歷Web并以有條理的自動方式下載Web文檔的程序或軟件[3].1994年,全球首個網絡檢索工具誕生,即WebCrawler.現階段,百度、Yahoo、Google等是相對來說比較盛行的搜索引擎.1.1網絡爬蟲的過程給定一個或多個種子URL,是網絡爬蟲的首要條件.其次,需要將與這些URL相關聯的網頁下載下來,提取其中涉及到的所有超鏈接;最后,遞歸地繼續(xù)去下載被這些超鏈接所標識的網頁[4].網絡爬蟲的過程見圖1.使用遍歷的方式,訪問互聯網這個超級“圖”的各個節(jié)點,找尋并獲取有用信息,這是網絡爬蟲的目的.因此,網絡爬蟲的體系結構一般由以下幾個模塊組成:初始化模塊、Web頁面獲取模塊、Web頁面解析模塊,以及URL過濾模塊.1.2網絡爬蟲分類及爬蟲搜索策略按照系統結構和實現技術,可以對網絡爬蟲進行分類.主要包括通用網絡爬蟲(全網爬蟲)、聚焦網絡爬蟲(主題網絡爬蟲)、增量式網絡爬蟲和深層網絡爬蟲這四種類型.在實際應用中,通常將這幾類爬蟲進行結合使用以達到目的.爬蟲的搜索策略是網絡爬蟲的核心問題,其優(yōu)劣決定了爬蟲系統的效率和性能.主要的網絡爬蟲搜索策略包括深度和廣度優(yōu)先、基于內容的、基于鏈接的搜索策略.其中,由于能夠較為全面地遍歷web中的所有網頁結點,深度和廣度優(yōu)先搜索策略較適合全網爬蟲,也即通用型網絡爬蟲系統.基于內容的搜索策略,如SharkSSearch算法,首先是對網頁中的文本內容信息進行分析,然后依據用戶主題與其之間的相關度,對網絡爬蟲遍歷的方向和路徑進行確定.當期望可以對重要性較高的網絡頁面優(yōu)先抓取時,就可以采用基于鏈接的搜索策略.該搜索策略首先挖掘及解析網頁之間的鏈接關系,從而計算出網頁的重要性,按照網絡頁面重要性相關度由高到低依次爬?。?/p>

2交通信息獲取的研究

2.1利用傳感器網絡、射頻識別等技術獲取交通信息.在智能交通系統研究領域,利用傳感器網絡技術研究單點、斷面和區(qū)域的交通信息獲取方法是重點的研究方向[5].張毅剛[6]對交通信息獲取的需求進行了分析,設計了無線傳感網RTISN,用來獲取道路交通信息.李海艦[7]研究了一種多參量交通信息獲取的方法,實現了TIASN網絡中單個傳感器獲取盡可能豐富的多參量交通信息.而這些信息中,包含著交通流參數、交通流構成要素等.射頻識別技術,又稱之為無線射頻識別.對于特定目標,射頻識別技術可通過無線電訊號對其進行識別,并讀寫相關數據.利用射頻識別技術原理,康慨[8]設計了一種交通信息獲取系統框架結構,來完成交通車輛信息的獲?。w泰洋等[9]提出了一種交通信息獲取系統,這個系統就是基于射頻識別技術,使獲取車輛的身份信息和位置信息得到實現.劉海華等[10]建立了交通信息采集及融合處理技術框架,利用射頻識別技術讀卡裝置來采集實時交通信息.2.2基于定位數據、多源數據等的交通信息獲取.基于定位數據與技術的交通信息獲取是交通大數據研究的方向之一.王汝洸[11]研究了城市交通起訖點信息獲取方法,其中就包括基于浮動車定位數據對這些信息進行獲取.賴見輝[12]研究了基于手機定位數據的交通信息提取技術.胡堅明等[13]基于無線定位技術,對相當精度交通信息的獲取方法進行了研究.對于基于多源數據的交通信息獲取,戴志鑫[14]通過該方法對交通狀態(tài)特征信息的獲取進行了研究.基于交通控制系統、車輛GPS系統和道路收費系統等多源數據,李琦[15]提出了獲取交通信息數據并對其進行預處理的方法.2.3利用攝像裝置獲取交通信息.利用攝像裝置進行動態(tài)交通信息的獲取,是智能交通系統中的一個重要手段.王超[16]研究了適用于交通引導系統的交通數據采集技術,其中包括了利用攝像裝置采集信息的視頻車輛檢測技術.基于視頻圖像處理,張瑞等[17]對微觀交通數據的獲取進行了研究,即通過視頻數據獲取車輛行駛軌跡、車速和車頭時距等.2.4其他交通信息獲取方法.徐東偉[18]對道路交通狀態(tài)的獲取方法進行了研究,提出了道路交通狀態(tài)多維多粒度獲取方法.具體來說,這種方法是基于交通信息模板、區(qū)域交通吸引子匹配、虛擬速度傳感器節(jié)點及壓縮感知來對道路交通狀態(tài)信息進行獲?。畯墓潭c、軌跡線和大空間交通數據三個方面,曲騰姣[19]系統地解釋了動態(tài)交通數據的獲取技術.通過對微觀仿真系統模型結構及仿真運行特點進行研究,霍瑩[20]提出了基于時空折算對交通信息進行獲取的方法.交通信息獲取是智能交通的重要組成部分,就目前而言,交通信息的獲取方法多樣,但大多數都是對有限個、結構化的數據進行獲取.雖然有些技術已經較為成熟,解決了結構化的交通信息的獲取問題,但是面對海量交通信息,這些技術與方法仍均需要不斷地改進,其研究也需要依據需求進一步深入.

3應用網絡爬蟲技術進行交通信息獲取

3.1交通事故分析數據獲取.通過對交通事故涉及到的事故車輛、事故天氣、道路狀況等其他有關的數據進行獲取和深度挖掘,從中找到交通事故致因,分析事故發(fā)生的規(guī)律.Bao等[21]開發(fā)了一個Web爬蟲,用于自動從Twitter簽到數據中收集場所類型信息,研究了如何利用Twitter簽到數據將人類活動信息融入城市地區(qū)撞車事故的空間分析中.周菲菲[22]截取了貴陽市和上海市這兩地2015年的交通事故數據,并利用爬蟲系統獲取了網絡中的車輛品牌數據,與原數據進行融合后生成車輛類型新變量,通過統計分析和可視化分析得到了影響交通事故發(fā)生的相關因素.文獻[2]利用網絡爬蟲技術從中國天氣網站抽取了天氣信息,從新浪微博上獲取了包含“交通事故”的消息,從中探索出了天氣情況對交通事故發(fā)生的影響.南春麗等[23]采用DeepWeb數據采集方法,從北京交通管理部門的網站,獲取了交通事故點文字信息,然后將其與相關道路線形空間數據整合,進行了這兩者等的相關性研究.目前,國外在應用網絡爬蟲技術獲取交通數據以用于交通事故分析方面的研究較少,而國內在這方面的研究則取得了相對較多的成果.國內不同的相關研究獲取的數據也不同,主要包括:外部互聯網的車輛品牌數據、微博上的“交通事故”消息、權威網站的交通事故點文字信息等.3.2公共交通信息獲?。步煌ㄐ畔ㄅc公共交通服務有關的信號、數據、顯示等,通過網絡爬蟲技術可對其進行批量獲?。瓺arshan[24]提出了一種解決自行車需求預測問題的方法,其中便給出了用于讀取數據的Python代碼.自行車共享系統產生的數據,即旅行的時間、出發(fā)地點、到達地點和經過的時間被明確地記錄下來,該項目的目的是利用歷史使用模式和天氣數據預測華盛頓自行車項目的自行車租賃需求.他使用NUMPY庫來讀取培訓和測試數據,還示例出讀取訓練數據并創(chuàng)建輸入和目標矩陣來訓練的模型代碼.合作API接口和網絡爬蟲是現今公交系統的主要數據來源.目前,多數研究都是以網絡爬蟲為重點研究對象.而這是由于與各地公交合作的API接口數據較少.于浩川[25]基于網絡爬蟲技術進行了公交線路數據的抓取,給出了網絡爬蟲方法應用下交通信息的獲取流程.JSON格式,是一種輕量級的數據交換格式.共享單車應用程序數據包使用的就是這種格式.王宇洋[26]通過網絡爬蟲技術,完成了實時獲取共享單車的位置信息,并且,針對這類海量信息,完成了信息處理分析及信息可視化.莊楚天等[27]通過網絡爬蟲技術獲取了公共自行車站點數據,包括站點實時可借與可還車輛數、站點名稱及其經緯度等信息,并以5min為時間間隔爬取以保證數據的連續(xù)性.另外,莊楚天[28]還獲取了城市POI數據和站點間路網距離數據,然后對空間數據進行統計分析,做到了定量把握站點布設、使用情況等.蘇圖[29]使用Python編寫網絡爬蟲技術實現了終端上本地頁面內容的自動更新,通過架設一個可移動的智能WiFi熱點,為沒有WiFi網絡覆蓋的公共交通上的用戶提供無線網絡服務方案.由文獻資料知,在公共交通信息獲取方面,國內外的研究主要集中在共享自行車(包括公共自行車)的相關研究上面,主要是應用網絡爬蟲技術獲取其位置信息及站點信息.對于其他公共交通信息獲取,如利用網絡爬蟲技術獲取公交線路信息等也有一定的研究,但是對于地鐵、輕軌等的相關信息數據獲取的研究幾乎沒有.3.3交通地理信息獲?。煌ǖ乩硇畔⒌墨@取往往需要借助于計算機技術,網絡爬蟲即是其中之一.Li等[30]提出利用分布模式的主動爬蟲作為地理空間信息獲取方法,結果表明,他們所提出的爬蟲在爬行效率和結果覆蓋率、活躍度方面均取得了良好的性能.該研究有助于在大規(guī)模和動態(tài)的萬維網上實現自動GWS發(fā)現,并促進業(yè)務互操作的分布式地理空間服務,使地理空間信息更廣泛地應用于交通中.高波[31]針將基于鏈接與基于內容搜索策略的網絡爬蟲相結合,提出了SS-HITS算法,進行了地理信息數據的獲?。畢茄嗲伲?2]提出的旅游比價決策系統通過框架Scrapy爬取來自不同旅游網站的出行信息,同時將網頁信息存儲于Mon-goDB中,并對相關路線進行分析,由此確定最佳決策.劉康等[33]應用網絡爬蟲技術抓取了長沙市地鐵站點及多個POI地標的地理位置信息,為交通便捷性等的研究提供了數據支持.對于利用網絡爬蟲技術獲取交通地理信息,主要研究成果集中在國內,上文中的外文文獻為國內研究人員在國外期刊上發(fā)表的文章.這類研究主要集中在獲取地理空間、位置信息等數據上.3.4實時交通信息采集.擁堵的交通數據涉及大規(guī)模和復雜的時空信息,使得挖掘交通數據變得困難,且交通數據的來源并不容易獲得.Tian等[34]從北京四環(huán)路區(qū)域的電子地圖中爬取了和實時交通信息,其道路狀態(tài)反映該區(qū)域的交通狀況,提供了一種從在線地圖數據中分析交通擁堵的可行方法.實時數據每隔5min收集一次,在收集實時交通數據后,手動將數據作為矢量處理,然后以SHP層的格式存儲.主題網絡爬蟲技術是獲取特定主題的有效手段,其搜索算法的性能直接決定著搜索結果的優(yōu)劣.張芳等[35]進提出了非貪婪遺傳主題網絡搜索算法,該算法搜索策略的查全率及準確率,能夠精準地獲取實時高速公路信息.閆文豪等[36]應用Python語言和Tornado網絡框架,設計了一個穩(wěn)定、高效、及時的爬蟲程序.他們以廣州市為例,從四維交通指數網頁抓取到了1723條道路的基本信息及其每5min更新一次的實時交通數據,并將獲取結果保存到MySQL數據庫,其研究結果表明網絡爬蟲技術在實時交通數據采集方面具有可行性和有效性.利用網絡爬蟲技術,張獻力[37]實現了實時地從網絡上抓取交通信息,其中交通官網和交通論壇的交通信息爬蟲均釆用Java語言來實現.陳功[38]進行了基于VoiceXML的實時路況查詢系統的設計與實現,其中路況實時狀態(tài)的信息數據即通過自動抓取相關互聯網資源得到.孫丹東[39]基于地理信息系統設計了一個網絡爬蟲來獲取實時交通信息.李威[40]闡述了網絡爬蟲技術的工作原理和基本操作方法,設計了一個基于網絡爬蟲技術的交通流瓦片下載器,實現了交通流量圖的批量下載,從而為后續(xù)交通流量數據的提取研究奠定了基礎.總結來說,應用網絡爬蟲技術進行實時交通信息采集的研究是相對較為廣泛的,但同樣這類研究成果主要集中在國內,國外就較為空白.獲取實時交通信息的關鍵在于,在網絡爬蟲的過程中,需要每隔一定時間收集一次,因此爬取間隔的設定需要依據不同需要進行特定設置.3.5交通運輸技術研究所需信息的獲?。诮煌ㄟ\輸技術研究時,對于所需數據的獲取,網絡爬蟲的應用也較為廣泛.王子凡[41]利用網絡爬蟲抓取了萬維網交通領域的網頁文本,實現了交通術語自動生成,為交通術語的挖掘以及預測交通行業(yè)的發(fā)展趨勢等提供了理論和技術支持.鄒永平[42]在基于CMS面向鐵路服務的網站開發(fā)研究中,釆用網絡爬蟲技術對天氣預報和車次、站點、站站的查詢數據等信息進行了抓取,并且每隔6小時重新抓取一次,實現了從鐵路服務網站查詢車次等信息的功能.顏高峰[43]以港口集疏運信息數據為例,研究了主題網絡爬蟲技術,實現了基于港口業(yè)務主題對外部數據的獲?。壳?,利用網絡爬蟲技術獲取交通運輸技術研究相關信息涉及到了交通領域文本信息的獲取、鐵路、港口等相關數據的獲取,對于實際應用有著很好的前景.雖然部分學者研究了這部分內容,但是由于研究文獻較少,不足以歸納出一般性結論.3.6交通領域評價反饋信息獲?。诮煌I域評價反饋信息獲取的相關研究中,楊奕等[44]以中華人民共和國交通運輸部官方網站“出租車行業(yè)改革”專欄作為研究對象,采用網絡爬蟲軟件八爪魚采集器,對網約車合法化問題的不同評論進行了全面信息采集,降低獲取信息的成本的同時提高了效率.劉鑫提出引導乘客帶有#車次號#的微博內容,然后利用網絡爬蟲采集微博數據.該爬蟲采用的是廣度優(yōu)先搜索策略,即將關鍵字搜索結果逐頁抓取,獲取大量的評價內容,從而分析其服務質量.對于交通領域評價反饋信息獲取,研究相對來說較少,但是應用前景是較為明朗的,通過網絡爬蟲技術獲取到評價反饋信息以后,有助于相關效率、質量等的提升.通過上述研究資料知,在網絡爬蟲在交通信息獲取中的應用中,目前,對于海量交通信息,網絡爬蟲技術是一種很好的手段.網絡爬蟲技術解決了海量交通信息難以批量獲取的問題,但是整個應用現狀還不夠普遍和成熟,今后仍需要通過不斷的實踐和研究來充實這一方面的應用.

4結束語

交通信息數據獲取研究是交通中重要的研究課題之一.網絡爬蟲技術能夠準確高效地從繁雜的網絡信息中獲取所需要的交通信息,對海量交通信息難以批量采集的問題給出了有效的解決方案.通過上述文獻綜述可知,目前,網絡爬蟲技術在交通信息獲取中的應用,主要集中在交通事故分析數據獲取、公共交通信息獲取、交通地理信息獲取、實時交通信息采集、交通運輸技術研究所需數據獲取、交通領域評價反饋信息獲取這六個方面.然而,應用網絡爬蟲技術進行交通信息獲取的研究也有不足之處.就目前的國內外研究現狀來看,網絡爬蟲技術的爬蟲方法與各類交通信息獲取的對應關系還需要進一步研究;如何結合數據特性確定合理的爬取間隔、重復的交通信息數據的識別和刪除等問題也有待解決.總體來看,將網絡爬蟲技術合理地應用到交通信息獲取的研究中,在交通控制、智能交通系統等領域發(fā)揮其作用,為交通事故的產生和類型判斷、實時交通信息采集、交通地理信息獲取等都提供了新的研究思路,有著廣闊的應用前景.

作者:秦雅琴 馬玲玲 單位:昆明理工大學交通工程學院