智能大數(shù)據(jù)分析范文
時(shí)間:2023-10-30 17:32:22
導(dǎo)語(yǔ):如何才能寫好一篇智能大數(shù)據(jù)分析,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
大數(shù)據(jù),是被過(guò)度炒作了還是真的價(jià)值無(wú)窮?它到底能帶給企業(yè)什么?企業(yè)又該如何分析、挖掘出這些價(jià)值?
從商務(wù)智能到消費(fèi)智能
沃爾瑪超市啤酒和尿布的故事是傳統(tǒng)CRM數(shù)據(jù)挖掘的經(jīng)典案例,如今在大數(shù)據(jù)的背景下,卻有了升級(jí)版本――某零售超市通過(guò)對(duì)監(jiān)控視頻影像記錄的分析來(lái)制定商品的上架擺放策略,例如分析顧客站在某商品前時(shí)間的長(zhǎng)短就可從一方面得出這種商品的受歡迎程度,從而決定其擺放位置――讓暢銷的東西放在最顯眼的地方,如此一來(lái),超市的收入就更高了。
美國(guó)富國(guó)銀行(Wells Fargo)的電子銀行案例值得業(yè)界學(xué)習(xí),尤其是他們非常注重電子銀行的互動(dòng)性。富國(guó)銀行發(fā)現(xiàn)顧客有一些共同點(diǎn),就是都非常關(guān)心財(cái)務(wù)管理。于是電子銀行除了為每位顧客提供賬戶管理功能,還會(huì)生成在線報(bào)告,比如顧客自己的支出報(bào)表、為顧客量身定制的省錢計(jì)劃,提供給顧客有關(guān)理財(cái)規(guī)劃、財(cái)務(wù)管理以及投資等方面的信息和服務(wù),形成有一定意義的在線社區(qū)。富國(guó)銀行利用數(shù)據(jù)倉(cāng)庫(kù)分析處理大量、各式各樣的數(shù)據(jù),來(lái)為各式各樣的顧客提供服務(wù),也通過(guò)創(chuàng)建客戶需要的社區(qū),加強(qiáng)客戶的共同興趣,持續(xù)地增加電子銀行網(wǎng)站的價(jià)值。
美國(guó)南加州愛迪生公司(SCE)最近完成了其智能電表的項(xiàng)目,為近500萬(wàn)個(gè)住宅和小型企業(yè)安裝了智能電表Edison SmartConnect,通過(guò)這些智能電表可以收集用戶的用電情況,包括用電時(shí)間和用電量。這些數(shù)據(jù)都保存在SCE公司的數(shù)據(jù)倉(cāng)庫(kù),用戶可以通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行查詢和分析,從而優(yōu)化自己的用電情況,以達(dá)到節(jié)能和省錢的目的。
……
“數(shù)據(jù)處理及獲取技術(shù)的進(jìn)步,特別是大數(shù)據(jù)處理技術(shù)的進(jìn)步,再加上移動(dòng)設(shè)備應(yīng)用的普及,正在改變著企業(yè)的營(yíng)銷模式,從外推模式向內(nèi)拉模式轉(zhuǎn)變,即從傳統(tǒng)的企業(yè)往外推送營(yíng)銷信息到達(dá)顧客的模式慢慢轉(zhuǎn)變?yōu)轭櫩头e極主動(dòng)地交互、參與引導(dǎo)企業(yè)營(yíng)銷的模式。”
Teradata CTO寶立明在日前舉行的2012 Teradata 數(shù)據(jù)倉(cāng)庫(kù)暨企業(yè)分析峰會(huì)上向企業(yè)用戶傳達(dá)了一個(gè)新的理念,即現(xiàn)在的企業(yè)已經(jīng)開始從商業(yè)智能走向消費(fèi)智能。
他指出,移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,不僅僅改變了個(gè)人的消費(fèi)習(xí)慣,也改變了企業(yè)的盈利和商業(yè)模式。它不僅改變了消費(fèi)模式,對(duì)于企業(yè)而言也增加了用戶的黏性和忠誠(chéng)度。以Facebook為例,寶立明認(rèn)為,應(yīng)用移動(dòng)設(shè)備人們會(huì)花兩倍的時(shí)間訪問(wèn)Facebook,企業(yè)非常需要這樣的忠誠(chéng)度和黏性。
寶立明在演講中用本節(jié)開頭所描述的眾多實(shí)例證明移動(dòng)互聯(lián)網(wǎng)對(duì)于企業(yè)的重要性。他認(rèn)為所有事物都是時(shí)間和空間的結(jié)合體。如一家郵政公司的包裹從蘇州到舊金山,要經(jīng)過(guò)180個(gè)數(shù)據(jù)采集點(diǎn),還有各種環(huán)境的采集信息,這些信息是時(shí)間+空間的結(jié)合體,也是大數(shù)據(jù)的典型代表。這些數(shù)據(jù)的分析處理將對(duì)企業(yè)來(lái)說(shuō)價(jià)值巨大。
峰會(huì)上,eBay分析平臺(tái)總監(jiān)梁滸在接受記者采訪時(shí),也對(duì)消費(fèi)智能的趨勢(shì)表示了贊同。他說(shuō):“為什么現(xiàn)在電子商務(wù)網(wǎng)站比傳統(tǒng)店鋪有優(yōu)勢(shì)?比如,你有一個(gè)實(shí)體店,你不會(huì)知道某一個(gè)用戶是什么時(shí)候到店里來(lái)逛的,他試了哪些衣服,看了什么,為什么沒(méi)買就走了……因?yàn)槟銢](méi)有這些數(shù)據(jù)。但是eBay解決了這個(gè)問(wèn)題――通過(guò)數(shù)據(jù)分析,我可以知道你是什么時(shí)候來(lái)的,來(lái)了之后,喜歡怎么看商品,喜歡用什么關(guān)鍵詞搜索,搜到了什么東西,以及你到底是誰(shuí)等。因此,商家就可以有針對(duì)性地進(jìn)行促銷及商品組合優(yōu)化?!?/p>
“移動(dòng)互聯(lián)網(wǎng)的發(fā)展,改變著很多的事情。以往的電子商務(wù)開始變成移動(dòng)商務(wù),人們?cè)絹?lái)越希望打破地理空間的限制,通過(guò)移動(dòng)終端訪問(wèn)信息?!睂毩⒚鲝?qiáng)調(diào),以往我們總是傳達(dá)B2C的理念,而以后的商業(yè)發(fā)展將更多轉(zhuǎn)向C2B的模式,即消費(fèi)者的反饋意見和需求越來(lái)越影響著信息的交付模式。
被改變的不只是電子商務(wù)企業(yè),越來(lái)越多的傳統(tǒng)企業(yè)利用社交網(wǎng)絡(luò)的信息,通過(guò)大數(shù)據(jù)分析來(lái)做業(yè)務(wù)創(chuàng)新,服務(wù)客戶。銀河證券CIO顏陽(yáng)向記者介紹,歐美證券市場(chǎng)基于Twitter信息做輿情分析就是這方面的一個(gè)典型應(yīng)用?!叭ツ暧袌?bào)道稱,美國(guó)大學(xué)學(xué)者從Twitter上面抓取相關(guān)的輿情信息,建立了相關(guān)的模型和道瓊斯工業(yè)指數(shù)做類比,結(jié)果發(fā)現(xiàn)能夠提前一天左右的時(shí)間預(yù)測(cè)指數(shù)的漲跌。國(guó)內(nèi)一些證券機(jī)構(gòu)也開始做這項(xiàng)研究,這非常復(fù)雜。我們正在從一些簡(jiǎn)單的模型開始摸索?!鳖侁?yáng)說(shuō),大數(shù)據(jù)分析為證券公司做投資顧問(wèn)產(chǎn)品的全生命周期管理(從需求分析、需求整合、產(chǎn)品設(shè)計(jì)、產(chǎn)品生產(chǎn)、產(chǎn)品組合、產(chǎn)品銷售到服務(wù)及跟蹤)和客戶的全生命周期管理(從客戶識(shí)別、開發(fā)、維系、成熟、衰退到退出及服務(wù)跟蹤)的交叉匹配提供了可能,幫助證券公司實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新,更細(xì)致敏捷地服務(wù)客戶,獲得發(fā)展。
當(dāng)然大數(shù)據(jù)的價(jià)值遠(yuǎn)遠(yuǎn)不止客戶關(guān)系維護(hù)、企業(yè)營(yíng)銷,它將會(huì)在企業(yè)運(yùn)營(yíng)管理的方方面面都發(fā)揮重要作用。但要發(fā)揮這些價(jià)值,業(yè)界現(xiàn)在面臨的問(wèn)題就是如何更高效地存儲(chǔ)、分析這些數(shù)據(jù)。
數(shù)據(jù)也有溫度
大數(shù)據(jù)之所以成為業(yè)界的熱點(diǎn),是因?yàn)橐环矫娆F(xiàn)在做數(shù)據(jù)分析的價(jià)值越來(lái)越受到認(rèn)可,另一方面,在新方法和技術(shù)的支持下,存儲(chǔ)和分析的成本相對(duì)越來(lái)越低。
如何用更低的成本存儲(chǔ)大量的數(shù)據(jù)?寶立明給出的答案是根據(jù)數(shù)據(jù)的“溫度”,分級(jí)存儲(chǔ)。
他介紹,每時(shí)每刻,企業(yè)都有大量的數(shù)據(jù)產(chǎn)生和存儲(chǔ)。但這些存儲(chǔ)的數(shù)據(jù)卻只有很少一部分被用到。此時(shí),就需要按數(shù)據(jù)的重要程度和使用頻率進(jìn)行分級(jí)處理,以節(jié)約存儲(chǔ)資源,優(yōu)化數(shù)據(jù)管理。
“所謂多溫度的數(shù)據(jù)管理,就是把那些不經(jīng)常訪問(wèn)的數(shù)據(jù)(冷數(shù)據(jù))存儲(chǔ)在性能較低的存儲(chǔ)設(shè)備上,將那些訪問(wèn)頻率非常高的數(shù)據(jù)(熱數(shù)據(jù))放在高性能的存儲(chǔ)設(shè)備上。要做到這一點(diǎn),需要非常智能化的軟件。多溫度的數(shù)據(jù)管理技術(shù)是Teradata所具有的獨(dú)特的競(jìng)爭(zhēng)力之?!睂毩⒚髯院赖卣f(shuō)。
Map Reduce 新分析方法
數(shù)據(jù)作為一種寶貴的資產(chǎn)越來(lái)越受到重視,但從海量數(shù)據(jù)中獲取有價(jià)值的信息卻非常困難,因?yàn)槌杀静环?。但現(xiàn)在情況有了新變化,所以大數(shù)據(jù)眼下成為業(yè)界熱點(diǎn),即在新技術(shù)的支持下,成本越來(lái)越低。
對(duì)于企業(yè)做數(shù)據(jù)分析的價(jià)值和方法的前后變化,Informatica公司大中國(guó)區(qū)首席產(chǎn)品顧問(wèn)但彬曾在第五屆中國(guó)數(shù)據(jù)中心大會(huì)的“大數(shù)據(jù)分析與治理”分論壇上,用一個(gè)非常生動(dòng)形象的比喻做了說(shuō)明:“如果將做數(shù)據(jù)分析比喻成開采金礦,原來(lái)我們所做的是用挖掘機(jī)挖金土豆,現(xiàn)在是用篩子來(lái)篩金沙。因?yàn)楝F(xiàn)在大量分布在社交網(wǎng)絡(luò)的數(shù)據(jù),對(duì)企業(yè)而言就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價(jià)值且值得做的事情。”
從交易到交互,從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),大數(shù)據(jù)的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構(gòu)師張新宇看來(lái),除了數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理,更重要的是數(shù)據(jù)分析,利用新的分析方法,比如通過(guò)使用Map Reduce(編程語(yǔ)言可以是Java/Python/Perl/C/C++)新分析框架,提供針對(duì)多種數(shù)據(jù)的并行處理能力等,實(shí)現(xiàn)大數(shù)據(jù)的洞察力是更關(guān)鍵的。
張新宇在“大數(shù)據(jù)分析與治理”分論壇上介紹,針對(duì)大數(shù)據(jù)而生的新一代分析工具――Map Reduce近年來(lái)備受關(guān)注,它一次遍歷數(shù)據(jù),連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對(duì)表做自關(guān)聯(lián)。Map Reduce在數(shù)字營(yíng)銷優(yōu)化、社交網(wǎng)絡(luò)及關(guān)系分析、欺詐檢測(cè)及預(yù)防、設(shè)備數(shù)據(jù)分析等場(chǎng)景中都有非常好的應(yīng)用。
除了原有的關(guān)系型數(shù)據(jù)分析,結(jié)合非關(guān)系型數(shù)據(jù)(NoSQL)的探索性分析的需求在企業(yè)內(nèi)部越來(lái)越旺盛。
Map Reduce的第一個(gè)開源實(shí)現(xiàn)Hadoop 今年尤其受追捧:IBM、微軟、Oracle等公司紛紛向Hadoop靠攏,宣布支持Hadoop的連接,越來(lái)越多與云計(jì)算相關(guān)的Hadoop的應(yīng)用頻頻被提及。
除了外部連接Hadoop,Teradata還提供了更好的思路,就是在關(guān)系數(shù)據(jù)庫(kù)內(nèi)部嵌入Map Reduce。張新宇介紹,在傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中間嵌入Map Reduce可以很容易地打通非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間的壁壘。它的做法實(shí)際上是先把非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系數(shù)據(jù)庫(kù)中間,然后解析Map Reduce的圖像圖形和地理位置等的算法,把中間的關(guān)系解析并提取出來(lái),然后再以行和列的方式放到傳統(tǒng)關(guān)系表中,這樣要做分析時(shí)可以很容易在一個(gè)平臺(tái)內(nèi)部就可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
這就是Teradata收購(gòu)大數(shù)據(jù)分析廠商Aster Data的原因所在。因?yàn)楹笳咴?008年就成為第一個(gè)吸收Map Reduce的供應(yīng)商,將Map Reduce嵌入關(guān)系數(shù)據(jù)庫(kù)形成SQL-Map Reduce。寶立明就非常推崇SQL-Map Reduce以及R語(yǔ)言等大數(shù)據(jù)的分析統(tǒng)計(jì)工具。
數(shù)據(jù)科學(xué)家的興起
除了新工具,大數(shù)據(jù)還催生了一種新的IT職業(yè),也是被譽(yù)為未來(lái)5年內(nèi)最有價(jià)值、最火的職業(yè)――數(shù)據(jù)科學(xué)家。
寶立明介紹,數(shù)據(jù)科學(xué)家有很強(qiáng)的技術(shù)功底,除了傳統(tǒng)的會(huì)寫SQL,還會(huì)與非關(guān)系型數(shù)據(jù)打交道,熟悉很多數(shù)據(jù)分析的軟件,有很強(qiáng)的數(shù)據(jù)功底,對(duì)業(yè)務(wù)也很敏感。另外,數(shù)據(jù)科學(xué)家也會(huì)有很強(qiáng)的好奇心或求知欲,他要很明確地知道,當(dāng)發(fā)現(xiàn)業(yè)務(wù)問(wèn)題的時(shí)候如何通過(guò)業(yè)務(wù)模式的調(diào)整去解決。他既可能是一個(gè)數(shù)據(jù)分析的專家,也可能是一個(gè)SaaS的專家,也可能是個(gè)超級(jí)用戶,或者是一個(gè)Java的程序員,自己寫程序處理。
傳統(tǒng)的ETL 開發(fā)人員、應(yīng)用模型人員、OLAP架構(gòu)師或者Data 管控及主數(shù)據(jù)管理人員主要在關(guān)系型數(shù)據(jù)上工作。與他們不同,數(shù)據(jù)科學(xué)家通常與非關(guān)系型數(shù)據(jù)打交道,會(huì)很早接觸并采用企業(yè)內(nèi)部的新數(shù)據(jù)源,要針對(duì)數(shù)據(jù)模型及數(shù)據(jù)結(jié)構(gòu)沒(méi)有預(yù)先設(shè)定的情況,習(xí)慣使用各種比較靈活的語(yǔ)言,會(huì)有各種新的數(shù)據(jù)產(chǎn)品的可執(zhí)行的想法。
“因?yàn)楝F(xiàn)在國(guó)外引進(jìn)的大數(shù)據(jù)分析工具集成了非常精深的業(yè)務(wù)模型,功能非常強(qiáng),但對(duì)人才要求非常高。在大數(shù)據(jù)分析方面,又懂IT又懂業(yè)務(wù)的人才現(xiàn)在國(guó)內(nèi)非常稀缺。”顏陽(yáng)告訴記者。
eBay的極限分析
全球最大的電子商務(wù)平臺(tái)eBay擁有全世界最大數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng)。近年來(lái),它的數(shù)據(jù)成長(zhǎng)的腳步相當(dāng)驚人:eBay現(xiàn)在每天有50PB的新增數(shù)據(jù),使用者平均每天對(duì)5萬(wàn)種商品進(jìn)行數(shù)百萬(wàn)次的網(wǎng)上查詢。除此之外,eBay還有7,000多個(gè)商業(yè)用戶和分析人員,為了分析,每8秒鐘會(huì)產(chǎn)生1TB的數(shù)據(jù)量。這些加起來(lái),eBay每天要處理的數(shù)據(jù)量高達(dá)100PB,保存的處理完的數(shù)據(jù)是每天50T!多么驚人的數(shù)字!
梁滸告訴記者,對(duì)eBay 來(lái)說(shuō)并不只是數(shù)據(jù)量的增加,更大的挑戰(zhàn)是要同時(shí)處理結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)。
梁滸告訴記者,eBay的非結(jié)構(gòu)化數(shù)據(jù)主要是來(lái)自行為分析的數(shù)據(jù)以及對(duì)網(wǎng)站點(diǎn)擊率的分析。這些資料日益復(fù)雜、多變。以追蹤點(diǎn)擊率為例,近年來(lái)大部分的網(wǎng)頁(yè)都是動(dòng)態(tài)網(wǎng)頁(yè),過(guò)去只要透過(guò)網(wǎng)址就能知道使用者正在看什么網(wǎng)頁(yè),但是現(xiàn)在一個(gè)網(wǎng)頁(yè)上的內(nèi)容變多了,而且每一秒都在變化,這對(duì)于分析使用者行為來(lái)說(shuō),難度也就更高。分析點(diǎn)擊率信息這一類半結(jié)構(gòu)性和非結(jié)構(gòu)性數(shù)據(jù)是eBay在數(shù)據(jù)管理方面的工作重點(diǎn)之一。
梁滸介紹,在虛擬化以及結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合分析方面,eBay和Teradata公司合作建立了大規(guī)模平臺(tái)――Singularity,將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合在一起。目前,這個(gè)平臺(tái)上已經(jīng)部署很多系統(tǒng),數(shù)據(jù)處理量高于40PB。
eBay大約有500多個(gè)不同的數(shù)據(jù)來(lái)源,包括普通交易數(shù)據(jù)、反饋信息數(shù)據(jù)、賬戶改動(dòng)數(shù)據(jù)和點(diǎn)擊流量數(shù)據(jù)等,它們所產(chǎn)生的數(shù)據(jù)會(huì)被放入不同的系統(tǒng)進(jìn)行分析,幫eBay了解人們?cè)诰W(wǎng)上會(huì)購(gòu)買什么樣的產(chǎn)品、通過(guò)怎樣的方式尋找產(chǎn)品、怎樣更容易地進(jìn)行搜索和尋找。就是通過(guò)這樣的行為數(shù)據(jù)分析,eBay在不斷地優(yōu)化其搜索和算法,不斷改善網(wǎng)站功能和特性?!癳Bay知道顧客每天習(xí)慣在什么時(shí)間上網(wǎng),喜歡怎么瀏覽商品,是先去看打折的、清倉(cāng)的貨,還是先看新品。eBay知道用戶搜索喜歡用什么關(guān)鍵詞、搜索到的商品。用戶打開的每一個(gè)點(diǎn)擊,eBay都有記錄,eBay知道用戶的身份、消費(fèi)習(xí)慣、朋友圈、家人,甚至是他老婆喜歡買什么類型包。”梁滸調(diào)侃地說(shuō)。
篇2
關(guān)鍵詞:智能用電大數(shù)據(jù);分析;臺(tái)區(qū)線損;管理
前言
隨著信息技術(shù)的快速發(fā)展,大數(shù)據(jù)、云計(jì)算等高新技術(shù)在各行各業(yè)的應(yīng)用使各行各業(yè)的業(yè)務(wù)運(yùn)營(yíng)管理效率得到再次提升。電力是現(xiàn)代化生產(chǎn)生活不可缺少的重要能源,必須不斷提高電力供應(yīng)系統(tǒng)的運(yùn)行質(zhì)量,對(duì)其進(jìn)行有效管理,以保證電力的持續(xù)、穩(wěn)定供應(yīng)。智能用電大數(shù)據(jù)在臺(tái)區(qū)線損管理中的應(yīng)用通過(guò)對(duì)海量用戶用電信息的分析,深入挖掘信息價(jià)值,準(zhǔn)確找到線損因素,從而提升供電運(yùn)行效率和管理效率,為企業(yè)降低經(jīng)營(yíng)成本,使電力企業(yè)獲得更好發(fā)展。
1 基于智能用電大數(shù)據(jù)的臺(tái)區(qū)線損異常分析
供電臺(tái)區(qū)是指由一臺(tái)配電變壓器和一條配電線路、或由多臺(tái)配電變壓器和多條配電線路組成的集合。在電力供應(yīng)系統(tǒng)中,低壓配電網(wǎng)處于整個(gè)電網(wǎng)的末端,與用電用戶直接相連,由于用戶種類多、用電需求復(fù)雜,供電區(qū)域也較為復(fù)雜,特別是城區(qū)配網(wǎng)的問(wèn)題更加突出。所以供電企業(yè)采取臺(tái)區(qū)的方式對(duì)電力用戶進(jìn)行劃分和管理,臺(tái)區(qū)經(jīng)濟(jì)運(yùn)行指標(biāo)主要包括供電量、售電量和線損率等。其中,臺(tái)區(qū)線損是低壓線損管理的重要組成部分,對(duì)配網(wǎng)規(guī)劃、營(yíng)銷用電、計(jì)量管理等方面都有密切關(guān)系,但由于低壓配網(wǎng)的復(fù)雜情況,線損管理情況一直不容樂(lè)觀,存在著較高的管理線損[1]。
在大數(shù)據(jù)技術(shù)的支持下,許多地區(qū)的用戶用電信息采集系統(tǒng)已經(jīng)完成了低壓電力用戶的覆蓋。系統(tǒng)的主要功能包括考核單元信息,統(tǒng)計(jì)臺(tái)區(qū)與用戶的對(duì)應(yīng)關(guān)系、統(tǒng)計(jì)每日供售電情況、計(jì)算和統(tǒng)計(jì)每日臺(tái)區(qū)損失率和指標(biāo)完成情況等。目前使用的低壓線損計(jì)算方法主要包括平均電流負(fù)荷曲線特征系數(shù)法、降壓法、等效功率法等。用電信息采集系統(tǒng)的應(yīng)用解決了考核表與計(jì)量表不能同期抄表的問(wèn)題,但臺(tái)區(qū)用戶采集覆蓋情況、臺(tái)區(qū)戶變關(guān)系等也會(huì)對(duì)線損計(jì)算產(chǎn)生影響。傳統(tǒng)分析手段難以保證線損計(jì)算的嗜沸裕而且工作效率低。在智能用電大數(shù)據(jù)的支持下,可以利用數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)對(duì)低壓線損異常的產(chǎn)生原因進(jìn)行深入分析,為線損計(jì)算提供可靠的參數(shù),從而為臺(tái)區(qū)線損管理工作的開展提供依據(jù),提高其管理水平和工作效率[2]。
2 基于智能用電大數(shù)據(jù)的臺(tái)區(qū)線損異常診斷模型
2.1 可計(jì)算分析診斷模型
隨著用電用戶信息采集的覆蓋面不斷擴(kuò)大,采集到信息數(shù)據(jù)量也不斷提升,傳統(tǒng)的數(shù)據(jù)分析手段無(wú)法解決當(dāng)下電力系統(tǒng)的分析診斷問(wèn)題。而且需要處理信息數(shù)據(jù)呈現(xiàn)出多樣屬性,需要對(duì)線損計(jì)算數(shù)據(jù)進(jìn)行預(yù)處理,從而進(jìn)行更加有效的分析和診斷。為提高線損計(jì)算的準(zhǔn)確性,首先要制定參與線損計(jì)算的條件規(guī)則,將信息數(shù)據(jù)劃分為可計(jì)算數(shù)據(jù)和不可計(jì)算數(shù)據(jù)兩類。需要使用到基于規(guī)則的分類器,采取“if…then…”的規(guī)則對(duì)記錄數(shù)據(jù)進(jìn)行分類處理。因此,應(yīng)根據(jù)線損計(jì)算特征生成規(guī)則模型,使其能夠通過(guò)一組分類規(guī)則進(jìn)行表示。臺(tái)區(qū)線損的具體計(jì)算屬性包括公用配變、運(yùn)行臺(tái)區(qū)、考核電能表、用戶電能表、綜合倍率、采集安裝率等。同時(shí)滿足這些計(jì)算屬性的臺(tái)區(qū)屬于可計(jì)算臺(tái)區(qū),否則屬于不可計(jì)算臺(tái)區(qū)。其中采集安裝率的計(jì)算公式為:采集安裝率=已采表/應(yīng)采表×100%[3]。
2.2 合理性分析診斷模型
通過(guò)可計(jì)算分析模型確定臺(tái)區(qū)線損是否滿足可計(jì)算條件后,還要通過(guò)決策樹進(jìn)行歸納分析,從而保證分析計(jì)算結(jié)果的合理性。建立合理性分析診斷模型,對(duì)臺(tái)區(qū)線損計(jì)算的合理性進(jìn)一步分析,利用決策樹對(duì)記錄屬性和分類問(wèn)題進(jìn)行檢驗(yàn),一個(gè)問(wèn)題得到答案后下一個(gè)問(wèn)題隨之產(chǎn)生,決策樹就是由這種問(wèn)題回答過(guò)程組成,其主要結(jié)構(gòu)包括根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。決策樹模型的構(gòu)建主要以臺(tái)區(qū)線損的合理性分析屬性集作為依據(jù),主要節(jié)點(diǎn)的創(chuàng)建則采用遞歸算法。初始決策樹只包含一個(gè)類標(biāo)號(hào)為“合理性=是”的節(jié)點(diǎn),表示臺(tái)區(qū)線損率合理。然后對(duì)決策樹進(jìn)行細(xì)化,一個(gè)根節(jié)點(diǎn)包含兩類記錄,根據(jù)條件將其劃分為更小的子集,并對(duì)每個(gè)子節(jié)點(diǎn)進(jìn)行遞歸。具體的決策樹模型如圖1所示。通過(guò)決策樹的構(gòu)建,可以實(shí)現(xiàn)對(duì)線損異常原因的分類分析。如果再次基礎(chǔ)上增加用戶數(shù)量等子節(jié)點(diǎn),還能幫助管理人員深入分析臺(tái)區(qū)線損的其他影響因素[4]。
2.3 戶變關(guān)系分析模型
臺(tái)區(qū)線損分析的正確性受臺(tái)區(qū)戶變關(guān)系準(zhǔn)確性的直接影響,對(duì)停電事件采取終端主動(dòng)上報(bào)和智能表的自動(dòng)記錄、主站自動(dòng)采集相結(jié)合的方式,利用簡(jiǎn)單屬性之間的相似度與相異度構(gòu)建臺(tái)區(qū)戶變關(guān)系模型。一般用單個(gè)屬性鄰近度的組合來(lái)定義對(duì)象之間的鄰近度。對(duì)象的相異性信息包含在屬性中,以此判斷兩個(gè)對(duì)象件的相異性。如果用戶表與總表的停電時(shí)刻差值在1分鐘以內(nèi),則相似度定義為1,否則定義為0。相異度的定義方法則相反,如果屬性值匹配,定義為0,否則定義為1。通過(guò)對(duì)營(yíng)銷檔案區(qū)用戶的電表與總電表的差值,判斷用戶是否屬于本臺(tái)區(qū)[5]。
3 結(jié)束語(yǔ)
總而言之,基于智能用電大數(shù)據(jù)的臺(tái)區(qū)線損管理,其工作效率和管理水平都將得到有效提升,從而為供電系統(tǒng)的正常運(yùn)行提供保證,降低企業(yè)經(jīng)營(yíng)成本,為企業(yè)爭(zhēng)取更好的經(jīng)濟(jì)效益。本文主要對(duì)基于智能用電大數(shù)據(jù)的臺(tái)區(qū)線損分析和診斷方法進(jìn)行分析,包括可計(jì)算分析診斷模型、合理性分析診斷模型和戶變關(guān)系分析模型等,希望能為智能大數(shù)據(jù)分析在臺(tái)區(qū)線損管理中中的應(yīng)用提供參考。
參考文獻(xiàn)
[1]李新家,孔月萍,鄒云峰,等.配電臺(tái)區(qū)在線線損分級(jí)管理和智能異常分析設(shè)計(jì)[J].電力需求側(cè)管理,2016(02):46-48+53.
[2]郭威.基于用電信息采集系統(tǒng)的線損異常數(shù)據(jù)挖掘研究及應(yīng)用
[D].華北電力大學(xué),2016.
[3]周偉.用電信息采集系統(tǒng)應(yīng)用于線損管理的分析與實(shí)施[D].山東大學(xué),2015.
篇3
(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,遼寧大連116026)
摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),商業(yè)智能分析對(duì)企業(yè)的發(fā)展起到了至關(guān)重要的作用。文章指出目前智能專業(yè)設(shè)置的課程與商業(yè)智能分析之間存在的差距,詳細(xì)說(shuō)明商業(yè)智能分析崗位的職業(yè)需求情況,介紹智能商業(yè)分析實(shí)踐課程設(shè)置的具體內(nèi)容。
關(guān)鍵詞 :商業(yè)智能;數(shù)據(jù)分析;大數(shù)據(jù)
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目“大數(shù)據(jù)環(huán)境下稀疏主題模型理論及其應(yīng)用研究”( 61370070)。
第一作者簡(jiǎn)介:王春立,女,教授,研究方向?yàn)槟J阶R(shí)別與數(shù)據(jù)挖掘,clwang@dlmu.edu.cn。
0 引 言
麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)( Big data)也吸引了越來(lái)越多的關(guān)注。大數(shù)據(jù)可以概括為4個(gè)V:數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、真實(shí)性(Veracity)。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。
大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,從數(shù)據(jù)中獲取大量智能、深入、有價(jià)值的信息。大數(shù)據(jù)分析需要數(shù)據(jù)分析師。數(shù)據(jù)分析師指的是不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析工作,并依據(jù)數(shù)據(jù)作出行業(yè)研究、評(píng)估和預(yù)測(cè)的專業(yè)人員。數(shù)據(jù)分析師的教育培養(yǎng)已有相關(guān)研究和建設(shè)成果,如:針對(duì)專業(yè)課程實(shí)驗(yàn)教學(xué)與企業(yè)實(shí)際需求脫節(jié)的情況,改進(jìn)專業(yè)課程實(shí)驗(yàn)設(shè)計(jì);以項(xiàng)目式教學(xué)為基礎(chǔ),討論設(shè)計(jì)思維在商務(wù)智能課程實(shí)驗(yàn)課程應(yīng)用過(guò)程中的可行性;上海交通大學(xué)和北京大學(xué)等都開設(shè)了相關(guān)精品課程。
與傳統(tǒng)的數(shù)據(jù)分析師相比,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師面臨的問(wèn)題不是數(shù)據(jù)匱乏,而是數(shù)據(jù)過(guò)剩。因此,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師必須學(xué)會(huì)借助技術(shù)手段進(jìn)行高效的數(shù)據(jù)處理。更為重要的是,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師要不斷在數(shù)據(jù)研究的方法論方面進(jìn)行創(chuàng)新和突破,這對(duì)該領(lǐng)域人才提出了新的要求,僅有商業(yè)背景和一些概率統(tǒng)計(jì)知識(shí)是不夠的。學(xué)校須將深度學(xué)習(xí)思想引入商務(wù)智能教學(xué),從而提高學(xué)生的計(jì)算思維能力。與經(jīng)管類專業(yè)相比,智能專業(yè)的學(xué)生系統(tǒng)學(xué)習(xí)了模式識(shí)別、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等相關(guān)課程,具備較好的數(shù)據(jù)分析理論基礎(chǔ)。
但目前智能專業(yè)中,現(xiàn)有課程設(shè)置與商業(yè)分析之間還有斷層,學(xué)生有了理論基礎(chǔ)和專業(yè)技術(shù)卻不知如何運(yùn)用,亟須設(shè)置實(shí)踐課程指導(dǎo)學(xué)生運(yùn)用相關(guān)知識(shí)解決商業(yè)分析中的問(wèn)題,商業(yè)智能分析實(shí)踐課程即是為此開設(shè)的。
1 智能商業(yè)分析實(shí)踐課程的職場(chǎng)需求分析
1.1 數(shù)據(jù)分析師職位需求
大數(shù)據(jù)是一個(gè)朝陽(yáng)產(chǎn)業(yè),被《HR管理世界》評(píng)為七大賺錢行業(yè)之一。百度招聘數(shù)據(jù)顯示,2014年3月當(dāng)月的職位中,北京數(shù)據(jù)分析師職位需求占24 099個(gè)。ManpowerGroup公布的香港2015年第一季就業(yè)展望調(diào)查報(bào)告中指出,整合大數(shù)據(jù)內(nèi)有用資訊并將其融入業(yè)務(wù)發(fā)展已是趨勢(shì),不同行業(yè)的雇主都在物色相關(guān)人才,大數(shù)據(jù)的應(yīng)用令數(shù)據(jù)分析職位需求上升。百度已有百度商橋,阿里巴巴有淘寶數(shù)據(jù)魔方,而亞馬遜、京東、當(dāng)當(dāng)、卓越網(wǎng)也都會(huì)大量招聘數(shù)據(jù)分析師。
從企業(yè)經(jīng)驗(yàn)來(lái)看,建立大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)本身就需要專業(yè)技術(shù)能力,數(shù)據(jù)分析需要數(shù)學(xué)能力,確定建?;蛘叻治龇较騽t需要業(yè)務(wù)能力。大數(shù)據(jù)時(shí)代需要的核心人才,是兼具數(shù)據(jù)分析能力和項(xiàng)目(業(yè)務(wù)能力)經(jīng)驗(yàn)的復(fù)合型人才。
目前,大數(shù)據(jù)方面的工作人員主要有三大就業(yè)方向:大數(shù)據(jù)系統(tǒng)研發(fā)類人才、大數(shù)據(jù)應(yīng)用開發(fā)類人才和大數(shù)據(jù)分析類人才。從企業(yè)方面來(lái)說(shuō),大數(shù)據(jù)人才大致可以分為產(chǎn)品和市場(chǎng)分析、安全和風(fēng)險(xiǎn)分析以及商業(yè)智能三大領(lǐng)域。其中,商業(yè)智能的相關(guān)崗位包括:
1)數(shù)據(jù)抽?。‥xtract-Transform-Load,ETL)。
隨著數(shù)據(jù)種類的不斷增加,企業(yè)對(duì)數(shù)據(jù)整合專業(yè)人才的需求越來(lái)越旺盛。ETL人員需要接觸不同的數(shù)據(jù)來(lái)源和平臺(tái),從不同的資源獲取數(shù)據(jù),轉(zhuǎn)換、清洗并導(dǎo)人數(shù)據(jù)倉(cāng)庫(kù)。
2)大數(shù)據(jù)處理。
目前處理大數(shù)據(jù)的較流行工具是Hadoop,其核心是HDFS和MapReduce。HDFS提供海量數(shù)據(jù)的存儲(chǔ),MapReduce則提供對(duì)大數(shù)據(jù)的計(jì)算。隨著數(shù)據(jù)集規(guī)模不斷增大,由于傳統(tǒng)BI的數(shù)據(jù)處理成本過(guò)高,企業(yè)對(duì)Hadoop及相關(guān)的廉價(jià)數(shù)據(jù)處理技術(shù)如Hive、HBase、MapReduce、Pig等的需求將持續(xù)增長(zhǎng)。如今具備Hadoop框架經(jīng)驗(yàn)的技術(shù)人員是最搶手的大數(shù)據(jù)人才。
3)信息架構(gòu)。
大數(shù)據(jù)重新激發(fā)了針對(duì)主數(shù)據(jù)管理的熱潮。充分開發(fā)利用企業(yè)數(shù)據(jù)并用其支持決策,這需要非常專業(yè)的技能。信息架構(gòu)師必須了解定義和存檔關(guān)鍵元素的方法,具備主數(shù)據(jù)管理、業(yè)務(wù)知識(shí)和數(shù)據(jù)建模等技能。
4)數(shù)據(jù)科學(xué)家。
數(shù)據(jù)科學(xué)家將企業(yè)的數(shù)據(jù)和技術(shù)轉(zhuǎn)化為企業(yè)的商業(yè)價(jià)值。隨著數(shù)據(jù)學(xué)的發(fā)展,越來(lái)越多的實(shí)際工作將會(huì)直接針對(duì)數(shù)據(jù)進(jìn)行,這將使人類認(rèn)識(shí)數(shù)據(jù),從而認(rèn)識(shí)自然和行為。據(jù)預(yù)測(cè),未來(lái)將需要400萬(wàn)的數(shù)據(jù)科學(xué)家。
5)數(shù)據(jù)預(yù)測(cè)分析。
營(yíng)銷部門經(jīng)常使用預(yù)測(cè)分析方法來(lái)預(yù)測(cè)用戶行為或鎖定目標(biāo)用戶,在企業(yè)歷史數(shù)據(jù)的基礎(chǔ)上,通過(guò)假設(shè)來(lái)測(cè)試閾值并預(yù)測(cè)未來(lái)的表現(xiàn)。
1.2 數(shù)據(jù)分析師職位要求
為進(jìn)一步明確企業(yè)對(duì)數(shù)據(jù)分析師所具備技能的具體要求,筆者收集了51招聘網(wǎng)、智聯(lián)招聘等幾大求職網(wǎng)站上近100份數(shù)據(jù)分析相關(guān)的招聘要求,并對(duì)這些招聘要求進(jìn)行歸納匯總后,整理出數(shù)據(jù)分析職位的主要職責(zé)為:客戶分析、用戶建模、市場(chǎng)分析、業(yè)務(wù)運(yùn)營(yíng)需求分析、網(wǎng)絡(luò)營(yíng)銷和網(wǎng)絡(luò)廣告數(shù)據(jù)分析方法和模型、預(yù)測(cè)模型、數(shù)據(jù)庫(kù)建設(shè)維護(hù)、數(shù)據(jù)清洗。對(duì)應(yīng)聘者的要求包括:計(jì)算機(jī)、數(shù)學(xué)、商業(yè)、信息管理等相關(guān)學(xué)科本科以上;熟悉SAS、spss、Excel等軟件;掌握數(shù)理統(tǒng)計(jì)、數(shù)據(jù)分析、數(shù)據(jù)挖掘,熟知常用算法;良好的數(shù)據(jù)敏感度,能從海量數(shù)據(jù)提煉核心結(jié)果;良好的邏輯思維與表達(dá)能力,善于用簡(jiǎn)單語(yǔ)言表述復(fù)雜結(jié)論。
綜合起來(lái),數(shù)據(jù)分析師需要具備的技能主要包括如下4個(gè)方面:
(1)數(shù)據(jù)分析。從事數(shù)據(jù)分析工作需要掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐中。基本的分析方法包括:對(duì)比分析法、分組分析法、交叉分析法、結(jié)構(gòu)分析法、漏斗圖分析法、綜合評(píng)價(jià)分析法、因素分析法、矩陣關(guān)聯(lián)分析法等。高級(jí)的分析方法有:相關(guān)分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對(duì)應(yīng)分析法、時(shí)間序列等。
(2)工具使用。數(shù)據(jù)分析方法是理論,而數(shù)據(jù)分析工具就是實(shí)現(xiàn)數(shù)據(jù)分析方法理論的工具,面對(duì)越來(lái)越龐大的數(shù)據(jù),必須依靠強(qiáng)大的數(shù)據(jù)分析工具完成數(shù)據(jù)分析工作。須掌握數(shù)據(jù)分析相關(guān)的常用工具有SAS、SPSS、Excel等軟件。
(3)商業(yè)業(yè)務(wù)。從事數(shù)據(jù)分析工作的前提是須懂得商業(yè)業(yè)務(wù),即熟悉行業(yè)知識(shí)、公司業(yè)務(wù)及流程。若脫離行業(yè)知識(shí)和公司業(yè)務(wù)背景,分析的結(jié)果就沒(méi)有使用價(jià)值。
(4)可視化設(shè)計(jì)??梢暬O(shè)計(jì)是指運(yùn)用圖表等可視化方法有效表達(dá)和展示數(shù)據(jù)分析觀點(diǎn)和結(jié)論,使分析結(jié)果一目了然。圖表的設(shè)計(jì)包括圖形的選擇、表的內(nèi)容排列、顏色的搭配等。
2 智能商業(yè)分析實(shí)踐課程設(shè)置
針對(duì)數(shù)據(jù)分析師的職位要求,結(jié)合智能科學(xué)技術(shù)專業(yè)現(xiàn)有課程設(shè)置,智能商務(wù)分析實(shí)踐課程可包括如下內(nèi)容:
(1)商務(wù)智能分析基礎(chǔ)。主要介紹相關(guān)基本概念、術(shù)語(yǔ)及商業(yè)背景,介紹各種主要的分析結(jié)果展示手段,包括表格、折線圖、柱狀圖和面積圖等。
(2) SAS基礎(chǔ)。SAS作為一種主要的數(shù)據(jù)分析工具軟件已被各個(gè)行業(yè)廣泛使用。本課程介紹SAS的程序結(jié)構(gòu)、主要語(yǔ)法、數(shù)據(jù)集的操作以及重要的分析方法,爭(zhēng)取使學(xué)生通過(guò)SAS的基礎(chǔ)認(rèn)證。
(3)商業(yè)數(shù)據(jù)差異性分析及SAS實(shí)現(xiàn)。結(jié)合實(shí)際案例,重點(diǎn)介紹采樣策略、功效分析、差異性分析方法,并給出SAS的程序?qū)崿F(xiàn)。
(4)商業(yè)數(shù)據(jù)預(yù)測(cè)性分析及SAS實(shí)現(xiàn)。結(jié)合實(shí)際案例,主要介紹線性回歸、邏輯回歸以及時(shí)間序列預(yù)測(cè)分析,并給出SAS的程序?qū)崿F(xiàn)。
(5)客戶關(guān)系管理方法。重點(diǎn)介紹客戶關(guān)系管理部分,結(jié)合潛在客戶分析的實(shí)際案例,介紹整個(gè)建模分析過(guò)程。
(6) Hadoop框架。針對(duì)大數(shù)據(jù)的處理分析,介紹Hadoop框架,使學(xué)生初步掌握大數(shù)據(jù)的處理和計(jì)算方法。
3 結(jié)語(yǔ)
隨著大數(shù)據(jù)時(shí)代的到來(lái),企業(yè)對(duì)數(shù)據(jù)分析人員的需求增多,技能要求也進(jìn)一步提高。高校作為知識(shí)和技能人才的高等培養(yǎng)基地,應(yīng)結(jié)合社會(huì)和職場(chǎng)的需求,合理進(jìn)行課程設(shè)置,通過(guò)智能商業(yè)分析實(shí)踐課程的建設(shè),培養(yǎng)具備商業(yè)知識(shí)和數(shù)據(jù)分析能力的復(fù)合型人才。
參考文獻(xiàn):
[1]趙衛(wèi)東,吳冉,楊柳,面向企業(yè)需求的商務(wù)智能課程實(shí)驗(yàn)設(shè)計(jì)[J].計(jì)算機(jī)教育,2013(18): 106-109.
[2]趙衛(wèi)東,吳冉,設(shè)計(jì)思維在商務(wù)智能實(shí)驗(yàn)教學(xué)中的應(yīng)用[J]計(jì)算機(jī)教育,2014(24): 107-110.
篇4
隨著互聯(lián)網(wǎng)科技日益成熟,各種類型的數(shù)據(jù)增長(zhǎng)將會(huì)超越歷史上任何一個(gè)時(shí)期。用戶想要從這龐大的數(shù)據(jù)庫(kù)中提取對(duì)自己有用的信息,就離不開大數(shù)據(jù)分析技術(shù)和工具。中國(guó)有句老話:“工欲善其事,必須利其器!”可見,一個(gè)好的工具不僅可以使我們的工作事半功倍,也可以讓我們?cè)诟?jìng)爭(zhēng)日益激烈的云計(jì)算時(shí)代,充分挖掘大數(shù)據(jù)價(jià)值,并及時(shí)調(diào)整戰(zhàn)略方向。
在本文中,作者整理了中國(guó)境內(nèi)在大數(shù)據(jù)分析領(lǐng)域最具話語(yǔ)權(quán)的企業(yè),它們有的是計(jì)算機(jī)或者互聯(lián)網(wǎng)領(lǐng)域的巨頭,有的則是剛剛創(chuàng)辦不久的初創(chuàng)企業(yè)。但它們有一個(gè)共同點(diǎn),那就是它們都看到了大數(shù)據(jù)分析技術(shù)帶來(lái)的大機(jī)會(huì),于是毫不猶豫地挺進(jìn)了數(shù)據(jù)分析領(lǐng)域。(如表單所示)
通過(guò)表單,可以了解到相應(yīng)廠商備受青睞的大數(shù)據(jù)分析產(chǎn)品。眾所周知,在大數(shù)據(jù)分析領(lǐng)域,當(dāng)家花旦非Hadoop莫屬,Hadoop已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái),IBM、Intel、Microsoft、 Oracle以及EMC都紛紛投入了Hadoop的懷抱。對(duì)于大數(shù)據(jù)來(lái)說(shuō),最重要的還是對(duì)于數(shù)據(jù)的分析,從里面尋找有價(jià)值的數(shù)據(jù)幫助企業(yè)作出更好的商業(yè)決策。Hadoop和MapReduce等開源工具則使企業(yè)能夠以一種全新的方式來(lái)管理和跟蹤大數(shù)據(jù)。對(duì)于中小企業(yè)而言,鑒于IT預(yù)算的考慮,大多都是從開源的大數(shù)據(jù)分析工具著手,此時(shí)Hadoop就是首選。
當(dāng)前,大數(shù)據(jù)分析主要集中在商業(yè)智能、預(yù)測(cè)分析、數(shù)據(jù)挖掘和統(tǒng)計(jì)分析等方面。據(jù)Bain and Company報(bào)告顯示,那些使用大數(shù)據(jù)分析的公司的領(lǐng)導(dǎo)者們要遠(yuǎn)遠(yuǎn)比不使用大數(shù)據(jù)的公司領(lǐng)導(dǎo)者有優(yōu)勢(shì),他們能夠比普通領(lǐng)導(dǎo)者快出五倍的速度進(jìn)行決策,并且這些決策往往都是正確的。
隨著IT和互聯(lián)網(wǎng)巨頭們不斷攻破大數(shù)據(jù)分析領(lǐng)域的各種難題,投放到市場(chǎng)的產(chǎn)品種類越來(lái)越繁多,那么企業(yè)要如何選擇更適合自己的分析產(chǎn)品呢?以下是筆者總結(jié)的選型方案:首先要求企業(yè)像剝洋蔥一樣層層剝開,依靠他們有良好關(guān)系的供應(yīng)商,要求查看他們大數(shù)據(jù)分析平臺(tái)的演示;其次推薦企業(yè)也要學(xué)習(xí)研究業(yè)界其它廠商的案例使用情況;還有企業(yè)也應(yīng)依靠?jī)?nèi)部的 IT 部門及更有技術(shù)悟性的員工,來(lái)幫助做一些甄選;但最重要的是企業(yè)應(yīng)該清楚什么是真正的需求,供應(yīng)商的產(chǎn)品如何能滿足這些需求,畢竟理解業(yè)務(wù)需求比擁有出色的技術(shù)更重要。
隨著企業(yè)開始利用大數(shù)據(jù),我們每天都會(huì)看到大數(shù)據(jù)新的奇妙的應(yīng)用,幫助人們真正從中獲益。大數(shù)據(jù)的應(yīng)用已廣泛深入我們生活的方方面面,涵蓋醫(yī)療、交通、金融、教育、體育、零售等各行各業(yè)。因此,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。當(dāng)下,我國(guó)大數(shù)據(jù)技術(shù)仍處于起步階段,進(jìn)一步地開發(fā)以完善大數(shù)據(jù)分析技術(shù)仍舊是大數(shù)據(jù)領(lǐng)域的熱點(diǎn)。
中國(guó)大數(shù)據(jù)分析廠商TOP50排行榜
分項(xiàng)得分(10)
排名 廠商 綜合評(píng)分(10) 創(chuàng)新能力 服務(wù)能力 解決方案 市場(chǎng)影響力
(35%) (20%) (30%) (15%)
1 IBM 9.1 10 8.5 8.5 9
2 Oracle 8.7 9 8 8.5 9
3 Google 8.6 9 8 8.5 8.5
4 Amazon 8.5 9 8 8.5 8
5 HP 8.4 8.5 8.5 8.5 8
6 SAP 8.2 9 8 7.5 8
7 Intel 8.1 9 8 7.5 7.5
8 Teradata 8.0 8.5 8 7.5 8
9 Microsoft 7.9 8 7.5 8 8
10 阿里 7.7 8.5 7 7 8
11 EMC 7.6 8.5 7.5 7.5 6
12 百度 7.5 8.5 5.5 7.5 7.5
13 Cloudera 7.4 7.5 8 7.5 6
14 雅虎 7.2 8.5 7 6 7
15 Splunk 7.1 8.5 7.5 6 5.5
16 騰訊 7.0 7 6 7 8
17 Dell 6.6 7 6.5 7 5
18 Opera Solutions 6.3 7 5.5 6.5 5
19 Mu Sigma 6.2 7 5 6 6
20 Fusion-io 6.1 7 5.5 5.5 6
21 1010data 6.0 6.5 6 5 6.5
22 SAS 5.9 7 4.5 5.5 6
23 Twitter 5.8 5 6 6 7
24 LinkedIn 5.7 6 4.5 6.5 5
25 華為 5.6 5 5.5 6 6
26 淘寶 5.5 6.5 4 6.5 3
27 用友 5.4 6 4.5 5.5 5
28 曙光 5.3 6 4.5 5.5 4
29 東軟 5.2 6 5.5 4.5 4
30 MapR 5.1 5.5 6 4.5 4
31 金蝶 5.0 5.5 5 4 5.5
32 Alpine 4.9 5.5 5 4.5 4
33 高德 4.8 5.5 6 3 5
34 Fujitsu 4.7 5 5.5 4 4.5
35 華院數(shù)云 4.6 5 5 4 4.5
36 博康智能 4.5 5 4 4.5 4
37 九次方金融數(shù)據(jù) 4.4 4.5 5 4 4
38 永洪科技 4.3 4 5.5 4 4
39 集奧聚合 4.2 4 4 4 5
40 國(guó)雙科技 4.1 4 3.5 4.5 4
41 百分點(diǎn) 4.0 3.5 5 4 3.5
42 榮科 3.9 3 5 4 3.5
43 博雅立方 3.8 3.5 4 4 4
44 億贊普 3.7 3 3.5 4.5 4
45 InsideSales 3.7 3 4 4 4
46 眾志和達(dá) 3.6 4 4 3 3.5
47 穎源科技 3.5 3 4 4 3
48 星環(huán)科技 3.4 3 3.5 4 3
49 拓爾思 3.3 3.5 3 3.5 3
50 國(guó)云數(shù)據(jù) 3.2 3 3 3.5 3.5
代表產(chǎn)品
InfoSphere BigInsights
Oracle Big Data Appliance
BigQuery
Kinesis
Vertica
HANA
Hadoop發(fā)行版
AsterData
SQL Server
采云間
GreenPlum
百度統(tǒng)計(jì)
Cloudera Apache Hadoop
Genome
Splunk Analytics for Hadoop
騰訊云分析
Big Data Retention
Opera Solutions
Mu Sigma大數(shù)據(jù)分析
Fusion ioMemory平臺(tái)
1010data大數(shù)據(jù)分析平臺(tái)
SAS Visual Analytics
Storm
LinkedIn數(shù)據(jù)分析模型
FusionInsight
知數(shù)寶
UAP平臺(tái)
曙光XData大數(shù)據(jù)一體機(jī)
東軟經(jīng)營(yíng)分析系統(tǒng)
Drill
金蝶KBI
Alpine Miner
高德地圖
Fujitsu M10
Hadoop+Postgresql架構(gòu)
博康智云大數(shù)據(jù)一體機(jī)
九次方大數(shù)據(jù)分析平臺(tái)
Yonghong Data Mart
DataQuate
Web Dissector
百分點(diǎn)數(shù)據(jù)管家
醫(yī)療大數(shù)據(jù)分析平臺(tái)
cubesearch平臺(tái)
億贊普大數(shù)據(jù)分析平臺(tái)
InsideSales大數(shù)據(jù)平臺(tái)
SureSave BDP1000
股市情緒分析軟件
Transwarp Data Hub
篇5
言歸正傳,你弄明白大數(shù)據(jù)分析要分析什么數(shù)據(jù)了嗎?(弄明白的高手可以直接飄過(guò);沒(méi)弄明白的,看下面的內(nèi)容能不能漲姿勢(shì))
我們先來(lái)簡(jiǎn)單聊幾句有關(guān)大數(shù)據(jù)分析工具的背景。無(wú)需置疑,現(xiàn)在大數(shù)據(jù)平臺(tái)和大數(shù)據(jù)分析工具日益普及,作用是可以幫助企業(yè)收集和分析數(shù)據(jù),好處是可以尋找有價(jià)值的商業(yè)信息和洞察,以改進(jìn)產(chǎn)品與服務(wù)。大數(shù)據(jù)分析工具用于分析數(shù)據(jù),可以開發(fā)預(yù)測(cè)模型(predictive model)和規(guī)范模型(prescriptive model)。在現(xiàn)代化的業(yè)務(wù)流程應(yīng)用中,嵌入這些模型能夠提高企業(yè)的生產(chǎn)力和價(jià)值。同時(shí),使用大數(shù)據(jù)分析工具可以輕松進(jìn)行擴(kuò)展,獲取通常在大數(shù)據(jù)平臺(tái)才有的可用資源。
其實(shí),大數(shù)據(jù)分析工具經(jīng)常提供的技術(shù),一般而言,都不算什么新鮮事物。只是到最近這幾年,數(shù)據(jù)挖掘算法的強(qiáng)大功能才被主流商業(yè)用戶采用,它可以結(jié)合海量數(shù)據(jù)、多種數(shù)據(jù)類型和不同的數(shù)據(jù)結(jié)構(gòu),對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè)性分析(predictive analyses)和規(guī)范性分析(prescriptive analyses)。
但在用戶看來(lái),大數(shù)據(jù)分析仍然是一種新興的企業(yè)級(jí)功能,要像靠它達(dá)到預(yù)期收益,一定存在風(fēng)險(xiǎn),還要投入很大的時(shí)間成本。所以,在決定投身之前,一定要弄清楚怎樣判斷什么樣的大數(shù)據(jù)分析適合你的企業(yè)?
有一個(gè)概念可以很清楚地區(qū)分大數(shù)據(jù)分析和其他形式的分析:要分析的數(shù)據(jù)有多大的數(shù)據(jù)量、數(shù)據(jù)規(guī)模如何和數(shù)據(jù)是否呈多樣性。在過(guò)去,通常是從非常大的數(shù)據(jù)庫(kù)中提取樣本數(shù)據(jù)集,建立分析模型,然后通過(guò)測(cè)試再調(diào)整的過(guò)程加以改進(jìn)。而現(xiàn)在,隨著計(jì)算平臺(tái)能夠提供可擴(kuò)展的存儲(chǔ)和計(jì)算能力,可分析的數(shù)據(jù)量幾乎不再受任何限制。這意味著,實(shí)時(shí)預(yù)測(cè)性分析和訪問(wèn)大量正確的數(shù)據(jù)可以幫助企業(yè)改善業(yè)績(jī)。這樣的機(jī)會(huì)取決于企業(yè)能否整合和分析不同類型大數(shù)據(jù)。以下四大類數(shù)據(jù)就是大數(shù)據(jù)要分析的數(shù)據(jù)類型:
交易數(shù)據(jù)(Transaction data)
大數(shù)據(jù)平臺(tái)能夠獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對(duì)更廣泛的交易數(shù)據(jù)類型進(jìn)行分析,不僅僅包括POS或電子商務(wù)購(gòu)物數(shù)據(jù),還包括行為交易數(shù)據(jù),例如Web服務(wù)器記錄的互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)日志。
人為數(shù)據(jù)(Human-generated data)
非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過(guò)博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進(jìn)行分析提供了豐富的數(shù)據(jù)源泉。
移動(dòng)數(shù)據(jù)(Mobile data)
能夠上網(wǎng)的智能手機(jī)和平板越來(lái)越普遍。這些移動(dòng)設(shè)備上的App都能夠追蹤和溝通無(wú)數(shù)事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個(gè)人信息資料或狀態(tài)報(bào)告事件(如地點(diǎn)變更即報(bào)告一個(gè)新的地理編碼)。
篇6
【關(guān)鍵詞】移動(dòng)通信;大數(shù)據(jù);特點(diǎn);發(fā)展展望
大數(shù)據(jù)在生活和工作中無(wú)處不在,分析大數(shù)據(jù)要從其特點(diǎn)入手。云計(jì)算這是一時(shí)期的核心技術(shù)之一,通過(guò)云計(jì)算,人們了解經(jīng)濟(jì)發(fā)展的整體趨勢(shì),幫助企業(yè)決策,促進(jìn)企業(yè)發(fā)展。
1大數(shù)據(jù)技術(shù)的技術(shù)特點(diǎn)
大數(shù)據(jù)具有自身的特點(diǎn)。①開源軟件發(fā)展迅速,基于分布式處理的開源項(xiàng)目實(shí)現(xiàn)了數(shù)據(jù)分析的可視化,相關(guān)軟件大量開發(fā),對(duì)大數(shù)據(jù)時(shí)代的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。目前常用的開源軟件如Hadoop、MongoDB、HBase和CouchDB。②企業(yè)發(fā)展不斷的智能化,人工智能技術(shù)快速融入。對(duì)海量的數(shù)據(jù)采用傳統(tǒng)方式處理顯然是不可行的,智能化處理技術(shù)應(yīng)用而生。該技術(shù)可以幫助分析者發(fā)展數(shù)據(jù)內(nèi)部規(guī)律,人工智能對(duì)未來(lái)經(jīng)濟(jì)、政治發(fā)展趨勢(shì)做出正確的預(yù)測(cè)。并且知識(shí)數(shù)據(jù)挖掘、模擬發(fā)覺和自然語(yǔ)言分析等功能。③對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理成為主流,基于此而出現(xiàn)的分布式處理構(gòu)建被廣泛應(yīng)用。異構(gòu)數(shù)據(jù)通過(guò)文檔、圖案等方式上傳,并且采用非結(jié)構(gòu)化處理方式,拓展了存儲(chǔ)空間,實(shí)現(xiàn)了并行處理。云計(jì)算復(fù)雜,需要對(duì)各種形式、各個(gè)環(huán)節(jié)的數(shù)據(jù)進(jìn)行分析?;诖说姆墙Y(jié)構(gòu)化采集技術(shù)、分布式編程環(huán)境技術(shù)和NoSQL數(shù)據(jù)庫(kù)技術(shù)快速發(fā)展。
2大數(shù)據(jù)技術(shù)發(fā)展展望
大數(shù)據(jù)衍生了不同類型的企業(yè),目前這類企業(yè)基本可以分成三個(gè)類別。即技術(shù)型、數(shù)據(jù)型和創(chuàng)新型。三種類別的數(shù)據(jù)結(jié)合形成了一種數(shù)據(jù)分析生態(tài)系統(tǒng),對(duì)海量數(shù)據(jù)進(jìn)行分析。技術(shù)性是基礎(chǔ),多是以計(jì)算機(jī)軟件公司為主,IT企業(yè)負(fù)責(zé)數(shù)據(jù)的基本分析工作,應(yīng)用于軟件開發(fā)和利用。數(shù)據(jù)型是大數(shù)據(jù)時(shí)代衍生的一種特殊的分析形勢(shì),他們主要負(fù)責(zé)的收集和分析,為企業(yè)發(fā)展提供策略,他與創(chuàng)新型分析具有相似之處,都是對(duì)大數(shù)據(jù)分析的突破,對(duì)企業(yè)發(fā)展具有積極意義。目前,創(chuàng)新型數(shù)據(jù)分析和數(shù)據(jù)性數(shù)據(jù)分析企業(yè)共同作用于多個(gè)領(lǐng)域,如網(wǎng)絡(luò)購(gòu)物、連鎖超市、金融和政府發(fā)展中。由此而產(chǎn)生的大數(shù)據(jù)分析工具大量出現(xiàn),大數(shù)據(jù)產(chǎn)生于事物的各個(gè)環(huán)節(jié)中,因此對(duì)大數(shù)據(jù)的分析要具有統(tǒng)籌能力和創(chuàng)新能力,既要抓住有效數(shù)據(jù),又要做到全面性,通過(guò)信息的收集、處理來(lái)提供創(chuàng)新熱點(diǎn)。
2.1數(shù)據(jù)分析將成為大數(shù)據(jù)技術(shù)核心
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值被隱藏的更深,要了解經(jīng)濟(jì)形態(tài)發(fā)展,事物的內(nèi)在關(guān)系都需要對(duì)海量的數(shù)據(jù)進(jìn)行分析。因此這一時(shí)期,數(shù)據(jù)分析將成為主要任務(wù),甚至可以發(fā)展成為一個(gè)產(chǎn)業(yè)。大數(shù)據(jù)的價(jià)值體現(xiàn)在各個(gè)方面,大數(shù)據(jù)的分析方法不斷的豐富。數(shù)據(jù)采集、存儲(chǔ)和處理成為核心步驟。數(shù)據(jù)分析可以采用智能化的方法,并獲得智能化的結(jié)果,應(yīng)用于各個(gè)領(lǐng)域。
2.2實(shí)時(shí)性的數(shù)據(jù)增多
大數(shù)據(jù)時(shí)代,信息具有實(shí)時(shí)性。需要關(guān)注者及時(shí)處理,才能帶來(lái)經(jīng)濟(jì)效益和社會(huì)效益。如金融服務(wù)就是大數(shù)據(jù)時(shí)代衍生的一種新的職業(yè),這里的金融服務(wù)是指以原油服務(wù)為代表的新的金融服務(wù)。大數(shù)據(jù)時(shí)代,信息的傳統(tǒng)處理方法具有明顯的滯后性,批量化處理方式廣受歡迎。信息處理不再以天、小時(shí)為單位,而具有明顯的實(shí)時(shí)性。數(shù)據(jù)大量的出現(xiàn)并快速的變化,因此處理過(guò)程要判斷其有效性,并且對(duì)于一些處理實(shí)施處理后無(wú)需進(jìn)行存儲(chǔ)。總之,未來(lái)幾年內(nèi),實(shí)時(shí)性數(shù)據(jù)將增多,基于此的實(shí)時(shí)數(shù)據(jù)處理技術(shù),如流處理、內(nèi)存計(jì)算等技術(shù)將大量出現(xiàn)并廣泛被采用。
2.3云計(jì)算平臺(tái)將進(jìn)一步完善
云計(jì)算將成為大數(shù)據(jù)時(shí)期的一種重要數(shù)據(jù)分析和計(jì)算方法,它以云計(jì)算平臺(tái)為基礎(chǔ),對(duì)數(shù)據(jù)進(jìn)行宏觀的整理和細(xì)節(jié)的分析計(jì)算。云計(jì)算是一項(xiàng)綜合性技術(shù),可以提供彈性的計(jì)算方法、分布式的計(jì)算方法,并且云計(jì)算資源龐大,能夠?qū)Ξ悩?gòu)數(shù)據(jù)進(jìn)行全面的分析。同時(shí),云計(jì)算可以很好的處理即時(shí)數(shù)據(jù)。云計(jì)算在計(jì)算機(jī)領(lǐng)域的發(fā)展已經(jīng)日漸成熟,相信隨著科技的發(fā)展,云計(jì)算將應(yīng)用于更多的平臺(tái),并且其技術(shù)將進(jìn)一步革新。
2.4開源軟件成為推動(dòng)大數(shù)據(jù)技術(shù)發(fā)展新動(dòng)力
開源軟件是大數(shù)據(jù)時(shí)期的特殊產(chǎn)物,所謂開源軟件就是集開發(fā)、手機(jī)、計(jì)算和服務(wù)為一體的數(shù)據(jù)分析軟件。目前,Hadoop開源軟件的應(yīng)用廣泛,成為大數(shù)據(jù)處理的通用架構(gòu)??萍嫉陌l(fā)展和企業(yè)需求結(jié)合,使得開源Hadoop逐漸商業(yè)化,這一軟件帶來(lái)的效益有目共睹,但是該技術(shù)尚處于發(fā)展之中,依然具有廣闊的發(fā)展空間,需要設(shè)計(jì)人員基于大數(shù)據(jù)的特征,不斷的研究和探討。
3總結(jié)
移動(dòng)通信業(yè)的發(fā)展迅速,并且為民眾帶來(lái)了極大的方便。隨著我國(guó)計(jì)算機(jī)技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。大數(shù)據(jù)時(shí)代改變了以往的數(shù)據(jù)分析模式,這一時(shí)期的數(shù)據(jù)也具有海量化、多樣化特征?;诖髷?shù)據(jù)的云計(jì)算等先進(jìn)的分析方式出現(xiàn)并快速被應(yīng)用。對(duì)于移動(dòng)通信行業(yè)而言,要認(rèn)清形勢(shì),并且明確移動(dòng)通信業(yè)發(fā)展方向,充分利用大數(shù)據(jù)的優(yōu)勢(shì)。
參考文獻(xiàn)
[1]于艷華.大數(shù)據(jù)分析的技術(shù)特點(diǎn)[J].中興通訊技術(shù),2013(1).
篇7
關(guān)鍵詞: 智能數(shù)據(jù)平臺(tái) 產(chǎn)學(xué)研 整合思路
一、社會(huì)治理智能數(shù)據(jù)平臺(tái)的構(gòu)建思路
隨著信息化時(shí)代的到來(lái),人們對(duì)大數(shù)據(jù)的研究開始日漸加深。研究者開始越來(lái)越多地強(qiáng)調(diào)對(duì)大數(shù)據(jù)的深層次挖掘,其中這種挖掘使得研究者能有越來(lái)越多探討和發(fā)現(xiàn)原來(lái)所不存在的事物之間的相關(guān)關(guān)系。可以說(shuō),大數(shù)據(jù)的出現(xiàn),是“長(zhǎng)尾理論”和“黑天鵝”理論的雙重驗(yàn)證――原本被統(tǒng)計(jì)學(xué)剔除在外的小概率事件納入其中。但是,值得深思的是,目前對(duì)大數(shù)據(jù)的研究仍然過(guò)多地集中在理論層面,缺乏實(shí)踐性的探討,更缺乏深層次的具有統(tǒng)籌規(guī)劃方案能力的全方位的探測(cè)。因此,在高校研究和社會(huì)治理層面,這種非計(jì)算機(jī)科學(xué)的社會(huì)應(yīng)用,如果能夠行之有效地將大數(shù)據(jù)概念引入實(shí)踐化,就成了擺在社會(huì)科學(xué)研究者眼前的重中之重。特別是構(gòu)建一套完整智能數(shù)據(jù)平臺(tái),幫助社會(huì)科學(xué)研究者在數(shù)據(jù)收集、數(shù)據(jù)分析和同用戶反饋交流中起到平臺(tái)作用,進(jìn)而實(shí)現(xiàn)生產(chǎn)、教學(xué)和科研三位一體的布局戰(zhàn)略。
智能數(shù)據(jù)平臺(tái)所實(shí)現(xiàn)的這三個(gè)功能既是獨(dú)立的又是相輔相成的。說(shuō)這三者是獨(dú)立的,原因在于這三個(gè)功能個(gè)各司其職地完成了相對(duì)較為獨(dú)立的任務(wù)。其中,智能數(shù)據(jù)平臺(tái)的生產(chǎn)功能為用戶滿足商業(yè)、政府、NGO等社會(huì)組織數(shù)據(jù)收集、數(shù)據(jù)分析及滿足市民在各種生活情境中對(duì)信息的精確獲取功能。智能數(shù)據(jù)平臺(tái)的教學(xué)功能為以學(xué)生為主體,深入細(xì)致地挖掘智能數(shù)據(jù)平臺(tái)中生活情境中可能存在的需求。而科研功能則在通過(guò)完成軟件的生產(chǎn)和教學(xué)功能的同時(shí),進(jìn)一步拓展了軟件的價(jià)值。其中,科研的方向可以有二:第一,科研人員可以根據(jù)特定情境下智能數(shù)據(jù)平臺(tái)收集到的數(shù)據(jù)進(jìn)行深入加工和挖掘,在獲得深層次變量關(guān)系的同時(shí),完成滿足社會(huì)需求的科研論文和項(xiàng)目。此外,圍繞智能數(shù)據(jù)平臺(tái)的功能拓展,也是一項(xiàng)重要的科研功能。三者雖然擁有各自的功能,但是在另外一個(gè)層面三者之間也存在不可分離的關(guān)聯(lián)。其中生產(chǎn)功能以需求為導(dǎo)向?yàn)橹悄芷脚_(tái)的建設(shè)提出了方向,這種方向性的指引保證教學(xué)過(guò)程中能以社會(huì)情景、社會(huì)組織和社會(huì)人的需求為方向進(jìn)行知識(shí)傳授。這種以生產(chǎn)為導(dǎo)向的知識(shí)傳授正是現(xiàn)代應(yīng)用型技術(shù)人才培養(yǎng)的需要。最后,在教學(xué)中,由于學(xué)生教師以智能數(shù)據(jù)平臺(tái)為工具的社會(huì)需求解決方案設(shè)計(jì),能夠進(jìn)一步保證教師的科研有明確的方向性和應(yīng)用性。這種應(yīng)用型將會(huì)進(jìn)一步影響智能數(shù)據(jù)分析平臺(tái)的生產(chǎn)和教師的教學(xué)。可以說(shuō)智能平臺(tái)的構(gòu)建是能夠真正地從滿足社會(huì)需求方面出發(fā)培養(yǎng)應(yīng)用應(yīng)用技能性人才,提高教師科研能力較好的解決方案。
二、圍繞智能數(shù)據(jù)平臺(tái)建設(shè)的產(chǎn)學(xué)研示例探討
圍繞智能數(shù)據(jù)平臺(tái)出發(fā)制訂產(chǎn)學(xué)研三位一體的發(fā)展方案不僅能夠有效地拓展應(yīng)用型技術(shù)人才培養(yǎng)的思路,而且能夠提高實(shí)際教學(xué)質(zhì)量,使得教師從原本簡(jiǎn)單的知識(shí)講解轉(zhuǎn)換到和學(xué)生一起尋找具體社會(huì)問(wèn)題的解決方案。例如,在傳統(tǒng)的社會(huì)工作類專業(yè)中,一般都會(huì)部署發(fā)展社會(huì)學(xué)、西方社會(huì)學(xué)、社會(huì)組織管理、社會(huì)調(diào)查研究方法和數(shù)據(jù)分析技術(shù)這5門課程。按照傳統(tǒng)意義的劃分來(lái)看,這5門課程分別對(duì)應(yīng)了社會(huì)理論和研究方法的課程。從傳統(tǒng)課程的講解體系上來(lái)看,這5門課程都是自成一體的,依照教學(xué)大綱對(duì)應(yīng)著不同的細(xì)致知識(shí)點(diǎn)。但是從構(gòu)建智能數(shù)據(jù)平臺(tái)建設(shè)為核心的產(chǎn)學(xué)研研究中,這5門課程便可以有效整合成為一個(gè)整體。特別是在以社會(huì)情景需求為專題突破口的前提下,這5門課程更是成為統(tǒng)一專題服務(wù)的工具,它們以不同的視角指向了同一目標(biāo)。例如,以“如何了解市民的心理健康程度,保障社會(huì)安全”的社會(huì)需求為例,教師可以在西方社會(huì)學(xué)和發(fā)展社會(huì)學(xué)這兩門課程中向?qū)W生引出該主題,同時(shí)要求運(yùn)用這兩門課程的知識(shí),明確能夠解決需求的社會(huì)理論。學(xué)生在理論的確定過(guò)程中,通過(guò)與教師和其他同學(xué)的討論明確了理論的本質(zhì)和解決問(wèn)題的思路,此后將依據(jù)理論界定出關(guān)鍵概念和研究主題與研究假設(shè)。在社會(huì)組織管理課程中,學(xué)生將依據(jù)研究主題和假設(shè),明確社會(huì)需求可能解決的突破點(diǎn)――選擇和那些具體的社會(huì)組織進(jìn)行合作與探討,從數(shù)據(jù)收集和分析的角度科學(xué)化地提出一整套解決方案。在未來(lái)的社會(huì)調(diào)查研究方法和數(shù)據(jù)分析技術(shù)中,研究者將可以通過(guò)已確定研究主題、假設(shè)和社會(huì)組織的具體情況進(jìn)行概念操作化和問(wèn)卷設(shè)計(jì),并將問(wèn)卷、測(cè)量或其他形式的數(shù)據(jù)收集方式置入智能數(shù)據(jù)平臺(tái)中。在數(shù)據(jù)分析技術(shù)課程中,學(xué)生將按照已經(jīng)設(shè)定好的研究方案運(yùn)用智能數(shù)據(jù)分析平臺(tái)對(duì)分析數(shù)據(jù)并輸出報(bào)告。最終,這些報(bào)告和數(shù)據(jù)結(jié)果將有針對(duì)性地提交給對(duì)應(yīng)的社會(huì)管理組織,在實(shí)踐中評(píng)估其對(duì)社會(huì)需求的解決程度。
參考文獻(xiàn):
[1]陳陽(yáng),張梅.大數(shù)據(jù)基礎(chǔ)上抽樣調(diào)查在社會(huì)治理中的應(yīng)用探討[J].理論界,2015,11:151-155.
[2]陳陽(yáng),魏玉東.大數(shù)據(jù)影響下的政府社會(huì)經(jīng)濟(jì)調(diào)查動(dòng)向探尋[J].遼寧經(jīng)濟(jì),2015,01:76-77.
篇8
關(guān)鍵詞:大數(shù)據(jù)分析方法;企業(yè)檔案管理;檔案數(shù)據(jù)資源;企業(yè)創(chuàng)新決策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我國(guó)政府了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,旨在促進(jìn)大數(shù)據(jù)和云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的融合,探索大數(shù)據(jù)和傳統(tǒng)產(chǎn)業(yè)發(fā)展新模式,推動(dòng)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和新興產(chǎn)業(yè)發(fā)展。正如大數(shù)據(jù)專家舍恩伯格所說(shuō):大數(shù)據(jù)正在改變?nèi)藗兊纳詈腿藗兝斫馐澜绲姆绞?,更多的變化正蓄?shì)待發(fā),大數(shù)據(jù)管理分析思維和方法也開始影響到我們企業(yè)檔案管理的發(fā)展趨勢(shì)。
1 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的背景
1.1 大數(shù)據(jù)研究逐漸縱深化。自從2008年science雜志推出Big Data專刊以來(lái),國(guó)內(nèi)外對(duì)大數(shù)據(jù)的研究如火如荼。經(jīng)過(guò)一段時(shí)間的探索,“目前大數(shù)據(jù)領(lǐng)域的研究大致可以分為4個(gè)方向:大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)工程。而人們對(duì)于大數(shù)據(jù)技術(shù)和應(yīng)用兩個(gè)方面的關(guān)注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動(dòng) “大數(shù)據(jù)研究和發(fā)展計(jì)劃”的目標(biāo)所顯示的那樣,目前大數(shù)據(jù)的研究逐漸向縱深化方向發(fā)展,著重從大型復(fù)雜的數(shù)據(jù)中提取知識(shí)和觀點(diǎn),幫助企業(yè)實(shí)現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢(shì)”的轉(zhuǎn)化。
1.2 企業(yè)創(chuàng)新決策越來(lái)越依賴于數(shù)據(jù)分析。對(duì)于企業(yè)技術(shù)創(chuàng)新者而言,目前更多的企業(yè)高層越來(lái)越依靠基于數(shù)據(jù)分析的企業(yè)技術(shù)創(chuàng)新決策??總鹘y(tǒng)的經(jīng)驗(yàn)方法去決策往往是滯后的,因此,大數(shù)據(jù)分析方法作為先進(jìn)的定量分析方法,目前出現(xiàn)的一些先進(jìn)數(shù)據(jù)分析方法與技術(shù)勢(shì)必會(huì)對(duì)企業(yè)的運(yùn)行管理、生產(chǎn)業(yè)務(wù)流程、管理決策產(chǎn)生飛躍式的影響。大數(shù)據(jù)分析方法也成為企業(yè)檔案數(shù)據(jù)分析、技術(shù)創(chuàng)新決策的有效工具。
1.3 企業(yè)檔案為企業(yè)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)。對(duì)于一個(gè)企業(yè)而言,使用的數(shù)據(jù)資源必須具有真實(shí)性可靠性?!捌髽I(yè)檔案是在企業(yè)的各項(xiàng)活動(dòng)中直接形成并保存?zhèn)洳榈母鞣N文獻(xiàn)載體形式的歷史記錄”[2],企業(yè)檔案是企業(yè)在生產(chǎn)、經(jīng)營(yíng)、管理等活動(dòng)中形成的全部有用數(shù)據(jù)的總和。除了發(fā)揮著憑證參考維護(hù)歷史真實(shí)面貌的作用之外,企業(yè)檔案更“是企業(yè)知識(shí)資產(chǎn)和信息資源的重要組成部分”[3],具有知識(shí)創(chuàng)新性、不可替代性,為企業(yè)技術(shù)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)。“特別是在當(dāng)前大數(shù)據(jù)背景下,企業(yè)檔案數(shù)據(jù)資源的開發(fā)與建設(shè)對(duì)企業(yè)經(jīng)營(yíng)決策的制定與適應(yīng)市場(chǎng)競(jìng)爭(zhēng)環(huán)境起到關(guān)鍵性作用?!盵4]
在上述背景下,將大數(shù)據(jù)分析方法應(yīng)用在企業(yè)檔案管理中具有重要性意義:不僅拓展企業(yè)的管理決策理論,同時(shí)幫助企業(yè)運(yùn)用所擁有的檔案數(shù)據(jù)資源洞察市場(chǎng)環(huán)境,發(fā)現(xiàn)新的競(jìng)爭(zhēng)對(duì)手,進(jìn)行自我總結(jié),做出科學(xué)決策,使企業(yè)緊緊抓住大數(shù)據(jù)時(shí)代帶來(lái)的市場(chǎng)機(jī)遇。
2 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的方式
大數(shù)據(jù)分析方法在企業(yè)檔案管理中的實(shí)現(xiàn)方式即是將大數(shù)據(jù)分析方法運(yùn)用在企業(yè)檔案信息分析挖掘上。它貫穿企業(yè)數(shù)據(jù)處理的整個(gè)過(guò)程,遵循數(shù)據(jù)生命周期,廣泛收集數(shù)據(jù)進(jìn)行存儲(chǔ),并對(duì)數(shù)據(jù)進(jìn)行格式化預(yù)處理,采用數(shù)據(jù)分析模型,依托強(qiáng)大的運(yùn)行分析算法支撐數(shù)據(jù)平臺(tái),發(fā)掘潛在價(jià)值和規(guī)律并進(jìn)行呈現(xiàn)的過(guò)程。常見的大數(shù)據(jù)分析方法“其相關(guān)內(nèi)容包括可視化分析、數(shù)據(jù)挖掘、預(yù)測(cè)分析、語(yǔ)義分析及數(shù)據(jù)質(zhì)量管理”[5]。
2.1 數(shù)據(jù)質(zhì)量管理提升企業(yè)檔案數(shù)據(jù)資源品質(zhì)。大數(shù)據(jù)時(shí)代企業(yè)檔案數(shù)據(jù)資源呈現(xiàn)出4V特點(diǎn),這使得企業(yè)檔案數(shù)據(jù)很容易出現(xiàn)不一致、不精確、不完整、過(guò)時(shí)等數(shù)據(jù)質(zhì)量問(wèn)題。基于數(shù)據(jù)生命周期對(duì)企業(yè)檔案數(shù)據(jù)資源進(jìn)行數(shù)據(jù)質(zhì)量管理分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用三個(gè)階段。在數(shù)據(jù)預(yù)處理階段,通過(guò)ETL工具即數(shù)據(jù)經(jīng)過(guò)萃取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端這幾個(gè)預(yù)處理過(guò)程達(dá)到數(shù)據(jù)清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數(shù)據(jù)存儲(chǔ)與使用階段,針對(duì)目前企業(yè)檔案大數(shù)據(jù)呈現(xiàn)出4V的特點(diǎn),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)管理方面已經(jīng)難以勝任,非關(guān)系型數(shù)據(jù)庫(kù)以其高吞吐量、可拓展性、高并發(fā)讀寫、實(shí)時(shí)性等特性能夠滿足數(shù)據(jù)存儲(chǔ)與管理的要求。目前應(yīng)用最廣的是并行處理系統(tǒng)MapReduce和非關(guān)系型數(shù)據(jù)庫(kù)比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計(jì)算平臺(tái)系統(tǒng),將會(huì)大大有助于完成數(shù)據(jù)清洗、重復(fù)對(duì)象檢測(cè)、缺失數(shù)據(jù)處理、異常數(shù)據(jù)檢測(cè)、邏輯錯(cuò)誤檢測(cè)、不一致數(shù)據(jù)處理等數(shù)據(jù)質(zhì)量處理過(guò)程,從而保證企業(yè)檔案數(shù)據(jù)資源的數(shù)據(jù)質(zhì)量。
2.2 可視化分析提升企業(yè)檔案數(shù)據(jù)資源可理解性。
“大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)分析挖掘方法的同時(shí),利用支持信息可視化的用戶界面以及支持分析過(guò)程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對(duì)于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力?!盵6]那么企業(yè)檔案數(shù)據(jù)資源的可視化分析可以理解為借助可視化工具把企業(yè)檔案數(shù)據(jù)資源轉(zhuǎn)化成直觀、可視、交互形式(如表格、動(dòng)畫、聲音、文本、視頻、圖形等)的過(guò)程,便于企業(yè)經(jīng)營(yíng)者的理解利用。
以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”)為例,該項(xiàng)目讓我們近距離了解到大數(shù)據(jù)可視化。它利用百度后臺(tái)每天數(shù)十億次的LBS定位獲得的數(shù)據(jù)進(jìn)行計(jì)算分析,全程展現(xiàn)中國(guó)人口遷徙軌跡,為政府部門科學(xué)決策提供科學(xué)依據(jù)。受該項(xiàng)目啟發(fā),企業(yè)可將擁有不同類型的檔案信息進(jìn)行可視化,比如進(jìn)行企業(yè)檔案的網(wǎng)絡(luò)數(shù)據(jù)可視化、時(shí)空數(shù)據(jù)可視化、時(shí)間序列數(shù)據(jù)可視化、多維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化等[7]。以文本數(shù)據(jù)可視化為例,目前典型的文本可視化技術(shù)標(biāo)簽云,可以將檔案文本中蘊(yùn)含的主題聚類、邏輯結(jié)構(gòu)、詞頻與重要度、動(dòng)態(tài)演化規(guī)律直觀展示出來(lái),為企業(yè)決策提供依據(jù)。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時(shí)間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數(shù)據(jù)地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術(shù)都為企業(yè)檔案數(shù)據(jù)資源可視化提供了科學(xué)工具。
2.3 語(yǔ)義引擎實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的智能提取。大數(shù)據(jù)時(shí)代全球數(shù)據(jù)存儲(chǔ)量呈激增趨勢(shì),傳統(tǒng)的基于人工分類目錄或關(guān)鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進(jìn)行簡(jiǎn)單的關(guān)鍵詞匹配,用戶無(wú)法得到非常準(zhǔn)確的信息,檢索準(zhǔn)確率并不高,而且檢索結(jié)果相關(guān)度較低,檢索結(jié)果缺乏引導(dǎo)性。為提供給用戶高質(zhì)量的檢索結(jié)果,改善用戶搜索體驗(yàn),提高效率,實(shí)現(xiàn)智能提取,語(yǔ)義搜索引擎應(yīng)運(yùn)而生?!罢Z(yǔ)義引擎是隨著語(yǔ)義網(wǎng)的發(fā)展,采用語(yǔ)義網(wǎng)的語(yǔ)義推理技術(shù)實(shí)現(xiàn)語(yǔ)義搜索的語(yǔ)義搜索引擎。”[8]它具備從語(yǔ)義理解的角度分析檢索者的檢索請(qǐng)求,能夠理解檢索者的真正意圖,實(shí)現(xiàn)信息智能提取。對(duì)語(yǔ)義分析可以采取自然語(yǔ)言處理方法進(jìn)行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語(yǔ)。目前存在基于本體的語(yǔ)義處理技術(shù),它以本體庫(kù)作為語(yǔ)義搜索引擎理解和運(yùn)用語(yǔ)義的基礎(chǔ)。對(duì)于企業(yè)而言,將語(yǔ)義引擎分析方法與協(xié)同過(guò)濾關(guān)聯(lián)規(guī)則相結(jié)合,可以挖掘用戶的需求,提供個(gè)性化的服務(wù)。比如亞馬遜公司通過(guò)對(duì)用戶檢索的語(yǔ)義進(jìn)行分析推理,結(jié)合協(xié)同過(guò)濾關(guān)聯(lián)規(guī)則,為用戶提供相近需求的產(chǎn)品,提升自己的經(jīng)濟(jì)效益。對(duì)于一份人事檔案而言,語(yǔ)義引擎也能分析出該份人事檔案中的某人的職務(wù)、級(jí)別,從中提取出姓名一職務(wù)一級(jí)別一時(shí)間等關(guān)鍵信息,提高檢索準(zhǔn)確率和效率,實(shí)現(xiàn)智能提取。
2.4 數(shù)據(jù)挖掘發(fā)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的隱性價(jià)值?!皵?shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)”[9]。簡(jiǎn)而言之,數(shù)據(jù)挖掘就是企業(yè)從數(shù)據(jù)集中發(fā)現(xiàn)知識(shí)模式,根據(jù)功能一般分為預(yù)測(cè)性模式和描述性模式,細(xì)分主要有分類與回歸模型、聚類分析模型、關(guān)聯(lián)規(guī)則模型、時(shí)間序列模型、偏差檢測(cè)模型等。主要挖掘方法有神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法數(shù)據(jù)庫(kù)方法和統(tǒng)計(jì)方法等。
數(shù)據(jù)挖掘是大數(shù)據(jù)分析方法的核心。對(duì)于企業(yè)而言,數(shù)據(jù)挖掘的檔案數(shù)據(jù)資源應(yīng)該由兩部分組成:一是企業(yè)正常運(yùn)行管理過(guò)程中所形成的檔案數(shù)據(jù)資源,通過(guò)運(yùn)用分類、聚類、關(guān)聯(lián)規(guī)則等方法對(duì)企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)潛在模式,為企業(yè)技術(shù)創(chuàng)新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費(fèi)數(shù)據(jù)時(shí),發(fā)現(xiàn)每次季節(jié)性颶風(fēng)來(lái)臨之前,手電筒和蛋撻的數(shù)量全部增加。根據(jù)這一關(guān)聯(lián)發(fā)現(xiàn),沃爾瑪公司會(huì)在颶風(fēng)用品的旁邊放上蛋撻,提升了企業(yè)的經(jīng)濟(jì)效益;二是企業(yè)在運(yùn)行過(guò)程中遺存在互聯(lián)網(wǎng)上的數(shù)據(jù),通過(guò)網(wǎng)絡(luò)輿情及時(shí)跟蹤可以獲取市場(chǎng)最新動(dòng)態(tài),為企業(yè)調(diào)整服務(wù)模式、市場(chǎng)策略、降低風(fēng)險(xiǎn)提供依據(jù)。比如Farecast公司運(yùn)用數(shù)據(jù)挖掘,從網(wǎng)絡(luò)抓取數(shù)據(jù)來(lái)預(yù)測(cè)機(jī)票價(jià)格以及未來(lái)發(fā)展趨勢(shì),幫助客戶把握最佳購(gòu)買時(shí)機(jī),獲得較大成功。
2.5 趨勢(shì)預(yù)測(cè)分析實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的價(jià)值創(chuàng)造?!邦A(yù)測(cè)分析是利用統(tǒng)計(jì)、建模、數(shù)據(jù)挖掘工具對(duì)已有數(shù)據(jù)進(jìn)行研究以完成預(yù)測(cè)?!盵10]預(yù)測(cè)分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來(lái)人工智能產(chǎn)生的Boos-ting?貝葉斯網(wǎng)絡(luò)法等;定量分析法一般從形成的歷史數(shù)據(jù)中發(fā)掘數(shù)據(jù)模型達(dá)到預(yù)測(cè)效果,如時(shí)間序列分析模型、分類與回歸分析模型等。
企業(yè)檔案數(shù)據(jù)資源預(yù)測(cè)分析是在企業(yè)檔案數(shù)據(jù)資源數(shù)據(jù)挖掘的基礎(chǔ)之上,發(fā)現(xiàn)適合模型,將企業(yè)檔案數(shù)據(jù)輸入該模型使得企業(yè)技術(shù)創(chuàng)新人員達(dá)到預(yù)測(cè)性的判斷效果,實(shí)現(xiàn)價(jià)值的創(chuàng)造。一個(gè)典型的例子即是市場(chǎng)預(yù)測(cè)問(wèn)題,企業(yè)技術(shù)創(chuàng)新者可以根據(jù)檔案數(shù)據(jù)預(yù)測(cè)某件產(chǎn)品在未來(lái)六個(gè)月內(nèi)的銷售趨勢(shì)走向,進(jìn)而進(jìn)行生產(chǎn)、物流、營(yíng)銷等活動(dòng)安排。具體來(lái)講企業(yè)可以通過(guò)數(shù)據(jù)時(shí)間序列分析模型預(yù)測(cè)產(chǎn)品銷售旺季和淡季顧客的需求量,從而制定針對(duì)獨(dú)特的營(yíng)銷策略,減少生產(chǎn)和銷售的波動(dòng)性,獲得利潤(rùn)和競(jìng)爭(zhēng)優(yōu)勢(shì)。預(yù)測(cè)分析在大數(shù)據(jù)時(shí)代彰顯出企業(yè)檔案數(shù)據(jù)資源獨(dú)特的魅力。
3 大數(shù)據(jù)分析方法運(yùn)用于企業(yè)檔案管理中應(yīng)當(dāng)注意的問(wèn)題
3.1 成本問(wèn)題。大數(shù)據(jù)分析需要依靠分析工具和運(yùn)算時(shí)間,特別是在復(fù)雜的企業(yè)檔案數(shù)據(jù)資源中采用相關(guān)大數(shù)據(jù)分析工具的科技成本還是很高的,要以最少運(yùn)算成本獲得更有價(jià)值的數(shù)據(jù)內(nèi)容。合理選擇大數(shù)據(jù)分析工具不光可以節(jié)省運(yùn)算成本而且能夠更快速獲取盈利增長(zhǎng)點(diǎn),同時(shí)在大數(shù)據(jù)分析和企業(yè)檔案數(shù)據(jù)資源的存儲(chǔ)成本方面也要適當(dāng)?shù)目刂圃诤侠淼姆秶鷥?nèi)。既要保證大數(shù)據(jù)分析質(zhì)量,又要降低企業(yè)檔案存儲(chǔ)成本是大數(shù)據(jù)分析方法運(yùn)用到企業(yè)檔案管理中的重要原則。
3.2 時(shí)效問(wèn)題。“大數(shù)據(jù)的動(dòng)態(tài)性強(qiáng),要求分析處理應(yīng)快速響應(yīng),在動(dòng)態(tài)變化的環(huán)境中快速完成分析過(guò)程,有些甚至必須實(shí)時(shí)分析,否則這些結(jié)果可能就是過(guò)時(shí)、無(wú)效的”。[11]由此可見,影響大數(shù)據(jù)分析的重要因素就是時(shí)效性問(wèn)題?!按髷?shù)據(jù)數(shù)據(jù)分析的核心內(nèi)容之一是數(shù)據(jù)建模”,[12]數(shù)據(jù)分析模型要不斷的更新適應(yīng)數(shù)據(jù)的動(dòng)態(tài)變化。如果模型落后于數(shù)據(jù)的變化,那數(shù)據(jù)分析只能是失效的。同時(shí)由于經(jīng)濟(jì)環(huán)境、政治生態(tài)、社會(huì)文化等因素不斷變革,企業(yè)檔案數(shù)據(jù)的收集也會(huì)產(chǎn)生新的問(wèn)題。只有不斷加強(qiáng)對(duì)這些數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)和有效分析,才能更好的識(shí)別出數(shù)據(jù)變化中的細(xì)微之處,建立與之相適應(yīng)的數(shù)據(jù)分析新模型。
3.3 情感問(wèn)題?!按髷?shù)據(jù)的另一個(gè)局限性在于它很難表現(xiàn)和描述用戶的感情。”大數(shù)據(jù)分析方法在處理企業(yè)檔案數(shù)據(jù)方面可以說(shuō)如魚得水,大數(shù)據(jù)分析是一種科學(xué)的機(jī)器運(yùn)算方法,無(wú)法去實(shí)現(xiàn)人文價(jià)值提取,比如如何從企業(yè)檔案數(shù)據(jù)資源中提取企業(yè)文化,這更需要人的情感直覺去實(shí)現(xiàn),而嚴(yán)謹(jǐn)?shù)目茖W(xué)數(shù)據(jù)是無(wú)法實(shí)現(xiàn)的。因此,我們?cè)跓嶂杂诖髷?shù)據(jù)分析方法的量化結(jié)果時(shí),同時(shí)也不要忽略在傳統(tǒng)企業(yè)檔案管理中的那份人文精神。
篇9
【關(guān)鍵詞】電力用戶側(cè);大數(shù)據(jù);分析;并行負(fù)荷預(yù)測(cè)
經(jīng)濟(jì)的迅速發(fā)展和城市化腳步的加快為電力行業(yè)的發(fā)展贏得了良好的發(fā)展機(jī)會(huì)和廣闊的發(fā)展市場(chǎng),隨著人們生活水平和生活質(zhì)量的提高對(duì)電力的需求量有了更多的要求,對(duì)電網(wǎng)建設(shè)的智能化有了更高的要求;近年來(lái)越來(lái)越多的先進(jìn)技術(shù)和系統(tǒng)滲透到電網(wǎng)建設(shè)中,數(shù)據(jù)的復(fù)雜性有了很大程度的提高,傳統(tǒng)的分析和預(yù)測(cè)方法已經(jīng)不能滿足電力發(fā)展的需求了,需要跟隨時(shí)代的步伐不斷的改進(jìn)和完善,在自我探索的同時(shí)借鑒國(guó)外的先進(jìn)技術(shù)和豐富經(jīng)驗(yàn),然后結(jié)合我國(guó)電力用戶的實(shí)際情況進(jìn)一步的改善,更好的對(duì)電力用戶側(cè)大數(shù)據(jù)盡心分析和預(yù)測(cè)。
1 電力用戶側(cè)大數(shù)據(jù)管理存在的問(wèn)題
1.1 大數(shù)據(jù)的整合問(wèn)題
大數(shù)據(jù)的整合困難最主要就是傳感器在智能電網(wǎng)中的使用所帶來(lái)的數(shù)據(jù)模式和口徑的差異。傳感器的使用主要是將電表智能化,在物聯(lián)網(wǎng)技術(shù)不斷發(fā)展大背景下,電表中所產(chǎn)生的數(shù)據(jù)具有很大的差異,尤其是面對(duì)龐大的數(shù)據(jù)差異系也越來(lái)愈大,將這些數(shù)據(jù)進(jìn)行整合,從而進(jìn)行規(guī)范性的表達(dá)也就成為了亟待解決的問(wèn)題。
1.2 大數(shù)據(jù)的可用性問(wèn)題
大數(shù)據(jù)的可用性受到質(zhì)疑最主要的原因就是數(shù)據(jù)的真實(shí)性受到破壞。一方面隨著電力行業(yè)的不斷發(fā)展和進(jìn)步,數(shù)據(jù)采集的方式逐漸趨向多樣化,采集的通道也逐漸豐富,但是各個(gè)通信信道的質(zhì)量存在一定的差異,那么接受的數(shù)據(jù)也會(huì)存在質(zhì)量不一的情況,如果質(zhì)量低劣的數(shù)據(jù)用到分析和預(yù)測(cè)中,那么電力信息的真實(shí)性將會(huì)受到很大的影響;另一方面是對(duì)數(shù)據(jù)的管理控制不嚴(yán)密,在數(shù)據(jù)分析的過(guò)程中很多低劣的數(shù)據(jù)展主導(dǎo)地位,那么相應(yīng)的信息決策也就缺乏合理性和科學(xué)性,對(duì)整個(gè)電力行業(yè)的發(fā)展造成了嚴(yán)重影響。
1.3 大數(shù)據(jù)儲(chǔ)存問(wèn)題
大數(shù)據(jù)的儲(chǔ)存問(wèn)題主要是大數(shù)據(jù)與儲(chǔ)存格式之間的矛盾。隨著智能電網(wǎng)中傳感器以及通信網(wǎng)絡(luò)技術(shù)的應(yīng)用,電力用戶側(cè)大數(shù)據(jù)的復(fù)雜性有了很大程度的增加,尤其是換電站、充電樁設(shè)備的增加產(chǎn)生了龐大的數(shù)據(jù)量,對(duì)這些數(shù)據(jù)儲(chǔ)存的格式也提出了更高的要求,但是目前很多電力系統(tǒng)中仍然采用的是傳統(tǒng)儲(chǔ)存格式和數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)和儲(chǔ)存格式的落后已經(jīng)不能滿足大數(shù)據(jù)儲(chǔ)存的要求了,從而引發(fā)了大數(shù)據(jù)的儲(chǔ)存問(wèn)題。
1.4 大數(shù)據(jù)分析技術(shù)問(wèn)題
大數(shù)據(jù)分析技術(shù)處于落后的狀態(tài),電力用戶側(cè)逐漸趨向大數(shù)據(jù)的情況,但是在這些數(shù)據(jù)的分析上仍然是以往的普通數(shù)據(jù)分析,無(wú)法滿足大數(shù)據(jù)的實(shí)際需求,如果采用傳統(tǒng)的分析技術(shù),電力信息的全面性和真實(shí)性都會(huì)受到一定的影響。
2 電力用戶側(cè)大數(shù)據(jù)分析
2.1 大數(shù)據(jù)分析平臺(tái)
大數(shù)據(jù)分析平臺(tái)的基本構(gòu)架主要包括應(yīng)用層、私有云計(jì)算層以及數(shù)據(jù)管理層三個(gè)部分。應(yīng)用層主要包含了決策系統(tǒng)、報(bào)表系統(tǒng)、營(yíng)銷系統(tǒng)以及負(fù)荷預(yù)測(cè)等多方面的內(nèi)容;私有云計(jì)算主要是進(jìn)行并行化計(jì)算和內(nèi)存并行化計(jì)算,包含包含了數(shù)據(jù)倉(cāng)庫(kù)、存儲(chǔ)數(shù)據(jù)庫(kù)等內(nèi)容;管理層主要是與與計(jì)算技術(shù)進(jìn)行有效的結(jié)合,利用先進(jìn)的系統(tǒng)建立數(shù)據(jù)管理平臺(tái),例如Hadoop平臺(tái)的搭建可以采用HDFS、HBase 與 Hive三者的結(jié)合建立數(shù)據(jù)存儲(chǔ)系統(tǒng),從而更好的進(jìn)行并行化計(jì)算分析,保證電力用戶側(cè)大數(shù)據(jù)分析的有效性。
2.2 數(shù)據(jù)管理層
數(shù)據(jù)管理層最主要的任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行采集和整合,主要包括智能電表、SCADA系統(tǒng)以及各種傳感器中進(jìn)行數(shù)據(jù)的采集,上述提到這些數(shù)據(jù)具有一定的復(fù)雜性,整合具有一定的難度,需要利用更為先進(jìn)的技術(shù)進(jìn)行處理。例如數(shù)據(jù)分析平臺(tái)采用了sqoop工具對(duì)這些復(fù)雜的數(shù)據(jù)進(jìn)行抽離整合工作,作為的抽離整合就是將各個(gè)獨(dú)立所產(chǎn)生的數(shù)據(jù)利用sqoop這一開源工具導(dǎo)入到Hive與 HBase 中,也就是數(shù)據(jù)傳遞,然后對(duì)列存儲(chǔ)數(shù)據(jù)庫(kù)進(jìn)行有效的操作。具體情況見圖1:
圖1
2.3 私有云計(jì)算層和應(yīng)用層
私有云計(jì)算主要是對(duì)大數(shù)據(jù)進(jìn)行儲(chǔ)存和計(jì)算分析,應(yīng)用層主要是利用云計(jì)算的儲(chǔ)存和分析能力為企業(yè)各部門的提供良好的決策和指導(dǎo)。上述提到大數(shù)據(jù)的儲(chǔ)存問(wèn)題主要是儲(chǔ)存數(shù)據(jù)庫(kù)和儲(chǔ)存格式處于落后的情況,私有云計(jì)算可以利用Hadoop工具將大數(shù)據(jù)儲(chǔ)存到分布式文件系統(tǒng) HDFS 中,并且利用先進(jìn)的工具和系統(tǒng)對(duì)儲(chǔ)存的數(shù)據(jù)進(jìn)行嚴(yán)格的管理,在很大程度上保證信息存儲(chǔ)的完整性,例如某市一電力公司利用云計(jì)算搭建了電力數(shù)據(jù)中心,并且通過(guò)映射的方式形成數(shù)據(jù)空間點(diǎn)集,最大可能的保證了大數(shù)據(jù)的儲(chǔ)存。
3 隨機(jī)森林算法在并行負(fù)荷預(yù)測(cè)中的應(yīng)用
3.1 隨機(jī)森林算法原理
隨機(jī)森林算法主要是利用隨機(jī)子空間理論進(jìn)行計(jì)算分析的。在隨機(jī)森林中,不同的分類回歸樹在樣本訓(xùn)練集上所表現(xiàn)出現(xiàn)的特征也具有一定的差異,如果總樣本用S表示,那么不同分類的樣本將用TS來(lái)表示;其次隨機(jī)森林的最終的結(jié)果為不同分類回歸樹投票選擇的結(jié)果或者平均計(jì)算的結(jié)果。具體情況見圖2:
在對(duì)回歸樹的情況進(jìn)行選擇是要對(duì)最小二乘偏差進(jìn)行計(jì)算,用 來(lái)表示,從而用來(lái)度量回歸樹,對(duì)節(jié)點(diǎn)的擬合誤差進(jìn)行計(jì)算,節(jié)點(diǎn)用 來(lái)表示,具體公式為:
=
代表的是節(jié)點(diǎn) 中實(shí)例的個(gè)數(shù); 代表的是節(jié)點(diǎn)實(shí)例的目標(biāo)值的平均值。
3.2 隨機(jī)森里算法并行化依據(jù)
隨機(jī)森林算法并行化的主要依據(jù)為Bagging 思想和隨機(jī)子空間思想兩部分的內(nèi)容。所謂的Bagging 思想就是訓(xùn)練樣本的抽取,例如總樣本用S表示,抽取的樣本用K表示,經(jīng)過(guò)計(jì)算發(fā)現(xiàn)有25%的數(shù)據(jù)沒(méi)有抽到,這種方式有效的體現(xiàn)了相互獨(dú)立的構(gòu)件過(guò)程,為并行化奠定了良好的基礎(chǔ);隨機(jī)子空間思想就是在每個(gè)節(jié)點(diǎn)都進(jìn)行屬性測(cè)試,采用抽簽法隨機(jī)從樣本中抽取多個(gè)屬性進(jìn)行測(cè)試,在很大程度上避免了所有數(shù)據(jù)一次讀入所引起的過(guò)度擬合問(wèn)題。
3.3 隨機(jī)森里算法的負(fù)荷預(yù)測(cè)過(guò)程
負(fù)荷預(yù)測(cè)過(guò)程主要四生成數(shù)據(jù)字典、生成決策樹、形成隨機(jī)森林三個(gè)部分。首先生成數(shù)據(jù)字典就是對(duì)樣本數(shù)據(jù)進(jìn)行詳細(xì)的描述,并且將條件屬性值的類型和決策屬性的位置進(jìn)行明確的記錄,然后在確立運(yùn)算方法的條件下進(jìn)行數(shù)據(jù)的讀?。簧蓻Q策樹就是對(duì)原數(shù)據(jù)按照上述的Bagging 算法進(jìn)行數(shù)據(jù)的抽取,從而獲取不同屬性的信息;生成決策樹就是通過(guò)節(jié)點(diǎn)的建立,對(duì)實(shí)例的相關(guān)數(shù)據(jù)進(jìn)行計(jì)算分析,這一情況需要MapReduce過(guò)程來(lái)完成,而且一個(gè)個(gè) Map只能生成一個(gè)決策樹。
4 結(jié)束語(yǔ)
綜上所述,在社會(huì)大發(fā)展的背景下,電網(wǎng)建設(shè)逐漸趨向智能化已經(jīng)成為了順應(yīng)社會(huì)潮流的必然趨勢(shì),電力用戶側(cè)大數(shù)據(jù)的構(gòu)成也就逐步構(gòu)成,著無(wú)疑是增加了數(shù)據(jù)分析和預(yù)測(cè)的難度;近年來(lái)各種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)搜集、分析和預(yù)測(cè)中滲透,對(duì)電力行業(yè)的發(fā)展起著至關(guān)重要的作用,那么隨機(jī)森林算法作為現(xiàn)代科技下的產(chǎn)物在電力用戶側(cè)大數(shù)據(jù)中的應(yīng)用也就顯得格外重要了。筆者提出,電力用戶側(cè)大數(shù)據(jù)的分析和預(yù)測(cè)具有一定的復(fù)雜性,包括了數(shù)據(jù)的管理、預(yù)測(cè)分類的算法等各方面的內(nèi)容都要經(jīng)過(guò)嚴(yán)格的實(shí)驗(yàn),從而選擇最為合適的方式,為數(shù)據(jù)分析預(yù)測(cè)的全面性和準(zhǔn)確性提供良好的保障。希望通過(guò)本文的簡(jiǎn)單分析,能夠幫助相關(guān)工作人員更好的開展工作。
參考文獻(xiàn):
篇10
關(guān)鍵詞:大數(shù)據(jù);圖書館移動(dòng)信息服務(wù);移動(dòng)圖書館
DOIDOI:10.11907/rjdk.162668
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2016)012-0092-03
0 引言
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,圖書館面臨巨大的機(jī)遇和挑戰(zhàn),通過(guò)移動(dòng)互聯(lián)網(wǎng)向用戶提供高效、便捷的信息服務(wù)是當(dāng)前圖書館信息服務(wù)發(fā)展的新方向。圖書館移動(dòng)信息服務(wù)主要指依托于目前比較成熟的國(guó)際互聯(lián)網(wǎng)絡(luò)、廣范圍的無(wú)線移動(dòng)網(wǎng)絡(luò)以及多媒體技術(shù),使用戶不受時(shí)間、地點(diǎn)和空間限制,通過(guò)使用各種移動(dòng)網(wǎng)絡(luò)設(shè)備(如手機(jī)、平板電腦、E-Book等)方便地進(jìn)行圖書信息檢索與獲取的一種新興的圖書館信息服務(wù)模式[1]。然而,信息技術(shù)的發(fā)展也促進(jìn)了圖書館數(shù)字資源的快速增長(zhǎng),形成了包括音視頻資源、電子期刊、電子圖書等在內(nèi)的海量數(shù)字資源。傳統(tǒng)圖書館的移動(dòng)信息服務(wù)已經(jīng)不能夠滿足眾多用戶個(gè)性化、多樣化的信息服務(wù)需求。面對(duì)這種現(xiàn)實(shí),如何在大量數(shù)據(jù)資源的基礎(chǔ)上提供有效的個(gè)性化移動(dòng)信息服務(wù),是圖書館建設(shè)和發(fā)展面臨的重要問(wèn)題。
1 圖書館移動(dòng)信息服務(wù)現(xiàn)狀
從我國(guó)圖書館移動(dòng)信息服務(wù)的發(fā)展歷程看,我國(guó)圖書館移動(dòng)信息服務(wù)起步較早,但發(fā)展速度緩慢,服務(wù)內(nèi)容單一。從2003年開始,我國(guó)已有部分圖書館開始嘗試推出移動(dòng)信息服務(wù),截至目前,全國(guó)已有數(shù)百家圖書館開通了移動(dòng)信息服務(wù)[2]。在各圖書館中運(yùn)用比較廣泛的移動(dòng)信息服務(wù)模式有:APP客戶端服務(wù)、二維碼服務(wù)、WAP網(wǎng)頁(yè)服務(wù)、SMS短信服務(wù),服務(wù)終端從普通手機(jī)到智能手機(jī)、平板電腦、電子閱讀器等,移動(dòng)信息服務(wù)內(nèi)容為各類數(shù)據(jù)資源的檢索服務(wù)以及用戶信息查詢等相關(guān)服務(wù)。
隨著我國(guó)圖書館建設(shè)規(guī)模的不斷擴(kuò)大,信息化水平不斷提升,但各級(jí)各類的圖書館移動(dòng)信息服務(wù)仍沒(méi)有形成完整體系,大部分圖書館的應(yīng)用技術(shù)或提供的服務(wù)內(nèi)容比較單一,缺乏與圖書館傳統(tǒng)業(yè)務(wù)的系統(tǒng)性聯(lián)系。并且在信息服務(wù)過(guò)程中,大量數(shù)據(jù)未被有效地分析、挖掘,服務(wù)之間沒(méi)有進(jìn)行數(shù)據(jù)共享等[3],相關(guān)問(wèn)題制約了圖書館移動(dòng)信息服務(wù)的發(fā)展。因此,針對(duì)這些問(wèn)題,需要研究相關(guān)發(fā)展對(duì)策,以最大化地滿足用戶的信息需求,提高服務(wù)質(zhì)量,讓用戶能夠隨時(shí)隨地、快捷高效地獲取優(yōu)質(zhì)的信息資源。
2 圖書信息服務(wù)中的大數(shù)據(jù)
在大數(shù)據(jù)時(shí)代背景下,圖書館產(chǎn)生了大量電子資源、文獻(xiàn)資源等圖書資源數(shù)據(jù),以及用戶借閱信息、瀏覽歷史等用戶信息數(shù)據(jù),還有在圖書館日常的信息服務(wù)中逐漸增長(zhǎng)的各種形式化數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))。對(duì)這些數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、處理并有效利用是圖書館移動(dòng)信息服務(wù)的基礎(chǔ)[4]。數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理(On-Line Analytical Processing,OLAP)和數(shù)據(jù)挖掘是大數(shù)據(jù)分析中3種相互獨(dú)立的技術(shù),但是它們?cè)跀?shù)據(jù)處理上卻聯(lián)系緊密,共同為智能化的信息服務(wù)提供決策支持。數(shù)據(jù)倉(cāng)庫(kù)是大數(shù)據(jù)分析的基礎(chǔ),聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉(cāng)庫(kù)之上的兩種數(shù)據(jù)處理方法。圖書館信息服務(wù)中的大數(shù)據(jù)架構(gòu)如圖1所示。
2.1 圖書館數(shù)據(jù)倉(cāng)庫(kù)
在現(xiàn)代圖書館的信息服務(wù)過(guò)程中,信息技術(shù)和信息服務(wù)是高度集成、快速發(fā)展的。針對(duì)圖書館管理人員特殊的業(yè)務(wù)需求和圖書館用戶特定的信息需求,對(duì)圖書館資源進(jìn)行有效利用,是圖書館信息發(fā)展過(guò)程中亟待解決的問(wèn)題[5]。目前在圖書館信息服務(wù)系統(tǒng)中,各數(shù)據(jù)庫(kù)之間往往相互獨(dú)立,并且是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)對(duì)分散的數(shù)據(jù)進(jìn)行清理、變換、集成、匯總,利用數(shù)據(jù)倉(cāng)庫(kù)的集成特性解決數(shù)據(jù)在存儲(chǔ)過(guò)程中的異構(gòu)問(wèn)題,使數(shù)據(jù)能夠更加標(biāo)準(zhǔn)化和規(guī)范化[6];數(shù)據(jù)倉(cāng)庫(kù)是整體的信息組織,圖書館信息服務(wù)過(guò)程中各個(gè)業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)各自分離,沒(méi)有形成統(tǒng)一的聯(lián)系,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織;在事務(wù)處理方面,數(shù)據(jù)倉(cāng)庫(kù)面向主題的特性能高效地完成單一事務(wù)的處理要求。構(gòu)建圖書館數(shù)據(jù)倉(cāng)庫(kù)的最終目的是建立一個(gè)全面、完善的數(shù)據(jù)信息基礎(chǔ),然后利用該數(shù)據(jù)信息完成數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而完成高層次的決策支持。將數(shù)據(jù)倉(cāng)庫(kù)引入圖書館信息服務(wù)建設(shè)中,由于數(shù)據(jù)倉(cāng)庫(kù)本身具有的面向主題、集成、相對(duì)穩(wěn)定等特點(diǎn),在數(shù)據(jù)分析過(guò)程中能夠提供更加安全的數(shù)據(jù)資源服務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)存儲(chǔ)、處理和分析的一個(gè)綜合解決方案,是聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。
2.2 聯(lián)機(jī)分析處理
在數(shù)據(jù)倉(cāng)庫(kù)中,存在著大量有價(jià)值的數(shù)據(jù),但是這些數(shù)據(jù)對(duì)于決策者而言沒(méi)有任何實(shí)際意義。數(shù)據(jù)必須經(jīng)過(guò)有效的分析處理和深層次的模式挖掘才能提供決策支持。聯(lián)機(jī)分析處理是數(shù)據(jù)分析過(guò)程中應(yīng)用最廣泛的數(shù)據(jù)分析處理技術(shù),它能針對(duì)特定問(wèn)題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和統(tǒng)計(jì),通過(guò)對(duì)信息的多角度快速訪問(wèn),使決策人員可以更深入地進(jìn)行觀察分析。其主要功能是根據(jù)選擇的分析角度,事先計(jì)算好一些結(jié)構(gòu)內(nèi)容,以便查詢時(shí)能夠盡快計(jì)算分析出結(jié)果,并能夠快速、有效地從一個(gè)維度轉(zhuǎn)變到另一個(gè)維度,從而在短時(shí)間內(nèi)有效地分析和解決問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)由各種不同的應(yīng)用系統(tǒng)導(dǎo)入數(shù)據(jù),但是由于數(shù)據(jù)的多樣性與復(fù)雜性,并不能直接進(jìn)行分析處理。聯(lián)機(jī)分析處理能有效地將這些數(shù)據(jù)進(jìn)行聚焦、合計(jì),然后以其它組織形式進(jìn)行分析處理。將聯(lián)機(jī)分析處理技術(shù)應(yīng)用到圖書館的移動(dòng)信息服務(wù)中,可以通過(guò)對(duì)用戶信息的有效分析、對(duì)比,為用戶提供個(gè)性化的移動(dòng)信息服務(wù)。
2.3 數(shù)據(jù)挖掘
在圖書館的大數(shù)據(jù)分析與處理過(guò)程中,從數(shù)據(jù)分析深度看,聯(lián)機(jī)分析處理處于相對(duì)較淺的層次,而數(shù)據(jù)挖掘則處于相對(duì)較深的層次[7]。數(shù)據(jù)挖掘是大數(shù)據(jù)分析中知識(shí)發(fā)現(xiàn)的一個(gè)重要步驟,它是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)存儲(chǔ)中抽取模式,找出數(shù)據(jù)變化規(guī)律和數(shù)據(jù)之間的相互關(guān)系,提取隱含在其中的有用信息和知識(shí)的過(guò)程[8]。數(shù)據(jù)挖掘過(guò)程通過(guò)對(duì)圖書館用戶的查詢記錄進(jìn)行模式總結(jié)與內(nèi)在規(guī)律的搜索,幫助決策者分析當(dāng)前和歷史用戶數(shù)據(jù),并從大量的用戶數(shù)據(jù)中發(fā)現(xiàn)可能隱藏的關(guān)系及模式,進(jìn)而預(yù)測(cè)圖書館用戶未來(lái)可能發(fā)生的使用行為,為決策者提供強(qiáng)有力的決策支持。數(shù)據(jù)挖掘的數(shù)據(jù)處理過(guò)程包括預(yù)處理、變換、數(shù)據(jù)挖掘、模式評(píng)價(jià)及知識(shí)表示。事實(shí)上,數(shù)據(jù)挖掘是一個(gè)周而復(fù)始的過(guò)程,即從一個(gè)主題中產(chǎn)生的想法往往需要進(jìn)一步分析從而產(chǎn)生新主題,而新主題又可以產(chǎn)生更新的主題。
3 基于大數(shù)據(jù)的圖書館移動(dòng)信息服務(wù)
基于大數(shù)據(jù)的圖書館移動(dòng)服務(wù)是指圖書館在大數(shù)據(jù)的時(shí)代背景下,把信息服務(wù)過(guò)程中產(chǎn)生的大量數(shù)據(jù)資源與移動(dòng)信息服務(wù)緊密結(jié)合起來(lái),通過(guò)對(duì)數(shù)據(jù)資源進(jìn)行有效的整合、處理、存儲(chǔ)、分析,從而構(gòu)建一種創(chuàng)新、智慧的圖書館移動(dòng)信息服務(wù)模式[9]。與傳統(tǒng)圖書館的信息服務(wù)模式相比,基于大數(shù)據(jù)的圖書館移動(dòng)信息服務(wù)是一種培養(yǎng)用戶個(gè)性、引導(dǎo)用戶需求的創(chuàng)新型服務(wù)模式。
3.1 智慧化的移動(dòng)服務(wù)平臺(tái)建設(shè)
建設(shè)智慧化的移動(dòng)信息服務(wù)平臺(tái)是圖書館移動(dòng)信息服務(wù)中的一種重要手段,也是圖書館信息服務(wù)中的一種創(chuàng)新。通過(guò)將大數(shù)據(jù)分析與現(xiàn)代移動(dòng)通信技術(shù)相結(jié)合而建立的圖書館智能移動(dòng)信息服務(wù)平臺(tái),可以使用戶便捷地訪問(wèn)并使用圖書館資源。智慧化的移動(dòng)門戶建設(shè)應(yīng)具備以下基本原則:①智慧化的圖書館移動(dòng)信息服務(wù)平臺(tái)應(yīng)能兼容不同的用戶終端訪問(wèn),包括WAP網(wǎng)頁(yè)模式、移動(dòng)客戶端、微信二維碼模式等;②創(chuàng)新的移動(dòng)信息服務(wù)內(nèi)容應(yīng)豐富多彩,界面簡(jiǎn)潔、美觀、清晰且簡(jiǎn)單易用;③智慧化的移動(dòng)信息平臺(tái)可實(shí)現(xiàn)用戶與平臺(tái)之間的交互,以及智能化的在線參考咨詢;④通過(guò)大數(shù)據(jù)可視化技術(shù)為用戶展示獨(dú)特的個(gè)人綜合數(shù)據(jù)分析。
3.2 創(chuàng)新的移動(dòng)服務(wù)內(nèi)容
基于大數(shù)據(jù)的圖書館移動(dòng)信息服務(wù)不僅可為用戶提供傳統(tǒng)的信息服務(wù)內(nèi)容,如圖書借閱、圖書續(xù)借、館際互借等圖書借讀業(yè)務(wù),以及個(gè)人信息修改、借閱歷史查詢、證件掛失等用戶業(yè)務(wù),而且基于大數(shù)據(jù)的圖書館移動(dòng)信息服務(wù)通過(guò)積極整合移動(dòng)服務(wù)過(guò)程中產(chǎn)生的各種不同類型數(shù)據(jù)資源,對(duì)數(shù)據(jù)進(jìn)行分析處理,還可為用戶提供二維碼服務(wù)、地圖導(dǎo)航、語(yǔ)音信息搜索等創(chuàng)新的移動(dòng)信息服務(wù),包括:①將二維碼功能應(yīng)用到圖書館的工作和服務(wù)中。利用移動(dòng)客戶端生成每位用戶獨(dú)特的二維碼信息,以及圖書館配置的二維碼掃描服務(wù)端可智能實(shí)現(xiàn)入館識(shí)別、圖書借閱、自習(xí)室座位預(yù)定等身份認(rèn)證服務(wù)。同樣,圖書館的電子資源、物理資源也可生成二維碼信息,用戶可以通過(guò)手機(jī)二維碼掃描獲取圖書的位置信息、借閱信息等;②圖書館移動(dòng)導(dǎo)航服務(wù)。用戶不僅可以通過(guò)手機(jī)客戶端獲取自己在圖書館中的位置信息,還可以通過(guò)導(dǎo)航服務(wù)獲取圖書的位置導(dǎo)航;③智能語(yǔ)音信息搜索。通過(guò)智能手機(jī)的音視頻功能搜索查詢圖書資源,簡(jiǎn)化了用戶手動(dòng)輸入檢索信息的過(guò)程。智能的語(yǔ)音識(shí)別使用戶能夠更迅速、便捷地查找所需的資源信息。
3.3 創(chuàng)新的移動(dòng)檢索方式
信息檢索服務(wù)是圖書館信息服務(wù)中一個(gè)非常重要的組成部分,主要指基于聯(lián)機(jī)公共目錄查詢系統(tǒng)(Online Public Access Catalague,OPAC)對(duì)館藏資源進(jìn)行檢索的信息服務(wù)?;诖髷?shù)據(jù)的圖書館移動(dòng)信息檢索服務(wù)在傳統(tǒng)檢索服務(wù)上進(jìn)行了創(chuàng)新,主要包括檢索內(nèi)容、檢索方式以及檢索結(jié)果的創(chuàng)新。
(1)檢索內(nèi)容。
面對(duì)圖書館中數(shù)據(jù)資源類型豐富、數(shù)量大、數(shù)據(jù)格式不統(tǒng)一,鏈接更具深度與廣度的現(xiàn)狀,以及用戶的多樣性、差異化需求[10],傳統(tǒng)圖書館在信息服務(wù)過(guò)程中往往會(huì)提供多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)以滿足用戶的檢索需求,搜索一個(gè)關(guān)鍵字可能需要檢索多個(gè)數(shù)據(jù)庫(kù),并且檢索出的結(jié)果有多種格式,必須分別下載不同的閱讀器才能使用,這在一定程度上造成用戶信息檢索的不便。基于大數(shù)據(jù)的圖書館信息檢索服務(wù),通過(guò)對(duì)圖書館眾多數(shù)據(jù)資源的整合和鏈接,將檢索的數(shù)據(jù)資源聚合在一個(gè)檢索框架內(nèi),在資源上形成邏輯的整體,實(shí)現(xiàn)在大數(shù)據(jù)下的檢索、瀏覽、下載、更新和反饋等“一站式”的全功能檢索操作。對(duì)于用戶而言,整個(gè)圖書館的數(shù)字資源是一個(gè)整體,這個(gè)整體由圖書館中不同數(shù)據(jù)庫(kù)、不同類型、不同來(lái)源、不同部門的信息數(shù)據(jù)組成,通過(guò)這種方式將大數(shù)據(jù)分析技術(shù)應(yīng)用到圖書館移動(dòng)信息服務(wù)中,進(jìn)一步提高了圖書館的服務(wù)質(zhì)量[11]。
(2)檢索方式。
在檢索內(nèi)容的基礎(chǔ)上拓展完備的檢索方式與檢索工具支持,支持各種資源類型的統(tǒng)一檢索,并實(shí)現(xiàn)高級(jí)檢索。采用統(tǒng)一的檢索方式與檢索語(yǔ)言,實(shí)現(xiàn)跨庫(kù)、跨平臺(tái)與跨地區(qū)檢索,實(shí)現(xiàn)資源的有效整合和共享。尤其是圖片、音視頻等多媒體資源的統(tǒng)一檢索是移動(dòng)圖書館信息檢索服務(wù)的主要優(yōu)勢(shì)之一。同時(shí),支持語(yǔ)音檢索、二維碼掃描及多字段高級(jí)檢索,以及自然語(yǔ)言的語(yǔ)義檢索、根據(jù)用戶定制關(guān)鍵詞的個(gè)性化檢索等多樣化的檢索方式。
(3)檢索結(jié)果。
智能化的信息檢索結(jié)果展示,不再是面對(duì)所有用戶以一種統(tǒng)一方式展示結(jié)果,而是根據(jù)用戶最近的檢索內(nèi)容、訪問(wèn)數(shù)據(jù)等操作行為,通過(guò)系統(tǒng)的分析處理后,對(duì)檢索結(jié)果進(jìn)行智能化排序,與用戶匹配度較高的結(jié)果優(yōu)先顯示,以更準(zhǔn)確地滿足用戶的信息檢索需求。
3.4 用戶喜好推薦
基于大數(shù)據(jù)的圖書館移動(dòng)信息服務(wù),打破了圖書館傳統(tǒng)的移動(dòng)信息服務(wù)模式。利用大數(shù)據(jù)處理技術(shù),通過(guò)對(duì)用戶的個(gè)人基本信息和網(wǎng)絡(luò)檢索方式、行為習(xí)慣、檢索歷史等信息進(jìn)行收集、記錄、匯總、分析,全方位了解用戶重點(diǎn)知識(shí)區(qū)的相關(guān)數(shù)據(jù),根據(jù)對(duì)用戶檢索動(dòng)因、行為的模式分析,找出用戶的潛在需求,以推送個(gè)性化信息?;诖髷?shù)據(jù)的信息處理技術(shù)可以對(duì)動(dòng)態(tài)、復(fù)雜的信息資源進(jìn)行快速選取和分類,甄別出有利用價(jià)值的數(shù)據(jù)。通過(guò)分析這些數(shù)據(jù)間的關(guān)系,為用戶提供高準(zhǔn)確度的個(gè)性化移動(dòng)信息服務(wù),增強(qiáng)用戶對(duì)智能推薦服務(wù)的滿意度和忠誠(chéng)度。
熱門標(biāo)簽
智能家居論文 智能醫(yī)學(xué)技術(shù) 智能論文 智能家居方案 智能建筑論文 智能技術(shù)論文 智能生產(chǎn) 智能家居 智能財(cái)稅管理 智能物流管理 心理培訓(xùn) 人文科學(xué)概論