大數(shù)據(jù)分析論文范文
時(shí)間:2023-03-24 09:27:07
導(dǎo)語:如何才能寫好一篇大數(shù)據(jù)分析論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因?yàn)樵跀?shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結(jié)構(gòu),需要使用某種方法將其進(jìn)行預(yù)處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預(yù)處理過的數(shù)據(jù)進(jìn)行算法特定的分析,并將分析的結(jié)果用可視化等手段呈現(xiàn)至用戶端。
1.1數(shù)據(jù)采集
大數(shù)據(jù)的采集是整個(gè)流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。
1.2數(shù)據(jù)處理與集成
數(shù)據(jù)的處理與集成主要是對(duì)前一步采集到的大量數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,包括格式化、去噪以及進(jìn)一步集成存儲(chǔ)。因?yàn)閿?shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會(huì)影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會(huì)設(shè)計(jì)一些過濾器來完成這一任務(wù)。
1.3數(shù)據(jù)分析
在完成了數(shù)據(jù)的采集和處理后,需要對(duì)數(shù)據(jù)進(jìn)行分析,因?yàn)樵谶M(jìn)行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價(jià)值。數(shù)據(jù)分析的對(duì)象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價(jià)值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進(jìn)一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對(duì)集中存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對(duì)象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。
1.4數(shù)據(jù)解釋
數(shù)據(jù)解釋是對(duì)大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對(duì)成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會(huì)引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果。
2云計(jì)算與大數(shù)據(jù)分析的關(guān)系
云計(jì)算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,是一種按使用量付費(fèi)的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計(jì)算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價(jià)值分析為目的的活動(dòng),而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對(duì)已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺(tái),不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺(tái)承載。所以,云計(jì)算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計(jì)算的出現(xiàn)為大數(shù)據(jù)分析提供了擴(kuò)展性更強(qiáng),使用成本更低的存儲(chǔ)資源和計(jì)算資源,使得中小企業(yè)也可以通過云計(jì)算來實(shí)現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計(jì)算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲(chǔ)、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計(jì)算框架、數(shù)據(jù)庫、實(shí)時(shí)流數(shù)據(jù)處理以及智能分析技術(shù),如模式識(shí)別、自然語言理解、應(yīng)用知識(shí)庫等等。但是,大數(shù)據(jù)分析要走向云計(jì)算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴(kuò)展。
3基于云計(jì)算環(huán)境的Hadoop
為了給大數(shù)據(jù)處理分析提供一個(gè)性能更高、可靠性更好的平臺(tái),研究者基于MapReduce開發(fā)了一個(gè)基于云計(jì)算環(huán)境的開源平臺(tái)Hadoop。Hadoop是一個(gè)以MapReduce算法為分布式計(jì)算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當(dāng)前最流行的大數(shù)據(jù)處理平臺(tái),并被廣泛認(rèn)可和開發(fā)應(yīng)用。基于Hadoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個(gè)節(jié)點(diǎn)組成的大規(guī)模計(jì)算機(jī)集群上。
4實(shí)例分析
本節(jié)以電信運(yùn)營商為例,說明在云計(jì)算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價(jià)值。當(dāng)前傳統(tǒng)語音和短信業(yè)務(wù)量下滑,智能終端快速增長,移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運(yùn)營商帶來新的機(jī)會(huì),幫助運(yùn)營商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來自于某運(yùn)營商的個(gè)人語音和數(shù)據(jù)業(yè)務(wù)清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個(gè)大數(shù)據(jù)分析平臺(tái)來處理獲得的樣本。希望通過對(duì)樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實(shí)際上樣本數(shù)據(jù)中所蘊(yùn)含的價(jià)值要遠(yuǎn)遠(yuǎn)大于本文體現(xiàn)的。以上舉例意在說明基于云計(jì)算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結(jié)束語
篇2
關(guān)鍵詞:大數(shù)據(jù)分析;內(nèi)部審計(jì)應(yīng)用
近年來,大數(shù)據(jù)應(yīng)用更加廣泛,它改變了固有的數(shù)據(jù)分析方式,將企業(yè)經(jīng)營以及與之相關(guān)聯(lián)的企業(yè)和客戶信息進(jìn)行收集和分析,通過新的思維處理數(shù)據(jù)與技術(shù)的難題。據(jù)調(diào)查顯示,目前我國很多優(yōu)秀企業(yè)都將大數(shù)據(jù)作為新一輪經(jīng)濟(jì)增長點(diǎn),從2012年開始就實(shí)現(xiàn)了持續(xù)增長,成了企業(yè)市場經(jīng)營的巨大資料庫,提高了企業(yè)的整體技術(shù)水平和競爭能力。具體而言,大數(shù)據(jù)分析是一種能夠從各類信息中快速提取有用數(shù)據(jù)的一種新技術(shù),對(duì)內(nèi)部審計(jì)工作來說具有的意義不言而喻。下面就從大數(shù)據(jù)分析給內(nèi)部審計(jì)帶來的機(jī)遇和挑戰(zhàn)入手,從實(shí)際出發(fā)做好應(yīng)用性審計(jì),帶動(dòng)審計(jì)工作發(fā)生質(zhì)的飛躍。
一、大數(shù)據(jù)分析給內(nèi)部審計(jì)工作帶來的機(jī)遇和挑戰(zhàn)
(一)審計(jì)目標(biāo)信息化技術(shù)使用的初期,內(nèi)部審計(jì)工作依賴計(jì)算機(jī)技術(shù),可以通過對(duì)數(shù)據(jù)的觀察和分析找到審計(jì)中存在的問題,為具體工作的開展提供參考。大數(shù)據(jù)分析技術(shù)的應(yīng)用則將審計(jì)工作帶到了新的高度,它不僅能夠發(fā)現(xiàn)問題,還可以對(duì)風(fēng)險(xiǎn)進(jìn)行評(píng)估,對(duì)效益進(jìn)行分析,及時(shí)發(fā)現(xiàn)審計(jì)工作中存在的問題,降低內(nèi)部控制風(fēng)險(xiǎn),為企業(yè)發(fā)展做出預(yù)測性思考。(二)審計(jì)內(nèi)容數(shù)字是傳統(tǒng)內(nèi)部審計(jì)工作參考的重點(diǎn),包括營業(yè)收入、費(fèi)用支出、稅收情況等等。大數(shù)據(jù)分析則突破了原來數(shù)字化的限制,基本內(nèi)涵和審計(jì)的內(nèi)容不斷向外延展,打破了傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)化的樣式不足,在不同的時(shí)間范圍內(nèi)可以生成復(fù)雜多變的數(shù)據(jù),其中包括文本、音頻、視頻、xml等,構(gòu)建出了審計(jì)的立體化方法。(三)分析技術(shù)大數(shù)據(jù)分析與內(nèi)部審計(jì)應(yīng)用的結(jié)合,最大的改變就在于技術(shù)的更新,大數(shù)據(jù)分析可以實(shí)現(xiàn)大數(shù)字的整合,從五大技術(shù)方面進(jìn)行了完善。即可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析、語義引擎和數(shù)據(jù)質(zhì)量與管理。這些新技術(shù)可以通過標(biāo)準(zhǔn)化的形式,建立數(shù)據(jù)新模型,提取隱藏起來的內(nèi)部審計(jì)信息,利用圖表展示數(shù)據(jù)分析的全過程,并做出前瞻性的判斷,從而提高數(shù)據(jù)的分析準(zhǔn)確性。
二、大數(shù)據(jù)分析內(nèi)部審計(jì)的方式
首先,數(shù)據(jù)驗(yàn)證性分析朝著數(shù)據(jù)挖掘性分析轉(zhuǎn)變。即由原來的多維分析驗(yàn)證數(shù)據(jù)變?yōu)橥诰蛐约夹g(shù)的使用,將數(shù)據(jù)倉庫和模型構(gòu)建起來,做好聚類分析,找到規(guī)律性內(nèi)容,并提取關(guān)聯(lián)性數(shù)據(jù)。例如,在電力審計(jì)過程中,可以建立起專門的數(shù)據(jù)資料庫,找到電力使用的具體數(shù)據(jù),分析用電情況。其次,審計(jì)方式由事后發(fā)現(xiàn)問題變?yōu)轱L(fēng)險(xiǎn)預(yù)警。企業(yè)經(jīng)營難免會(huì)遇到各種風(fēng)險(xiǎn),對(duì)市場形勢進(jìn)行分析,將可能存在的危機(jī)控制在萌芽階段,是大數(shù)據(jù)分析有別于傳統(tǒng)分析模式最大的特點(diǎn)。另外,大數(shù)據(jù)分析可以早期關(guān)注經(jīng)濟(jì)運(yùn)行情況,發(fā)掘數(shù)據(jù)敏感性波動(dòng),并集合社保審計(jì)、債務(wù)數(shù)據(jù)、經(jīng)濟(jì)宏觀運(yùn)行數(shù)據(jù),實(shí)現(xiàn)信息庫的交叉使用,提升數(shù)據(jù)分析水平和審計(jì)能力。最后,單機(jī)審計(jì)向云審計(jì)方法的轉(zhuǎn)變。云審計(jì)是基于云數(shù)據(jù)庫設(shè)立的數(shù)據(jù)平臺(tái),它依靠的是中心統(tǒng)計(jì)分析,通過網(wǎng)絡(luò)與“云”的對(duì)接,對(duì)審計(jì)成果進(jìn)行共享。與此同時(shí),在大數(shù)據(jù)分析云計(jì)算實(shí)施的過程中,必須堅(jiān)持技術(shù)的創(chuàng)新與發(fā)展,建立預(yù)算、財(cái)務(wù)、執(zhí)政一體化策略,設(shè)立專門的數(shù)據(jù)平臺(tái),提高信息化技術(shù)審核的質(zhì)量,做好宏觀分析。
三、大數(shù)據(jù)分析在內(nèi)部審計(jì)中的應(yīng)用
大數(shù)據(jù)分析與內(nèi)部審計(jì)的綜合應(yīng)用是信息時(shí)代技術(shù)演變的新手段,在與內(nèi)部審計(jì)結(jié)合使用的過程中必須堅(jiān)持全面化使用,從制度流程、機(jī)構(gòu)人員、審計(jì)業(yè)務(wù)以及技術(shù)上做好配合,全面推行新的審計(jì)方法。(一)創(chuàng)新大數(shù)據(jù)工作模式創(chuàng)新是進(jìn)步的源泉,大數(shù)據(jù)分析的推行,與內(nèi)部審計(jì)工作的結(jié)合,都必須堅(jiān)持創(chuàng)新原則,對(duì)預(yù)算執(zhí)行審計(jì)有一個(gè)全面的認(rèn)識(shí)。傳統(tǒng)的孤立審計(jì)已不適應(yīng)大數(shù)據(jù)審計(jì)的要求,需要打破部門之間的界限,以審計(jì)項(xiàng)目為管理主線,成立大審計(jì)組,進(jìn)行扁平化管理。結(jié)合各預(yù)算部門的財(cái)務(wù)數(shù)據(jù),發(fā)現(xiàn)是否存在預(yù)算項(xiàng)目在連年結(jié)轉(zhuǎn)的情況下仍然安排新增預(yù)算、造成資金閑置的問題。通過對(duì)數(shù)據(jù)進(jìn)行宏觀整體分析,發(fā)現(xiàn)是否存在預(yù)算執(zhí)行效率不高、分配下達(dá)預(yù)算不及時(shí)、撥付轉(zhuǎn)移支付資金超期等情況。(二)完善跟蹤審計(jì)方式通過建設(shè)審計(jì)數(shù)據(jù)綜合分析平臺(tái),搭建關(guān)系國計(jì)民生的重點(diǎn)行業(yè)聯(lián)網(wǎng)審計(jì)系統(tǒng),用Hadoop等專業(yè)工具處理半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),規(guī)范高效地匯集和處理大規(guī)模數(shù)據(jù)信息。例如,在地稅審計(jì)中,可利用地稅聯(lián)網(wǎng)審計(jì)系統(tǒng),集中進(jìn)行全省地稅數(shù)據(jù)整理分析,探索“數(shù)據(jù)集中采集、集中統(tǒng)一分析、疑點(diǎn)分布落實(shí)、資源充分共享”的大數(shù)據(jù)審計(jì)模式,實(shí)現(xiàn)全省聯(lián)動(dòng)審計(jì)。此外,還要對(duì)資金分配結(jié)構(gòu)、資金使用流向、資金管理情況進(jìn)行總體分析,全面反映預(yù)算執(zhí)行整體情況,實(shí)現(xiàn)對(duì)預(yù)算單位的審計(jì)監(jiān)督全覆蓋。(三)實(shí)現(xiàn)多數(shù)據(jù)融合,落實(shí)經(jīng)濟(jì)責(zé)任審計(jì)運(yùn)用關(guān)聯(lián)分析,找出數(shù)據(jù)間的相互聯(lián)系,分析關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)異常聯(lián)系和異常數(shù)據(jù),尋找審計(jì)疑點(diǎn)。在經(jīng)濟(jì)責(zé)任審計(jì)中,可利用財(cái)政、稅務(wù)、社保、培訓(xùn)等數(shù)據(jù)在橫向和縱向之間都做好關(guān)聯(lián)性研究,做好數(shù)據(jù)的全面跟蹤分析,實(shí)施和推行經(jīng)濟(jì)責(zé)任審計(jì)模式,提高審計(jì)效率。另外,在深入挖掘數(shù)據(jù)過程中,還要利用數(shù)據(jù)倉庫和模型分析統(tǒng)計(jì)數(shù)據(jù)變動(dòng)信息,分析關(guān)聯(lián)性內(nèi)容,對(duì)體制機(jī)制性問題開展研究,挖掘行業(yè)性和趨勢性問題。
四、結(jié)束語
綜上所述,大數(shù)據(jù)技術(shù)的發(fā)展對(duì)審計(jì)工作提出了新的、更高的要求,也為審計(jì)提供了新的工具。傳統(tǒng)的大數(shù)據(jù)分析與內(nèi)部審計(jì)工作的結(jié)合不夠緊密,技術(shù)應(yīng)用不夠突出,且人才缺失?;诖髷?shù)據(jù)分析的新情況,內(nèi)部審計(jì)工作必須從數(shù)據(jù)、資源、人才方面逐步積累資源,創(chuàng)新大數(shù)據(jù)分析的思路和模式,研究技術(shù)發(fā)展的情況,并建立覆蓋公司業(yè)務(wù)流程的審計(jì)信息化管理系統(tǒng),使公司各業(yè)務(wù)線在統(tǒng)一、透明、標(biāo)準(zhǔn)的審計(jì)監(jiān)控下陽光運(yùn)行,確保大數(shù)據(jù)在內(nèi)部審計(jì)中的高效應(yīng)用。
參考文獻(xiàn):
[1]王磊.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司內(nèi)部審計(jì)中的運(yùn)用研究[D].山東財(cái)經(jīng)大學(xué),2015.
[2]梁秀根,黃鄧秋,蔡赟,魏連濤,梁國平.持續(xù)審計(jì)結(jié)合數(shù)據(jù)挖掘技術(shù)在內(nèi)部審計(jì)中的探究和應(yīng)用[A].全國內(nèi)部審計(jì)理論研討優(yōu)秀論文集(2013)[C].2014:10.
篇3
統(tǒng)計(jì)學(xué)論文2000字(一):影響民族院校統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績因素的研究論文
摘要:學(xué)習(xí)成績是評(píng)價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時(shí)成績和回歸分析期末成績),建立多元線性回歸模型,對(duì)影響回歸分析期末成績的因素進(jìn)行深入研究,其結(jié)果對(duì)今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時(shí)成績;期末成績
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時(shí)成績也會(huì)影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級(jí)統(tǒng)計(jì)專業(yè)50名學(xué)生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時(shí)成績和期末成績,運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計(jì)專業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計(jì)專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對(duì)回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)回歸分析期末成績的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評(píng)價(jià)學(xué)生考試成績,對(duì)教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時(shí)成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個(gè)基本假設(shè),
1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即
(2)
這個(gè)假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對(duì)y1的影響不顯著,其他自變量對(duì)y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對(duì)上述模型進(jìn)行分析,即各個(gè)自變量對(duì)因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當(dāng)解析幾何成績、概率論成績和平時(shí)成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對(duì)學(xué)生專業(yè)基礎(chǔ)課成績、平時(shí)成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過對(duì)回歸分析期末成績影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問題。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對(duì)統(tǒng)計(jì)學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對(duì)數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對(duì)于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說,更是如此。
二、課程教學(xué)探討
針對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開設(shè),他們在前期已經(jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對(duì)學(xué)生來說是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對(duì)軟件的計(jì)算結(jié)果熟練解讀,對(duì)各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對(duì)于已經(jīng)學(xué)過的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過程中,注意和已學(xué)過知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來學(xué)過的知識(shí),同時(shí)也無形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評(píng)估中,把混淆矩陣、ROC曲線、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過的內(nèi)容有機(jī)聯(lián)系起來。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對(duì)知識(shí)的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國家及社會(huì)大眾關(guān)注的問題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來綜合評(píng)定成績。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評(píng)價(jià)學(xué)生的表現(xiàn)。
三、教學(xué)效果評(píng)估
經(jīng)過幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對(duì)課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會(huì)一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計(jì)學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。
教學(xué)實(shí)踐結(jié)果表明,通過數(shù)據(jù)挖掘課程的學(xué)習(xí),可以讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,進(jìn)一步提升分析問題和解決實(shí)際問題的能力。
篇4
1 大數(shù)據(jù)時(shí)代已悄然來臨
大數(shù)據(jù)(Big data),是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。通常大數(shù)據(jù)只有通過分析才能獲取很多智能的、有價(jià)值的信息。因此,大數(shù)據(jù)分析對(duì)于高校檔案管理有著無可取代的作用。大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)數(shù)據(jù)本身具備的特點(diǎn),才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。尤其在檔案管理上深入大數(shù)據(jù)分析將對(duì)工作帶來更大的?r值。
2 當(dāng)前高校檔案管理工作狀況及大數(shù)據(jù)在高校檔案管理的建立和應(yīng)用
目前,由于對(duì)檔案管理工作重視程度不足,高校內(nèi)仍然缺乏相應(yīng)的檔案管理硬件設(shè)施,個(gè)別部門的檔案人員甚至處于狹小潮濕的辦公區(qū)域,檔案庫房區(qū)、辦公區(qū)、閱覽區(qū)不能分開。很多檔案管理人員身兼數(shù)職,網(wǎng)絡(luò)化、數(shù)字化的檔案管理更是無從談起。傳統(tǒng)的檔案管理信息零落、復(fù)雜、不能共享。這樣間接地浪費(fèi)了檔案資源,還造成了原始檔案信息的流失,從而影響了檔案信息化的發(fā)展水平。因此,高校檔案管理信息化的建立已勢在必行,進(jìn)而為廣大師生提供新信息上網(wǎng)、電子郵件交流、聯(lián)機(jī)公共目錄查詢等服務(wù),通過提供定向、定題的交互信息咨詢,提升檔案管理的服務(wù)能力和質(zhì)量。
3 大數(shù)據(jù)時(shí)代對(duì)高校檔案管理工作的影響
大數(shù)據(jù)時(shí)代對(duì)高校檔案管理工作的影響,第一是有助于原始檔案文件的保存。傳統(tǒng)的檔案文件常常以紙質(zhì)檔案、照片、錄音、錄像檔案的形式出現(xiàn),歲月的沉淀和檔案人員的更新?lián)Q代,常常會(huì)因?yàn)槟承┲骺陀^因素的出現(xiàn),而阻礙了高校檔案的開發(fā)利用。
第二是有助于加大檔案的開發(fā)利用程度。隨著大數(shù)據(jù)在檔案管理工作中的有效應(yīng)用,對(duì)傳統(tǒng)檔案實(shí)施有選擇和有步驟的數(shù)字化,為檔案網(wǎng)絡(luò)信息的存儲(chǔ)、檢索和利用提供數(shù)據(jù)基礎(chǔ)。通過大數(shù)據(jù)時(shí)代與檔案管理的結(jié)合,使檔案實(shí)體和檔案信息實(shí)現(xiàn)了自動(dòng)化管理,節(jié)省了大量的時(shí)間和人力資源,為開展檔案的科研工作創(chuàng)造了有利的條件。
篇5
摘要:大數(shù)據(jù)時(shí)代思維方式講究思維主體上的協(xié)同合作、思維客體上的綜合運(yùn)用、思維中介上的工具開發(fā)。數(shù)據(jù)應(yīng)用的側(cè)重點(diǎn)由感官理性轉(zhuǎn)向了證據(jù)理性,由單一結(jié)論轉(zhuǎn)向了個(gè)性化分析判斷,從被動(dòng)獲取轉(zhuǎn)向了主動(dòng)預(yù)測。它勢必在數(shù)據(jù)處理習(xí)慣、數(shù)據(jù)潛在價(jià)值挖掘和數(shù)據(jù)價(jià)值分析利用上對(duì)高校專業(yè)建設(shè)造成沖擊,并在專業(yè)建設(shè)數(shù)據(jù)挖掘力度、數(shù)據(jù)平臺(tái)搭建以及專門數(shù)據(jù)分析人才的培養(yǎng)方面提出相應(yīng)要求。
關(guān)鍵詞 :大數(shù)據(jù) 思維方式 專業(yè)建設(shè)
高校專業(yè)建設(shè)匯聚著大量的信息,從學(xué)生角度來看,包括專業(yè)必修課、專業(yè)選修課、專業(yè)必修學(xué)分、專業(yè)實(shí)踐、課程作業(yè)、專業(yè)成績等各種信息;從教師角度來看,包含專業(yè)教學(xué)任務(wù)、課件等教學(xué)信息,專業(yè)論文著作、科學(xué)研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學(xué)科專業(yè)的分布、專業(yè)的數(shù)量規(guī)模、專業(yè)的招生就業(yè)、專業(yè)預(yù)警等信息。隨著移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,人們主動(dòng)產(chǎn)生和由設(shè)備自動(dòng)收集的專業(yè)信息必將越來越多。它們共同存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn),毫無疑問,高校專業(yè)建設(shè)思維必將受其影響。2015年,教育部高等教育教學(xué)評(píng)估中心啟動(dòng)了教學(xué)基本狀態(tài)數(shù)據(jù)庫采集的行動(dòng),標(biāo)志著大數(shù)據(jù)正大步向高校進(jìn)軍,其觸發(fā)的思維革命與方式轉(zhuǎn)變正大力沖擊著高校教學(xué)管理的固有模式。因此,有效運(yùn)用大數(shù)據(jù)時(shí)代思維方式探索高校專業(yè)建設(shè)發(fā)展途徑,有效預(yù)測和分析專業(yè)建設(shè)走向,是高水平大學(xué)走向現(xiàn)代化治理的必然趨勢。
一、大數(shù)據(jù)時(shí)代的特點(diǎn)及思維方式
維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中,解讀了大數(shù)據(jù)的4個(gè)特點(diǎn),即大量(Volume)、高速(Velocity)、多樣(Variety)、真實(shí)(Veracity),簡稱4V。但他同時(shí)又提醒到,大數(shù)據(jù)延伸的另一個(gè)特點(diǎn)是更多和更亂。如果無法順暢理清各種數(shù)據(jù)間的關(guān)聯(lián)性,我們將在它的時(shí)代中迷失。舍恩伯格強(qiáng)調(diào),在龐大的數(shù)據(jù)面前保持清晰的頭腦,理順?biāo)季S方式更為重要。他說,大數(shù)據(jù)時(shí)代思維方式是:每天早上起來想一下,這么多數(shù)據(jù)我能用來干什么,這些價(jià)值在哪里可以找到,能不能找到一個(gè)別人以前都沒有做過的事情,你的想法和思路,是最重要的資產(chǎn)。他提示我們,轉(zhuǎn)變慣有的思維方式,將成為獲取數(shù)據(jù)價(jià)值和創(chuàng)新行為方式的前提與根本。
數(shù)據(jù)是死的,人是活的,要讓死的數(shù)據(jù)說話,就必須發(fā)揮人的主觀能動(dòng)性,用活人的思維。有學(xué)者從思維主體、思維客體和思維中介等方面分析大數(shù)據(jù)時(shí)代應(yīng)具備的思維方式結(jié)構(gòu),認(rèn)為在大數(shù)據(jù)時(shí)代面前,個(gè)體思維者在思維主體上需要從精神生產(chǎn)的過程中尋求協(xié)同合作,由個(gè)人的思維活動(dòng)轉(zhuǎn)化為集體思維活動(dòng);在思維客體上要側(cè)重挖掘隱藏在數(shù)字背后的深刻的內(nèi)涵,實(shí)現(xiàn)突破性的科學(xué)預(yù)測和科研活動(dòng),實(shí)現(xiàn)全方位、多角度的綜合思維;在思維中介上要尋求有力工具,運(yùn)用多種信息加工手段和方法,提高數(shù)據(jù)存儲(chǔ)和處理速度的準(zhǔn)確性和可靠性。并以此得出敏捷性、開放性、前瞻性和個(gè)性化是大數(shù)據(jù)時(shí)代思維方式的代表特征。
二、大數(shù)據(jù)時(shí)代思維方式對(duì)高校專業(yè)建設(shè)的沖擊
一是對(duì)數(shù)據(jù)處理習(xí)慣造成沖擊。按照以往數(shù)據(jù)管理和處理的方式,無論是管理者還是管理對(duì)象,都無法及時(shí)有效地搜集和應(yīng)對(duì)層出不窮、錯(cuò)綜復(fù)雜、始料未及的專業(yè)建設(shè)數(shù)據(jù)。一種處理的方式便是被動(dòng)獲取和被動(dòng)應(yīng)付,讓數(shù)據(jù)不斷累積或流失,然后定時(shí)清空或有意遺忘,無法真正有效挖掘數(shù)據(jù)的隱藏價(jià)值,造成“數(shù)據(jù)浪費(fèi)”。其原因在于人們的思維尚未適應(yīng)大數(shù)據(jù)時(shí)代的洪流,尚未意識(shí)到在大數(shù)據(jù)面前,個(gè)體的思維主導(dǎo)和思維對(duì)象以及所能利用的思維中介早已超出了固有的范疇習(xí)慣,如不轉(zhuǎn)變數(shù)據(jù)處理的思維方式,改進(jìn)處理數(shù)據(jù)的思維習(xí)慣,管理將陷入低效和混亂的境地,協(xié)同創(chuàng)新將舉步維艱。
二是對(duì)數(shù)據(jù)潛在價(jià)值的挖掘造成沖擊。以往對(duì)專業(yè)建設(shè)數(shù)據(jù)的挖掘通常采用直線型的方式進(jìn)行。就高校教育管理層來說,專業(yè)建設(shè)數(shù)據(jù)往往是自下而上獲得,通過各學(xué)院、專業(yè)的報(bào)送來獲取第一手專業(yè)數(shù)據(jù)。就專業(yè)本身來說,其建設(shè)數(shù)據(jù)的獲得一般采用實(shí)時(shí)獲取、延時(shí)存儲(chǔ)、滯后分析的直線型關(guān)系模式進(jìn)行。而大數(shù)據(jù)時(shí)代下要求我們從時(shí)空的立體角度對(duì)專業(yè)數(shù)據(jù)的潛在價(jià)值進(jìn)行深入挖掘。按照挖掘的任務(wù),一項(xiàng)數(shù)據(jù)的挖掘包含了對(duì)數(shù)據(jù)的時(shí)空聚類、時(shí)空分類、時(shí)空異常檢測等過程,并逐步深入探討對(duì)數(shù)據(jù)挖掘的頻繁模式、周期模式、共現(xiàn)模式、關(guān)聯(lián)模式等主題的研究,以圖架構(gòu)起科學(xué)的數(shù)據(jù)挖掘系統(tǒng)。例如,通過高校選課平臺(tái),長期跟蹤學(xué)生選課科目,通過有效數(shù)據(jù)的挖掘,得出該時(shí)間段學(xué)生對(duì)某一學(xué)科領(lǐng)域的興趣度數(shù)據(jù),繼而對(duì)某一專業(yè)所在的選修課的開設(shè)廣度和深度進(jìn)行判斷,同時(shí)也可以為開課教師的教學(xué)效果評(píng)定提供有效數(shù)據(jù)證明。
三對(duì)數(shù)據(jù)價(jià)值的分析利用造成沖擊。大數(shù)據(jù)的應(yīng)用核心是大數(shù)據(jù)預(yù)測:通過對(duì)各方面的數(shù)據(jù)分析利用,提前預(yù)判即將到來的事件。那么,通過對(duì)專業(yè)建設(shè)時(shí)空數(shù)據(jù)的挖掘,運(yùn)用相關(guān)技術(shù)進(jìn)行關(guān)聯(lián)分析,可以極大地提升專業(yè)建設(shè)的預(yù)測能力,達(dá)成科學(xué)的專業(yè)預(yù)警機(jī)制和專業(yè)規(guī)劃方案。它一改以前高校對(duì)于專業(yè)發(fā)展預(yù)測的理論與感性判斷,采用實(shí)樣而非抽樣,效率而非精確,相關(guān)而非因果等相互關(guān)系,用數(shù)據(jù)和事實(shí)說話。例如,在探索專業(yè)分流的問題時(shí),學(xué)??衫脠D書館借閱平臺(tái),從新生入學(xué)第一天起,記錄其借閱圖書的數(shù)量、頻率、種類、周期等行為數(shù)據(jù),通過時(shí)空聚類和共現(xiàn)模式對(duì)數(shù)據(jù)進(jìn)行深入挖掘,就可以大致預(yù)測該生的學(xué)科興趣和專業(yè)愛好,繼而判定其可能感興趣的專業(yè),將之提供給學(xué)生,作為其挑選專業(yè)的參考數(shù)據(jù),對(duì)于解決學(xué)生專業(yè)選擇的盲目性和未來專業(yè)旨趣有很大助益。由此,學(xué)校的專業(yè)定位將被提前明確并適時(shí)調(diào)整,個(gè)性化專業(yè)分流及因材施教將得以可能。
三、大數(shù)據(jù)時(shí)代思維方式對(duì)高校專業(yè)建設(shè)提出新的要求
首先,要求加大專業(yè)建設(shè)數(shù)據(jù)挖掘力度,提升專業(yè)建設(shè)數(shù)據(jù)的實(shí)用價(jià)值。高校在專業(yè)建設(shè)過程中產(chǎn)生了形形的數(shù)據(jù),就專業(yè)內(nèi)在結(jié)構(gòu)的角度來看,包括專業(yè)數(shù)量,專業(yè)定位,課程設(shè)置等信息。從專業(yè)外在價(jià)值的角度來看,包括專業(yè)滿意度、專業(yè)興趣度、專業(yè)課程設(shè)置、專業(yè)實(shí)踐安排、專業(yè)教師配備等信息,這些數(shù)據(jù)的獲取、監(jiān)控和分析直接關(guān)系著專業(yè)建設(shè)的走向,通過獲取這些關(guān)鍵數(shù)據(jù),從大的方面來說,可以預(yù)測專業(yè)定位和人才培養(yǎng)的成效;從小的方面來說,可以及時(shí)有效獲得課程體系和師資力量等有效數(shù)據(jù),進(jìn)一步提高教育教學(xué)質(zhì)量。因此,改變以往被動(dòng)式的搜集專業(yè)數(shù)據(jù)的習(xí)慣,深入挖掘?qū)I(yè)建設(shè)帶來的各種數(shù)據(jù),可以有效提升專業(yè)建設(shè)數(shù)據(jù)的實(shí)際效用。
其次,要求搭建專業(yè)建設(shè)數(shù)據(jù)平臺(tái),拓寬專業(yè)建設(shè)數(shù)據(jù)獲取途徑。良好的數(shù)據(jù)挖掘需要科學(xué)數(shù)據(jù)獲取的平臺(tái),否則無法科學(xué)共享數(shù)據(jù)和分析數(shù)據(jù)的意義,這就需要找尋到一個(gè)專業(yè)的數(shù)據(jù)實(shí)用工具,搭建一個(gè)專業(yè)的數(shù)據(jù)平臺(tái)。以復(fù)旦大學(xué)為例,該校從2012年開始建立和逐步完善校級(jí)統(tǒng)一數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫的基礎(chǔ)上,建立了包含面向師生在內(nèi)的多類的主題數(shù)據(jù)展示系統(tǒng),包括人員信息類(教職工信息統(tǒng)計(jì)、學(xué)生信息統(tǒng)計(jì)、本??粕拘畔⒉樵儭⒔搪毠せ拘畔⒉樵?、研究生基本信息查詢)、科研類(文科科研數(shù)據(jù)分析、教師學(xué)術(shù)表現(xiàn))、教學(xué)類(研究生成績分析、招生數(shù)據(jù)分析、本科生生命周期數(shù)據(jù)分析)、綜合服務(wù)(一卡通分析、圖書館客流分析、綜合校情展示、其他信息)、學(xué)生工作(宿舍數(shù)據(jù)統(tǒng)計(jì)、宿舍使用情況統(tǒng)計(jì))、報(bào)表類(教育部高基報(bào)表)等。[ ]形成了在業(yè)務(wù)管理,教學(xué)資源,網(wǎng)絡(luò)行為三個(gè)層面以數(shù)據(jù)化為著眼點(diǎn),以“人”為中心的數(shù)據(jù)索引和存儲(chǔ)模式。既實(shí)現(xiàn)了數(shù)據(jù)共享,又促進(jìn)了業(yè)務(wù)融合,同時(shí)也為教育決策提供服務(wù)支持。近期教育部組織各高校完善教學(xué)基本狀態(tài)數(shù)據(jù)庫采集的舉措,將對(duì)專業(yè)建設(shè)數(shù)據(jù)的監(jiān)控宏觀調(diào)控起到重大作用,某種程度上佐證了數(shù)據(jù)平臺(tái)搭建的必要性。
最后,要求培養(yǎng)專業(yè)建設(shè)數(shù)據(jù)分析人才,深入分析專業(yè)建設(shè)數(shù)據(jù)意義。大量數(shù)據(jù)的堆積并不能直接產(chǎn)生效益,所謂外行人看熱鬧,內(nèi)行人看門道,研究表明,僅有少量的數(shù)據(jù)能被挖掘用來解決實(shí)際問題,很多復(fù)雜、重要的問題要依靠數(shù)據(jù)處理、數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量來解決。這就要求校園信息化中做數(shù)據(jù)分析的人員需要具備既懂得數(shù)據(jù)、又懂得業(yè)務(wù)的復(fù)合能力,能將業(yè)務(wù)帶入到數(shù)據(jù)剖析過程、將技術(shù)傳遞給業(yè)務(wù)人員。從而建立起大數(shù)據(jù)管理的良性生態(tài)。因此,培養(yǎng)專業(yè)化的數(shù)據(jù)分析人才顯得尤為必要,高校專業(yè)建設(shè)也不例外。當(dāng)數(shù)以萬計(jì)的專業(yè)建設(shè)數(shù)據(jù)蜂擁而至的時(shí)候,如何更好、更科學(xué)有效地獲取、存儲(chǔ)、分析、挖掘和利用它們,非專業(yè)化人員無法有效實(shí)現(xiàn)。有鑒于此,部分院校已在嘗試開設(shè)大數(shù)據(jù)采集與管理專業(yè),意圖培養(yǎng)專業(yè)的大數(shù)據(jù)分析人才。而在國外,如美國,圍繞大數(shù)據(jù)的開發(fā)和應(yīng)用,早已形成了專門的職業(yè),用來專業(yè)挖掘數(shù)據(jù)的意義。所以,在教育管理層面上嘗試培養(yǎng)專門的專業(yè)建設(shè)數(shù)據(jù)分析人才,對(duì)于專業(yè)建設(shè)發(fā)展有著深遠(yuǎn)的意義。
參考文獻(xiàn)
[ 1 ] 張燕南等. 大數(shù)據(jù)時(shí)代思維方式對(duì)教育的啟示[ J ] . 教育發(fā)展研究,2013(11):2-3
[2]吉根林等.面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘綜述[J].南京師大學(xué)報(bào)·自然科學(xué)版,2014(3):3
[3]呂本富等.大數(shù)據(jù)預(yù)測研究及相關(guān)問題[J].科技促進(jìn)發(fā)展,2014(1):61-62
[4]趙澤宇等.復(fù)旦大學(xué):大數(shù)據(jù)促進(jìn)服務(wù)模式轉(zhuǎn)變[J].中國教育網(wǎng)絡(luò),2014:69
篇6
關(guān)鍵字:大數(shù)據(jù) 情報(bào)研究 情報(bào)研究技術(shù)
中圖分類號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(big data)時(shí)代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對(duì)自己的研究和實(shí)踐帶來的深刻影響,情報(bào)研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個(gè)簡單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個(gè)V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會(huì),使業(yè)務(wù)更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報(bào)告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對(duì)數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計(jì)計(jì)算,而是深層的挖掘。大數(shù)據(jù)時(shí)代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價(jià)值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問題?!皹I(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對(duì)數(shù)據(jù)分析提出了新的、更高的要求??梢赃@么說,大數(shù)據(jù)時(shí)代就是數(shù)據(jù)分析的時(shí)代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個(gè)事實(shí)或規(guī)律可以同時(shí)隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個(gè)事實(shí)或規(guī)律的某一個(gè)或幾個(gè)側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過程中有意識(shí)地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識(shí)。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會(huì)帶來數(shù)據(jù)獲取、整合、存儲(chǔ)、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時(shí),大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計(jì)算機(jī)輔助分析或基于計(jì)算機(jī)的智能化分析,將成為大數(shù)據(jù)時(shí)代數(shù)據(jù)與信息分析的主流模式。
對(duì)于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報(bào)研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機(jī)遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時(shí)代,情報(bào)研究工作正在得到空前的重視,大數(shù)據(jù)為情報(bào)研究的新發(fā)展提供了機(jī)會(huì),從更為廣闊的視野來看待情報(bào)研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進(jìn)情報(bào)研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時(shí)代本身也要求各行各業(yè)重視情報(bào)研究工作,這就必然使得眾多學(xué)科有意識(shí)地涉足到以往作為專門領(lǐng)域的情報(bào)研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報(bào)研究所獨(dú)占,以往情報(bào)研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢不再。因此,如何把握住自身的優(yōu)勢,并抓住機(jī)會(huì)有所拓展,是情報(bào)學(xué)在大數(shù)據(jù)時(shí)代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報(bào)研究的發(fā)展趨勢
大數(shù)據(jù)帶來的新觀念,正在引報(bào)研究的新發(fā)展,而且,研究人員也在不斷地從情報(bào)研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報(bào)研究的未來走向。英國萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報(bào)分析的今天和明天”的報(bào)告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問題,將導(dǎo)致情報(bào)研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國政府部門內(nèi)部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動(dòng),導(dǎo)致情報(bào)研究中的預(yù)測失敗;③要汲取更多外界的專業(yè)知識(shí)。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報(bào)研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國內(nèi)外同行的研究成果,本文將情報(bào)研究的發(fā)展趨勢總結(jié)為以下五個(gè)方面:單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性;情報(bào)研究的智能化。
2.1 單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究
隨著學(xué)科的深入交叉融合及社會(huì)發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報(bào)研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報(bào)研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報(bào)、科技情報(bào)等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報(bào)分析的認(rèn)知過程,以指導(dǎo)情報(bào)分析及其工具的研發(fā)。同時(shí),情報(bào)學(xué)中的引文分析等文獻(xiàn)計(jì)量方法也被借鑒用于網(wǎng)站影響力評(píng)估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計(jì)算機(jī)領(lǐng)域的技術(shù),為情報(bào)研究提供了有力的技術(shù)視角,情報(bào)研究獲得的知識(shí)反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)。可見,無論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識(shí)更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報(bào)研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個(gè)更大的情景下做通盤考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國的創(chuàng)新倡議項(xiàng)目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報(bào)研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾缭缙诘目萍紨?shù)據(jù),可能由于國際形勢等外部因素,導(dǎo)致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評(píng)估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會(huì)得“正確”的錯(cuò)誤結(jié)論,這時(shí)應(yīng)針對(duì)這樣的異常情況,將研究問題放置在當(dāng)時(shí)的時(shí)代背景下,揭示背后的原因,從其他方面收集信息來補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說,必須要考察不同時(shí)間戳下的相關(guān)信息,再對(duì)分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時(shí)間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項(xiàng)技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來討論,可能會(huì)得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對(duì)該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理?xiàng)l件、發(fā)展定位等,卻可能會(huì)得出相反的結(jié)論。這就說明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當(dāng)前關(guān)注的問題不一定就是其他地區(qū)要關(guān)注的問題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報(bào)研究的另一大發(fā)展趨勢。Thomas Fingar[8]從軍事情報(bào)角度指出,軍事情報(bào)界需要綜合利用人際情報(bào)、信號(hào)情報(bào)、圖像情報(bào)和外部情報(bào),進(jìn)行全資源分析(all-source analysis),即利用多種不同的信息資源來評(píng)估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識(shí)或解決政策難題。科技情報(bào)界也是如此,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計(jì)數(shù)據(jù)、高校網(wǎng)站、期刊、報(bào)紙、圖書等來評(píng)估大學(xué)等科研機(jī)構(gòu)??梢?,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來支持情報(bào)研究,信息源可以是學(xué)術(shù)論文、專利等不同類型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢是由幾大因素決定的。一是情報(bào)研究問題的復(fù)雜性。在大數(shù)據(jù)背景下,情報(bào)不再局限在科技部門,而成為全社會(huì)的普遍知識(shí)。公眾對(duì)情報(bào)的需求使得情報(bào)研究問題更為綜合,涉及要素更為多元,同時(shí)也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術(shù)報(bào)告等,可以較為直觀地反映研究者對(duì)某科技問題的理解與描述,而評(píng)論文章、科技新聞、市場調(diào)查等,可以反映出社會(huì)對(duì)該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來看,通常會(huì)遇到某些信息無法獲取的情況,這就需要?jiǎng)e的信息加以替代,這就從實(shí)踐角度說明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評(píng)估大學(xué)為例,評(píng)估的結(jié)果會(huì)引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢和差距,指導(dǎo)未來發(fā)展定位,同時(shí)也為廣大學(xué)生報(bào)考提供參考??梢?,研究結(jié)果對(duì)社會(huì)的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對(duì)待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當(dāng)問題含糊不清時(shí),可能需要不斷地調(diào)整信息源。再次,情報(bào)研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時(shí)候,識(shí)別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會(huì)化媒體(Social Media),包括合作項(xiàng)目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會(huì)世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會(huì)化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會(huì)的公共話語環(huán)境,并引導(dǎo)著技術(shù)、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對(duì)某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會(huì)現(xiàn)象[12]、預(yù)測未來發(fā)展方向[11]等提供了機(jī)會(huì),有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點(diǎn)話題[13]等,帶來了網(wǎng)絡(luò)輿情分析等研究內(nèi)容。此外,這類信息結(jié)合其他類型的數(shù)據(jù),產(chǎn)生了新的情報(bào)研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會(huì)和社區(qū)情報(bào)(social and community intelligence,SCI),揭示人類行為模式和社群動(dòng)態(tài)[14]。
此外,機(jī)構(gòu)知識(shí)庫等作為一種反映組織或群體知識(shí)成果的智力資源,也正引報(bào)界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識(shí)庫應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項(xiàng)事件和正在進(jìn)行的科研活動(dòng)的文檔。這暗示著學(xué)術(shù)界從過去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過程。從機(jī)構(gòu)知識(shí)庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識(shí)庫工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢??梢灶A(yù)見,隨著科技的發(fā)展和應(yīng)用的深入,還會(huì)不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報(bào)研究的發(fā)展。
2.4 強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性
情報(bào)研究活動(dòng)在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴于分析人員根據(jù)已有知識(shí)構(gòu)建認(rèn)知框架(frame),通過對(duì)認(rèn)知框架的不斷修正來達(dá)到理解的目的[18]。這意味著情報(bào)研究活動(dòng)本身帶有很大的不確定性,很多因素影響著情報(bào)研究的有效性。如何使情報(bào)研究工作更加嚴(yán)謹(jǐn),減少情報(bào)分析的不確定、提升情報(bào)成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問題。情報(bào)研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報(bào)研究的過程,是指在情報(bào)研究過程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評(píng)估角度,給出了8個(gè)指標(biāo)來衡量分析過程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評(píng)價(jià)。從這幾項(xiàng)指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來的偏差;解釋評(píng)價(jià)是要正確對(duì)待分析結(jié)論??梢姡閳?bào)研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見,用更為客觀的視角對(duì)待情報(bào)研究。如果說之前的情報(bào)研究活動(dòng)依賴專家的個(gè)人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報(bào)研究活動(dòng)正逐步轉(zhuǎn)變?yōu)橐婚T科學(xué)。
在大數(shù)據(jù)背景下,情報(bào)分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對(duì)技術(shù)的要求。面對(duì)海量數(shù)據(jù),自動(dòng)化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術(shù)手段,如何在這樣的分析環(huán)境中將情報(bào)研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問題??梢钥吹剑眉夹g(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對(duì)同樣一個(gè)問題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見,也許通過多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個(gè)解決方案。可見,在大數(shù)據(jù)時(shí)代,情報(bào)研究需要多種手段來加強(qiáng)其分析過程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報(bào)研究的智能化
大數(shù)據(jù)背景下的情報(bào)研究,對(duì)技術(shù)提出了更高的要求。正如美國國家科學(xué)基金會(huì)(NSF)的報(bào)告[22]所說,美國在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識(shí)的能力。對(duì)于情報(bào)研究來說,應(yīng)用智能化技術(shù)能自動(dòng)進(jìn)行高級(jí)、復(fù)雜的信息處理分析工作,在很大程度上把情報(bào)研究人員從繁瑣的體力勞動(dòng)中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時(shí)收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來講,情報(bào)研究對(duì)象得以擴(kuò)展,其中可能包含微博等社會(huì)化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時(shí),多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術(shù)支持。從分析需求來講,簡單的統(tǒng)計(jì)分析已不能滿足現(xiàn)在社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報(bào)研究的客觀性,摒除過多的主觀意愿,也需要多種技術(shù)來支撐。可見,這一發(fā)展趨勢是大數(shù)據(jù)時(shí)代下的必然。而各國在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動(dòng)著情報(bào)研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項(xiàng)目就致力于為歐洲各領(lǐng)域研究人員提供集成計(jì)算資源,從而推動(dòng)創(chuàng)新。
目前,對(duì)情報(bào)研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。定量化是針對(duì)過去情報(bào)研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計(jì)算機(jī)自動(dòng)化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說是一種定量化的分析??捎?jì)算是指將各種信息資源轉(zhuǎn)化為計(jì)算機(jī)可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語義的信息,采用統(tǒng)計(jì)、數(shù)據(jù)挖掘等方法加以計(jì)算,獲取隱含的知識(shí)。可重復(fù)是指自動(dòng)化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報(bào)研究帶來客觀性的一面。
3 情報(bào)研究中的技術(shù)問題
情報(bào)研究的上述發(fā)展走向,決定了情報(bào)研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計(jì)替代情報(bào)研究中的計(jì)算技術(shù),由此對(duì)情報(bào)研究技術(shù)提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報(bào)告“大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報(bào)告分六個(gè)部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術(shù)也是當(dāng)前情報(bào)分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學(xué)[25],是自動(dòng)分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計(jì)算機(jī)自動(dòng)生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計(jì)、開發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識(shí)發(fā)現(xiàn)過程,關(guān)注自動(dòng)分析方法及其選擇,以及如何將最佳的自動(dòng)分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報(bào)分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對(duì)分析人員來講是個(gè)黑匣子,分析人員無法了解分析方法、分析結(jié)果的局限性或者有效性,這無疑不符合情報(bào)研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時(shí),現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對(duì)情報(bào)分析認(rèn)知過程的支持,這就對(duì)使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個(gè)領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識(shí)表示、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動(dòng)分析,融入交互、認(rèn)知等人的因素來協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報(bào)分析概念模型[29],建立了一個(gè)名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會(huì)議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報(bào)道或?qū)n}博客)領(lǐng)域,也說明了將可視化分析技術(shù)應(yīng)用于情報(bào)研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,有眾多問題要解決。首先,在情報(bào)研究工具中,是以自動(dòng)化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動(dòng)化方法可以緊密結(jié)合的問題,第二類是應(yīng)用自動(dòng)化分析潛力有限的問題,第三類是應(yīng)用可視化分析潛力有限的問題。在研究這三類問題中交互程度對(duì)分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過考慮用戶、任務(wù)和數(shù)據(jù)集特點(diǎn),來確定可視化和自動(dòng)分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]。可見,要將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,需要明確每類問題適用哪種組合方式。其次,情報(bào)研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報(bào)研究領(lǐng)域中的認(rèn)知過程是什么樣的,關(guān)注哪些問題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術(shù)來解決。此外,從現(xiàn)有的可視化分析技術(shù)來看,主要是將各個(gè)相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來,但在將來會(huì)產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會(huì)對(duì)情報(bào)研究帶來怎樣的影響等等,都是在情報(bào)研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個(gè)知識(shí)發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它涵蓋了數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群點(diǎn)分析、序列分析、趨勢和演變分析等,吸納了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、算法、高性能計(jì)算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領(lǐng)域的技術(shù),并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報(bào)研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過程,可以有效地解決情報(bào)研究的問題。例如,情報(bào)研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來分析研究主題的相關(guān)性,從科技論文與專利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報(bào)研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計(jì)、共詞計(jì)算層次上,在知識(shí)發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘??梢?,數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報(bào)研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報(bào)研究自身發(fā)展的需求。此外,由于較少有專門針對(duì)情報(bào)研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報(bào)分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時(shí)使用好幾個(gè)分析工具,如在使用SPSS進(jìn)行聚類分析的同時(shí),還使用Ucinet分析社會(huì)網(wǎng)絡(luò)。這帶來的問題是,分析缺乏完整性,可能社會(huì)網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚?,就?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報(bào)研究的挖掘工具,是必要也是緊迫的,尤其是面對(duì)大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報(bào)分析任務(wù),分析哪些問題是可以使用數(shù)據(jù)挖掘技術(shù)來支持的,這類問題有哪些共同點(diǎn)、特殊性,能否對(duì)未來可能的情報(bào)分析問題進(jìn)行擴(kuò)展,哪些問題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對(duì)于某類或某個(gè)分析問題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對(duì)該問題進(jìn)行適應(yīng)性改造,如何評(píng)價(jià)挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢,即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會(huì)對(duì)情報(bào)研究帶來哪些影響,如何在這一背景下,探索情報(bào)研究工具的新發(fā)展,尋找情報(bào)分析的新模式,值得我們關(guān)注。
3.3 語義處理
語義是關(guān)于意義(meaning)的科學(xué),語義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計(jì)算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語義技術(shù)包括語義標(biāo)注、知識(shí)抽取、檢索、建模、推理等[34]。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對(duì)各類信息的語義處理,在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報(bào)研究實(shí)踐和工具看,語義支持的缺失是一個(gè)普遍問題,這其中又可劃分為兩個(gè)層次。對(duì)于傳統(tǒng)的情報(bào)研究對(duì)象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內(nèi)容主題時(shí),需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時(shí),常常無法識(shí)別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結(jié)果上,缺乏有效的主題說明,自動(dòng)形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對(duì)大數(shù)據(jù)的沖擊,這種半自動(dòng)化的處理方法無疑是耗時(shí)又費(fèi)力的。此外,對(duì)于新型情報(bào)研究對(duì)象,如網(wǎng)絡(luò)新聞、博客等,已有如動(dòng)態(tài)監(jiān)測科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應(yīng)用語義技術(shù)成為廣泛需求及必然。
將語義技術(shù)應(yīng)用于情報(bào)分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報(bào)研究任務(wù)的特點(diǎn),了解它的語義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對(duì)多維度劃分出的各類任務(wù)給出詳細(xì)的規(guī)范,例如,對(duì)微博等社會(huì)化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會(huì)化媒體中的語義任務(wù)之一。其次,語義資源建設(shè)問題,即在情報(bào)分析領(lǐng)域中,要實(shí)現(xiàn)語義層面上的理解,是否需要建設(shè)語義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構(gòu)建,并且這種語義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報(bào)研究工作。第三,信息抽取問題??萍夹畔⑸婕氨姸鄬W(xué)科的專業(yè)術(shù)語、各種科研機(jī)構(gòu)、組織等,如何使用語義技術(shù)將這些信息準(zhǔn)確地提取出來并加以標(biāo)注,尤其是針對(duì)不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術(shù),把不同來源的數(shù)據(jù)對(duì)象及其互動(dòng)關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個(gè)新的具有更高效率和更好性能的具有語義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4 結(jié)語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報(bào)學(xué)領(lǐng)域中情報(bào)研究的理論和實(shí)踐帶來了機(jī)遇,也帶來了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對(duì)此有清醒的認(rèn)識(shí)。本文分析了大數(shù)據(jù)背景下情報(bào)研究的若干發(fā)展趨勢,總結(jié)了情報(bào)研究中值得關(guān)注的技術(shù)問題,以期能為促進(jìn)情報(bào)研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL].?。?012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
篇7
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;學(xué)科館員;數(shù)據(jù)素養(yǎng)服務(wù);學(xué)科發(fā)展支撐服務(wù)
摘要:在大數(shù)據(jù)環(huán)境下,高校學(xué)科館員應(yīng)努力提供基于數(shù)據(jù)獲取與利用的信息素養(yǎng)服務(wù),為學(xué)者提供基于文獻(xiàn)信息和數(shù)據(jù)的學(xué)科知識(shí)發(fā)展支撐服務(wù),為學(xué)校科研管理與決策部門提供決策支持服務(wù),為深入科研一線的學(xué)者提供定制化知識(shí)服務(wù)。
中圖分類號(hào):G251.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2017)04-0131-03
1大數(shù)據(jù)對(duì)圖書館發(fā)展的挑戰(zhàn)
1980年,美國最早提出了“大數(shù)據(jù)”概念,但大數(shù)據(jù)時(shí)代的到來是在2004年以后,以Facebook、Twitter為代表的社交媒體相繼出現(xiàn),互聯(lián)網(wǎng)成為全世界網(wǎng)民實(shí)時(shí)互動(dòng)、交流協(xié)同的載體。隨著數(shù)字化、移動(dòng)化、網(wǎng)絡(luò)化的發(fā)展,大數(shù)據(jù)的應(yīng)用無處不在,使得圖書館用戶的信息環(huán)境、信息行為等發(fā)生了巨大的變化,圖書館已經(jīng)不再是用戶獲取信息的唯一渠道。對(duì)用戶來說,在大數(shù)據(jù)時(shí)代,信息資源的組織管理、數(shù)據(jù)挖掘和價(jià)值發(fā)現(xiàn)比信息獲取更加重要。
Web of Science、中國知網(wǎng)等國內(nèi)外商業(yè)數(shù)據(jù)庫的迅猛發(fā)展,使得圖書館需要培養(yǎng)大數(shù)據(jù)時(shí)代的圖書館數(shù)據(jù)管理與應(yīng)用人才。隨著采集存儲(chǔ)數(shù)據(jù)的成本越來越低,分析工具越來越先進(jìn),個(gè)人隱私安全面臨著巨大的沖擊與風(fēng)險(xiǎn),如何保護(hù)用戶的個(gè)人隱私,對(duì)新時(shí)代的圖書館員提出了更高的職業(yè)道德與專業(yè)素養(yǎng)要求[1]。傳統(tǒng)出版社的電子出版、數(shù)字圖書館的發(fā)展及開放獲取等,促進(jìn)了科研資源的大數(shù)據(jù)化發(fā)展。為此,學(xué)科服務(wù)在大數(shù)據(jù)時(shí)代應(yīng)積極探索信息服務(wù)的新理念和新方法,努力構(gòu)建智慧學(xué)科服務(wù)[2]。學(xué)科服務(wù)是圖書館全館服務(wù)體系的靈魂和有機(jī)部分,學(xué)科館員是全館最核心、最重要的資源,應(yīng)當(dāng)借助大數(shù)據(jù)時(shí)代的優(yōu)勢與機(jī)遇,在算機(jī)軟硬件操作、信息資源挖掘、讀者隱私保護(hù)等方面提高服務(wù)質(zhì)量[3],從而運(yùn)用知識(shí)圖譜整理館藏資源、建立學(xué)科文獻(xiàn)數(shù)據(jù)庫、整合資源知識(shí)等。
2基于數(shù)據(jù)獲取與利用的信息素養(yǎng)服務(wù)
數(shù)據(jù)素養(yǎng)主要體現(xiàn)為數(shù)據(jù)解讀、數(shù)據(jù)管理、數(shù)據(jù)利用、數(shù)據(jù)評(píng)價(jià)等[4],強(qiáng)調(diào)對(duì)數(shù)據(jù)的操作和使用。另外,其還包括數(shù)據(jù)的倫理道德修養(yǎng)[5]、數(shù)據(jù)存取[6]等。學(xué)科館員應(yīng)具有發(fā)現(xiàn)、評(píng)估與使用信息和數(shù)據(jù)的意識(shí)和能力。
2.1數(shù)據(jù)獲取與利用能力
學(xué)科館員的數(shù)據(jù)素養(yǎng)主要體現(xiàn)為對(duì)科學(xué)數(shù)據(jù)的獲取和再利用、數(shù)據(jù)庫重組、數(shù)據(jù)分析與可視化軟件使用及培訓(xùn)等。預(yù)計(jì)到2020年,80%以上的公益性、基礎(chǔ)性科學(xué)數(shù)據(jù)資源將通過因特網(wǎng)面向全社會(huì)共享。學(xué)科館員應(yīng)幫助用戶群體提高數(shù)據(jù)獲取能力,努力培養(yǎng)和提高用戶群體的公共自助科學(xué)數(shù)據(jù)開放獲取意識(shí),幫助人們識(shí)別和查找科研數(shù)據(jù)的在線信息庫。此外,數(shù)據(jù)重組會(huì)創(chuàng)造出更大的價(jià)值,如:英屬哥倫比亞大學(xué)圖書館和華盛頓大學(xué)圖書館建設(shè)學(xué)科服務(wù)門戶,將購買的多個(gè)數(shù)據(jù)庫(如期刊論文、圖書、研究報(bào)告、數(shù)據(jù)、數(shù)字化館藏、學(xué)位論文等)分裝打包,并推送到各學(xué)科平臺(tái),不僅降低了用戶查找相關(guān)數(shù)據(jù)庫的時(shí)間成本,而且提高了各數(shù)據(jù)庫的利用率;北京大學(xué)將古籍資源加入3D技術(shù)進(jìn)行處理,添加古代地圖,聚合其他人文景觀信息,大大提高了古籍的觀賞價(jià)值和利用率。
2.2學(xué)會(huì)和善于利用工具
在新時(shí)期,學(xué)科館員應(yīng)具有學(xué)科專才、情報(bào)能力,并能熟練掌握及利用相關(guān)的軟件工具,如:信息導(dǎo)航、信息檢索、檢索查新、文獻(xiàn)管理、知識(shí)發(fā)現(xiàn)、專利分析等工具。數(shù)據(jù)軟件培訓(xùn)主要是指學(xué)科館員根據(jù)用戶需求,到相關(guān)院系開設(shè)數(shù)據(jù)分析軟件(如SPSS、Eviews、Stata等)、文獻(xiàn)管理軟件(如EndNote、RefWorks等)、科研管理軟件、商業(yè)統(tǒng)計(jì)軟件等相關(guān)專題講座、討論會(huì),幫助用戶主動(dòng)運(yùn)用軟件工具并提高科研效率。云計(jì)算正在改變?nèi)藗儗?duì)數(shù)據(jù)存儲(chǔ)的看法,海量數(shù)據(jù)存檔研究成為一項(xiàng)基礎(chǔ)性工作,越來越多的大學(xué)和研究中心開始建立科學(xué)數(shù)據(jù)倉儲(chǔ)庫,如Figshare、Dryad、PANGAEA等。因此,面對(duì)云架構(gòu),學(xué)科館員需要對(duì)云存儲(chǔ)等數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施及數(shù)據(jù)組織進(jìn)行必要的了解和認(rèn)識(shí),通過高度標(biāo)準(zhǔn)化的數(shù)據(jù)存儲(chǔ)工具適應(yīng)科研數(shù)據(jù)負(fù)載的變更,保證在可信賴環(huán)境中提供數(shù)據(jù)集的持續(xù)永久性訪問。
3基于文獻(xiàn)信息和數(shù)據(jù)的學(xué)科發(fā)展支撐服務(wù)
3.1學(xué)者成果驗(yàn)證
科研機(jī)構(gòu)的科研能力是衡量其競爭能力的重要指標(biāo),學(xué)者作為其中的主體,其科研能力直接決定科研機(jī)構(gòu)的科研水平和后續(xù)的發(fā)展優(yōu)勢。圖書館學(xué)科館員可以根據(jù)學(xué)者需求,利用WOS、Scopus等數(shù)據(jù)庫檢索學(xué)者在某一時(shí)段的發(fā)文數(shù)量、被引頻次、所投期刊的影響因子等,分析合作者的影響和產(chǎn)出績效,并基于學(xué)者個(gè)人成果,包括期刊、會(huì)議論文、專著等作品,提供文獻(xiàn)收錄和引用檢索證明,方便科研人員進(jìn)行職稱申報(bào)、基金申請和評(píng)獎(jiǎng)等。
3.2嵌入式課程教學(xué)
學(xué)科館員以課程為主要服務(wù)方式,提供信息素養(yǎng)教育課程,促進(jìn)用戶通過課件學(xué)習(xí)、課堂研討等方式全面提高自己的信息素養(yǎng)技能。學(xué)科館員與專業(yè)教師進(jìn)行合作,將信息素養(yǎng)培訓(xùn)內(nèi)容嵌入課堂教學(xué),通過“課堂教學(xué)信息指導(dǎo)”和“嵌入課程教學(xué)”等方式,針對(duì)性地提供信息素養(yǎng)教育;借助虛擬學(xué)習(xí)環(huán)境,提供注冊課程,獲取課程學(xué)習(xí)資源、課程考試資源等內(nèi)容,延伸教學(xué)空間與交流空間,培養(yǎng)學(xué)生的終生學(xué)習(xí)能力。
篇8
關(guān)鍵詞:大數(shù)據(jù);經(jīng)濟(jì)學(xué);數(shù)據(jù)分析
大數(shù)據(jù)作為一種有用的信息資源,在商業(yè)、金融等領(lǐng)域發(fā)揮著越來越重要作用,也逐漸成為社會(huì)科學(xué)的國際前沿應(yīng)用研究內(nèi)容之一。然而,在經(jīng)濟(jì)學(xué)領(lǐng)域,大數(shù)據(jù)還鮮少被用到(據(jù)統(tǒng)計(jì),截至2014年12月,google中學(xué)術(shù)搜索到的與“大數(shù)據(jù)”有關(guān)的研究論文共3026篇,其中僅有29篇是和經(jīng)濟(jì)學(xué)相關(guān))。但因海量經(jīng)濟(jì)數(shù)據(jù)資源的快速增長,計(jì)算技術(shù)和能力的不斷提高,以及方法論的不斷發(fā)展,將大數(shù)據(jù)分析技術(shù)運(yùn)用于經(jīng)濟(jì)學(xué)已成為一個(gè)值得探討的新課題。展望未來,由于經(jīng)濟(jì)學(xué)是一門理論與實(shí)踐相結(jié)合的學(xué)科,將大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué),有可能會(huì)開辟一個(gè)全新的經(jīng)濟(jì)學(xué)發(fā)展領(lǐng)域。
一、大數(shù)據(jù)在經(jīng)濟(jì)學(xué)領(lǐng)域應(yīng)用的基本原理
大數(shù)據(jù)在經(jīng)濟(jì)學(xué)中應(yīng)用的基本思路以大樣本數(shù)據(jù)統(tǒng)計(jì)與機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ)。其中大樣本統(tǒng)計(jì)的過程概括如下:用N個(gè)代入變量得出對(duì)應(yīng)的N個(gè)測量結(jié)果與K個(gè)潛在的預(yù)測因子,比如:以居民消費(fèi)價(jià)格CPI指數(shù)預(yù)測為例,首先通過GOOGLE數(shù)據(jù)搜索或其他軟件,篩選出同CPI有關(guān)的一系列關(guān)鍵詞(比如糧食產(chǎn)量、原油期貨價(jià)格、氣候溫度、價(jià)格改革政策等),然后通過這些關(guān)鍵詞在文本數(shù)據(jù)(新聞、微博、評(píng)論、研究報(bào)告、學(xué)術(shù)論文等)出現(xiàn)的時(shí)間頻次,計(jì)算它們之間的相關(guān)關(guān)系和邏輯路徑關(guān)系,從而得到測量結(jié)果N和預(yù)測因子K。在許多情形下,每一個(gè)代入變量的信息是足夠豐富的,但不具有結(jié)構(gòu)性,故可能會(huì)產(chǎn)生很多潛在預(yù)測因子,因此,需要注意的是:若是過度擬合,即預(yù)測因子K的個(gè)數(shù)可能會(huì)遠(yuǎn)遠(yuǎn)大于觀測變量N的個(gè)數(shù)時(shí),雖然模型可完美解釋觀測到的結(jié)果,但樣本外數(shù)據(jù)的解釋力卻很差。在這種狀況下,構(gòu)造一個(gè)最大化樣本解釋力的模型便成為首要目標(biāo),同時(shí)構(gòu)建的模型還不能出現(xiàn)因過度擬合所導(dǎo)致的樣本外無力解釋的情形。因模型構(gòu)建不同,使用方法也隨之改變,懲罰預(yù)測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據(jù)最小化離差平方和來選擇模型系數(shù)。通過將樣本分為“訓(xùn)練樣本”和“測試樣本”(“訓(xùn)練樣本”用來估計(jì)模型參數(shù),“測試樣本”用來評(píng)估模型)進(jìn)行過度擬合。而在評(píng)估預(yù)測效果時(shí),一般交叉使用樣本內(nèi)預(yù)測與過度擬合,但目前這種交叉驗(yàn)證的方法在當(dāng)前的實(shí)證微觀經(jīng)濟(jì)學(xué)中也鮮少用到。
機(jī)器學(xué)習(xí)的一個(gè)非常重要假設(shè)就是機(jī)器學(xué)習(xí)的環(huán)境是相對(duì)穩(wěn)定的,也就是樣本數(shù)據(jù)(訓(xùn)練樣本與測試樣本情形相同)獨(dú)立產(chǎn)生于同一過程。但由于現(xiàn)實(shí)環(huán)境會(huì)隨著時(shí)間發(fā)生改變,故這一假設(shè)并不合理,因此,在高頻使用新數(shù)據(jù)的應(yīng)用中,往往通過對(duì)自身持續(xù)“再訓(xùn)練”,從而使得模型可以隨著時(shí)間與環(huán)境的變化對(duì)預(yù)測結(jié)果進(jìn)行調(diào)整。當(dāng)然,對(duì)于機(jī)器學(xué)習(xí),有些經(jīng)濟(jì)學(xué)家提出了盧卡斯批判的疑問,即若根據(jù)模型的預(yù)測結(jié)果進(jìn)行政策調(diào)整,則政策調(diào)整后的現(xiàn)實(shí)結(jié)果可能與初始模型的預(yù)測結(jié)果有差異,因?yàn)檎叩母淖儠?huì)影響數(shù)據(jù)間的潛在行為關(guān)系,但這一疑問在其他預(yù)測模型,比如計(jì)量經(jīng)濟(jì)模型、結(jié)構(gòu)方程模型和聯(lián)立系統(tǒng)模型中也都存在。
二、大數(shù)據(jù)對(duì)經(jīng)濟(jì)學(xué)的影響及前景
如今,隨著數(shù)據(jù)樣本容量的急劇增加,使得大數(shù)據(jù)的使用方式不盡相同。作為一個(gè)規(guī)律性科學(xué),經(jīng)濟(jì)學(xué)需要廣泛、詳細(xì)的數(shù)據(jù),并運(yùn)用統(tǒng)計(jì)技術(shù)來處理新型數(shù)據(jù),大數(shù)據(jù)的出現(xiàn)可能會(huì)在社會(huì)學(xué)與計(jì)算機(jī)科學(xué)間構(gòu)建一架橋梁,其學(xué)科價(jià)值可能在于創(chuàng)造新的思維方式,這將會(huì)導(dǎo)致對(duì)經(jīng)濟(jì)學(xué)的新思考和研究方法創(chuàng)新,甚至?xí)矸治鼋?jīng)濟(jì)學(xué)方法的質(zhì)變。
一方面,由于多維度的精細(xì)間隔,大數(shù)據(jù)可以為經(jīng)濟(jì)學(xué)研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經(jīng)濟(jì)理論研究提供了一種全新的測量方法。例如:麻省理工大學(xué)助理教授Alberto Cavallo設(shè)計(jì)的“百萬價(jià)格”項(xiàng)目,該項(xiàng)目旨在通過一個(gè)網(wǎng)絡(luò)程序,獲取網(wǎng)上物品價(jià)格,繼而運(yùn)用這些數(shù)據(jù)計(jì)算得出通脹指數(shù),該通貨膨脹指數(shù)就是阿根廷的精確透明通貨膨脹指標(biāo),其實(shí)時(shí)價(jià)格數(shù)據(jù)的捕捉能力和準(zhǔn)確度,使得該指標(biāo)作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數(shù)據(jù)選擇也提供了一個(gè)探索新機(jī)會(huì)的理由,目前一個(gè)備受矚目的例子就是“及時(shí)預(yù)報(bào)”,在某些方面它可以通過龐大經(jīng)濟(jì)社會(huì)數(shù)據(jù)集進(jìn)行短期精確預(yù)測。
另一方面,大數(shù)據(jù)已與行為經(jīng)濟(jì)學(xué)相適應(yīng),成為產(chǎn)業(yè)相關(guān)經(jīng)濟(jì)規(guī)律研究的一部分,并且,大數(shù)據(jù)在經(jīng)濟(jì)學(xué)領(lǐng)域已經(jīng)顯示出眾多的優(yōu)越性。大數(shù)據(jù)已有潛力去挑戰(zhàn)理性概念,例如對(duì)于經(jīng)濟(jì)學(xué)家在預(yù)測問題上的出錯(cuò)概率,強(qiáng)調(diào)樣本偏差的方法;或者對(duì)于政策刺激的外部效應(yīng)問題,強(qiáng)調(diào)在社會(huì)媒體中情緒化分析出現(xiàn)的混亂問題,總而言之,大數(shù)據(jù)與先進(jìn)的建模策略相結(jié)合,可以產(chǎn)生更詳細(xì)、更準(zhǔn)確和更有說服力的解釋和分析。
篇9
一、大數(shù)據(jù)的基本概念
大數(shù)據(jù)(bigdata)即是在網(wǎng)絡(luò)多元化形式之中的一種巨型數(shù)據(jù)集合,其來源于社交網(wǎng)絡(luò)、搜索引擎以及電子商務(wù)網(wǎng)絡(luò)等等,具有體量大、速率高、多樣性、真實(shí)以及價(jià)值等幾個(gè)主要的特征。大數(shù)據(jù)與云計(jì)算具有較為密切的聯(lián)系,因?yàn)閱我坏挠?jì)算機(jī)并無法對(duì)大數(shù)據(jù)進(jìn)行處理,因此需要利用分布式的計(jì)算框架,其基本特點(diǎn)在于對(duì)巨型數(shù)據(jù)的深度挖掘,但始終需依托于云計(jì)算的分布式處理。早在二十世紀(jì)八十年代便已有科學(xué)家做出預(yù)見,大數(shù)據(jù)所帶來的變革必將改變我的生活、工作方式以及思維。在近十年間,大數(shù)據(jù)已成為互聯(lián)網(wǎng)技術(shù)的一個(gè)重要方面,其關(guān)注度也呈逐年上升的趨勢。正是在這樣的環(huán)境之中,我國的企業(yè)經(jīng)營發(fā)展迎來了前所未有的機(jī)遇與挑戰(zhàn)。
二、大數(shù)據(jù)時(shí)代下企業(yè)經(jīng)營管理所面臨的挑戰(zhàn)
(一)數(shù)據(jù)多樣化
信息的發(fā)展與經(jīng)濟(jì)的進(jìn)步基本上是保持這相同的步調(diào),在大數(shù)據(jù)背景下,企業(yè)需要根據(jù)實(shí)際的經(jīng)營需求,自由選擇傳統(tǒng)以及現(xiàn)代兩種信息數(shù)據(jù)收集的方式,并對(duì)不同網(wǎng)絡(luò)渠道信息資源的收集進(jìn)行探究,尤其是在電子商務(wù)飛速發(fā)展的今天,對(duì)圖片、視頻以及數(shù)據(jù)內(nèi)容進(jìn)行采集。就企業(yè)自身的經(jīng)營管理而言,大部分企業(yè)對(duì)于信息收集處理的方式還比較局限,基本還停留在滿足于結(jié)構(gòu)信息發(fā)展的需求之上,而對(duì)于企業(yè)自身的非結(jié)構(gòu)化信息則難以進(jìn)行有效的處理與分析。值得說明的是,企業(yè)自身的非結(jié)構(gòu)化信息在企業(yè)的經(jīng)營管理之中占據(jù)著較為重要的地位,甚至可以說對(duì)企業(yè)非結(jié)構(gòu)化信息的處理是企業(yè)經(jīng)營發(fā)展的基礎(chǔ)。
(二)實(shí)時(shí)數(shù)據(jù)分析
隨著經(jīng)濟(jì)全球化程度的加深,企業(yè)的發(fā)展與其內(nèi)部系統(tǒng)以及外部環(huán)境有著密不可分的關(guān)系,這兩者的基本特點(diǎn)是迅捷、快速、高效。簡而言之,在大數(shù)據(jù)時(shí)代下企業(yè)自身數(shù)據(jù)處理的任務(wù)正在飛速增長。與傳統(tǒng)企業(yè)的經(jīng)營管理模式不同,現(xiàn)代化企業(yè)的管理很大程度上依賴于企業(yè)對(duì)信息數(shù)據(jù)“即時(shí)”的分析把握?;诖?,企業(yè)將面臨相當(dāng)龐大的信息處理任務(wù),而隨著信息分析處理任務(wù)量的急劇增長,也對(duì)企業(yè)信息數(shù)據(jù)處理的速度以及質(zhì)量提出了更高的要求。大數(shù)據(jù)時(shí)代下的企業(yè)信息數(shù)據(jù)處理必須始終保持“即時(shí)”性,這也是現(xiàn)代化企業(yè)信息數(shù)據(jù)處理分析的基本發(fā)展趨向,同時(shí)也是企業(yè)健康穩(wěn)定發(fā)展的基本需求。
(三)建立在數(shù)據(jù)內(nèi)容上的決策
企業(yè)現(xiàn)代化程度的加深,意味著企業(yè)各類經(jīng)營活動(dòng)均對(duì)信息數(shù)據(jù)有著更高的要求,這也是企業(yè)數(shù)據(jù)信息處理分析發(fā)展的一個(gè)方向。對(duì)于信息數(shù)據(jù)的精確分析,是理性決策的重要保障,能夠有效提高決策的科學(xué)性、規(guī)范性以及精確性,避免因數(shù)據(jù)內(nèi)容的不準(zhǔn)確,導(dǎo)致決策者出現(xiàn)不同程度的錯(cuò)誤判斷,減少企業(yè)經(jīng)營發(fā)展的風(fēng)險(xiǎn)。就現(xiàn)狀來說,許多企業(yè)在擴(kuò)大生產(chǎn)以及業(yè)務(wù)范圍的過程之中,對(duì)于信息數(shù)據(jù)的處理分析并不如何重視,只是盲目的將所得信息進(jìn)行單向性的匯總,而缺乏對(duì)于信息數(shù)據(jù)內(nèi)容的歸納判斷,同時(shí)對(duì)于同行業(yè)內(nèi)企業(yè)的信息數(shù)據(jù)也并不重視,導(dǎo)致企業(yè)決策出現(xiàn)一定的紕漏。在大數(shù)據(jù)的時(shí)代背景之下,只有充分重視信息數(shù)據(jù)內(nèi)容,并對(duì)其進(jìn)行科學(xué)化的處理分析,才能夠有效解決企業(yè)內(nèi)部管理所存在的問題。因此,為了對(duì)傳統(tǒng)決策觀念與模式進(jìn)行改變,就有必要進(jìn)行科學(xué)規(guī)范的數(shù)據(jù)分析,并將決策的舉措置于數(shù)據(jù)內(nèi)容上進(jìn)行,以謀求企業(yè)長遠(yuǎn)發(fā)展。
(四)關(guān)注數(shù)據(jù)安全
現(xiàn)代化企業(yè)經(jīng)營管理各類活動(dòng)的均與信息數(shù)據(jù)的準(zhǔn)確性有著較為密切的聯(lián)系,這也包括企業(yè)自身所掌握的信息,尤其是企業(yè)客戶的信息,對(duì)于企業(yè)來說更是其核心價(jià)值之所在。在大數(shù)據(jù)的時(shí)潮之中,企業(yè)必須思考如該如何在有效分析處理信息數(shù)據(jù)的基礎(chǔ)之上,對(duì)企業(yè)商業(yè)機(jī)密以及客戶信息進(jìn)行全面的保護(hù)。
三、大數(shù)據(jù)時(shí)代下企業(yè)經(jīng)營管理模式與發(fā)展分析
(一)運(yùn)營決策以數(shù)據(jù)為基礎(chǔ)
在大數(shù)據(jù)的時(shí)代背景之下,企業(yè)必須強(qiáng)化對(duì)內(nèi)部信息數(shù)據(jù)的整合管理并逐步建立起相關(guān)的體系,使企業(yè)日常經(jīng)營活動(dòng)均有相關(guān)的信息數(shù)據(jù)內(nèi)容作為參照。為推動(dòng)企業(yè)經(jīng)營管理模式的進(jìn)步,就搭建企業(yè)內(nèi)部信息數(shù)據(jù)的平臺(tái),使企業(yè)內(nèi)部的信息數(shù)據(jù)分析管理體系趨向規(guī)范化,以提升企業(yè)整體信息數(shù)據(jù)分析管理工作的效率。這也意味著,企業(yè)必須建立于社會(huì)網(wǎng)絡(luò)的鏈接,并提高對(duì)于社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的觀察與分析,通過對(duì)不同社會(huì)網(wǎng)絡(luò)平臺(tái)上的信息數(shù)據(jù)進(jìn)行采集整理,深度挖掘管理活動(dòng)之中所需的信息內(nèi)容,并完成后續(xù)的分析傳輸工作。同時(shí),企業(yè)也必須加深對(duì)于信息數(shù)據(jù)采集搜索的強(qiáng)度,以提升企業(yè)信譽(yù)為基本目的,制定多層次、多角度、多取向的音效策略。以上內(nèi)容,均建立在對(duì)信息數(shù)據(jù)的分析處理之上,實(shí)現(xiàn)企業(yè)運(yùn)營決策的所有內(nèi)容都有其信息數(shù)據(jù)的基礎(chǔ)。
(二)培養(yǎng)數(shù)據(jù)管理人才
目前,市場環(huán)境乃是以知識(shí)經(jīng)濟(jì)作為基本引導(dǎo),這也意味著企業(yè)的經(jīng)營發(fā)展愈來愈倚重于人才,尤其是在大數(shù)據(jù)時(shí)代下,企業(yè)想要在日趨激烈的市場競爭之中脫穎而出,就必須加大對(duì)于人才的吸納。大數(shù)據(jù)時(shí)代的來臨,對(duì)于企業(yè)的經(jīng)營管理提出了更高的要求以及標(biāo)準(zhǔn),這也是對(duì)企業(yè)內(nèi)部人才綜合素質(zhì)的長大考驗(yàn)。為了保證企業(yè)信息數(shù)據(jù)分析管理工作的效率與質(zhì)量,就有必要培養(yǎng)符合企業(yè)發(fā)展需求的數(shù)據(jù)管理人才,以大數(shù)據(jù)時(shí)代的要求來看,對(duì)信息數(shù)據(jù)具有敏銳感知能力、應(yīng)對(duì)能力以及分析能力是一名優(yōu)秀數(shù)據(jù)管理人才所須具備的基本素質(zhì)。因此,企業(yè)必須加強(qiáng)對(duì)數(shù)據(jù)管理人才的儲(chǔ)備,并建立完善的招聘、篩選、任用、培訓(xùn)制度以及相關(guān)的考核獎(jiǎng)勵(lì)機(jī)制,推動(dòng)企業(yè)數(shù)據(jù)管理人才工作素質(zhì)的提高。
(三)企業(yè)網(wǎng)絡(luò)的建設(shè)
從提升企業(yè)信息數(shù)據(jù)管理分析的角度來談,就有必要在企業(yè)內(nèi)部建設(shè)全面化、多向性、科學(xué)性的企業(yè)內(nèi)部網(wǎng)絡(luò),為信息數(shù)據(jù)的各項(xiàng)工作提供一個(gè)良好的平臺(tái),并實(shí)現(xiàn)企業(yè)內(nèi)部信息數(shù)據(jù)的有效化管理。企業(yè)網(wǎng)絡(luò)的建設(shè)必須符合企業(yè)經(jīng)營發(fā)展的現(xiàn)狀以及需求,并具備一定的科學(xué)性與合理性,以謀求企業(yè)發(fā)展為基礎(chǔ),提升企業(yè)服務(wù)質(zhì)量為手段,推動(dòng)企業(yè)信息網(wǎng)絡(luò)建設(shè)為最終目的,提高企業(yè)對(duì)信息數(shù)據(jù)分析管理工作的效率。
結(jié)束語
綜上所述,在大數(shù)據(jù)的時(shí)代潮流之中,企業(yè)發(fā)展所面對(duì)的外在環(huán)境具有多樣化的基本特征,且規(guī)模亦不盡相同。企業(yè)經(jīng)營管理的改革必須與信息化社會(huì)的進(jìn)步保持相同的步調(diào)。所以,企業(yè)必須主動(dòng)迎合大數(shù)據(jù)時(shí)代,置身于這股時(shí)潮之中,并結(jié)合自身的具體情況,思考如何有效利用大數(shù)據(jù)時(shí)代所提供的資源來提升企業(yè)自身的競爭力,使企業(yè)在日趨激烈的市場競爭之中,始終立于不敗之地。
參考文獻(xiàn):
[1]陸波.信息爆炸(大數(shù)據(jù))對(duì)現(xiàn)代企業(yè)經(jīng)營的挑戰(zhàn)、機(jī)遇與對(duì)策[J].經(jīng)貿(mào)實(shí)踐,2017(15):164-165.
篇10
論文關(guān)鍵詞:網(wǎng)絡(luò)環(huán)境,大學(xué)生信息組織,共享模式
在易班中,這個(gè)新興網(wǎng)絡(luò)群體組織被統(tǒng)稱為網(wǎng)絡(luò)社區(qū),在大家都比較熟悉的易班網(wǎng)按網(wǎng)絡(luò)組織分為機(jī)構(gòu)群和公共群,或者另外一種分類法叫做聊天群和非聊天群。這已經(jīng)初步建立起網(wǎng)絡(luò)組織和共享模式。從最早的BBS,從博客群到微博再到微信、易信,發(fā)展到現(xiàn)在的易班,大學(xué)生網(wǎng)絡(luò)學(xué)習(xí)和生活由此真正也進(jìn)入了專業(yè)化移動(dòng)社區(qū)時(shí)代。自從易班校園好聲音活動(dòng)開播以來,易班網(wǎng)絡(luò)社區(qū)在中國網(wǎng)絡(luò)領(lǐng)域成為了后起之秀,逐漸成為大學(xué)師生獲取、交流與傳播信息的重要平臺(tái)。
然而,在當(dāng)今社會(huì),QQ、微信、易信等平臺(tái)仍然是主流新媒體。隨著大學(xué)生網(wǎng)絡(luò)社區(qū)的迅速發(fā)展,易班網(wǎng)絡(luò)的社區(qū)信息資源的管理尤其是信息組織和分享方面的問題日益凸顯。如何在尊重學(xué)生個(gè)性發(fā)展的基礎(chǔ)上有效地對(duì)大學(xué)生進(jìn)行思想政治教育,如何控制網(wǎng)絡(luò)組織中的信息流向,讓信息流變成現(xiàn)實(shí)的管理數(shù)據(jù)庫,如何把網(wǎng)絡(luò)信息資源組織成有序而優(yōu)化的信息管理反饋系統(tǒng),比如學(xué)生的網(wǎng)絡(luò)話語與學(xué)生的操行自動(dòng)比對(duì),形成管理者的共享材料。這是當(dāng)前網(wǎng)絡(luò)社區(qū)信息管理的幾大難題,也是解決當(dāng)前大學(xué)生網(wǎng)絡(luò)社區(qū)信息個(gè)性化需求與高校有序管理需求之間的矛盾的主要措施。
1 易班的信息組織模式和理念還不能很好適應(yīng)A—B
易班作為一個(gè)服務(wù)平臺(tái),首先應(yīng)當(dāng)是一個(gè)管理平臺(tái)。社區(qū)化的思想應(yīng)當(dāng)首先服務(wù)于高校管理。過于追求社區(qū)化,當(dāng)然某種意義上利于學(xué)生群體自由,但是不利于管理。試用易班后,多數(shù)高校發(fā)現(xiàn)了這個(gè)問題。易班原來英文名叫“E-class”,建立以班級(jí)為群體或者小社區(qū)的理念是它的初衷,這個(gè)是好的,但是班級(jí)一定要找到它的根,即要找到它的院系然后找到它的大學(xué)。這樣才有管理的條件。而且班級(jí)新聞怎么推送上去要看這個(gè)鏈條是否完整,管理節(jié)點(diǎn)有沒有。易班的信息組織模式要是能適應(yīng)當(dāng)前網(wǎng)絡(luò)時(shí)代的發(fā)展,就一定要做到A—B—C的模式,其中第一個(gè)重要環(huán)節(jié)就是A—B,A就是網(wǎng)絡(luò)服務(wù)提供商,就是教育部易班發(fā)展中心,B就是各個(gè)高校的管理層,這個(gè)脈絡(luò)不僅在現(xiàn)實(shí)生活中非常清晰,而且要做到在網(wǎng)絡(luò)中也非常清晰。學(xué)生有歸屬感,不至于游離于網(wǎng)絡(luò),如果讓學(xué)生隨心所欲,學(xué)生就可能走出社會(huì)主義核心價(jià)值觀的輿論氛圍,思想和精神得不到健康發(fā)展。
第二個(gè)環(huán)節(jié)才是B—C,B是各高校的管理者,C就是一個(gè)個(gè)的群組。B是架起易班服務(wù)的橋梁,C是群星燦爛的易班組織,B能體會(huì)到易班的精神并將之傳導(dǎo)到C,C最終能共享易班服務(wù)成果。結(jié)合易班網(wǎng)絡(luò)社區(qū)組織結(jié)構(gòu)構(gòu)成及功能特點(diǎn),以及國內(nèi)外有關(guān)信息組織結(jié)構(gòu)和共享模式的相關(guān)理論,建立“A—B—C”系統(tǒng)化、個(gè)性化的大學(xué)生網(wǎng)絡(luò)社區(qū)中的信息組織管理共享模式,不僅有利于解決網(wǎng)絡(luò)社區(qū)中信息組織新出現(xiàn)的問題,促進(jìn)網(wǎng)絡(luò)社區(qū)中信息資源規(guī)范管理,現(xiàn)代企業(yè)管理論文而且從深層次上揭示信息組織和共享的結(jié)構(gòu)機(jī)制,建立起適應(yīng)復(fù)雜網(wǎng)絡(luò)社區(qū)環(huán)境的、完善高校學(xué)生管理和思想政治教育的信息組織和共享模式。
2 易班信息共享模式有待升華
易班網(wǎng)絡(luò)目前停留在信息分享的初級(jí)階段,各高校仍然不能很好分享或者獲取網(wǎng)絡(luò)中有價(jià)值的信息,也需要自己收集加工信息,這個(gè)情況造成很多輔導(dǎo)員職業(yè)疲倦。以至于討厭易班,不愿意發(fā)動(dòng)學(xué)生加入易班。網(wǎng)絡(luò)社區(qū)中的信息組織和共享模式,不是對(duì)信息組織和共享模式的簡單相加,而是對(duì)傳統(tǒng)信息組織模式的升華和優(yōu)化,是對(duì)傳統(tǒng)社會(huì)中有關(guān)商業(yè)化網(wǎng)絡(luò)信息組織共享模式的方法和經(jīng)驗(yàn)進(jìn)行借鑒、總結(jié)和改造的結(jié)果,是一種具有實(shí)踐過程并將成果指導(dǎo)實(shí)踐的研究。有具體的網(wǎng)絡(luò)社區(qū)環(huán)境應(yīng)用場地,有現(xiàn)實(shí)的易班網(wǎng)絡(luò)平臺(tái),還要有虛擬的大數(shù)據(jù)分析分享系統(tǒng),對(duì)于改善網(wǎng)絡(luò)社區(qū)中的信息組織有重要的指導(dǎo)價(jià)值,能促進(jìn)網(wǎng)絡(luò)社區(qū)更加有序的運(yùn)行具有重要的意義。
易班對(duì)網(wǎng)絡(luò)社區(qū)的信息主要集中于大學(xué)生所關(guān)注的領(lǐng)域或者活動(dòng),無論從微社區(qū)、話題,還是輕應(yīng)用,都比較“散”,范圍非常廣泛,缺乏提煉。學(xué)校和院系除了知道學(xué)生人數(shù),剩下的事情就只停留在“點(diǎn)贊”和“刷屏”上了,真正獲得有價(jià)值的信息,比如學(xué)生最近在干嗎?學(xué)生普世價(jià)值觀數(shù)據(jù)分析?學(xué)生社會(huì)行為學(xué)分析數(shù)據(jù)、學(xué)生心理需求方面分析數(shù)據(jù)等等這些信息無法擁有,老師們也就無力去再做些什么。所以易班要向這方面努力。概括起來主要有:1)信息共享應(yīng)該接入整個(gè)學(xué)生數(shù)據(jù)庫;2)分層級(jí)分享易班分析數(shù)據(jù)庫,這個(gè)需要大數(shù)據(jù)支持;3)積分系統(tǒng)應(yīng)該下放到管理層;4)好的應(yīng)用明碼標(biāo)價(jià)或共享;5)應(yīng)拓展數(shù)據(jù)分析的學(xué)科領(lǐng)域。科學(xué)地建立大學(xué)生易班網(wǎng)絡(luò)社區(qū)中的信息組織和共享模式,以及大數(shù)據(jù),將使易班更有吸引力,更有應(yīng)用前景。
總的來說,易班網(wǎng)開辟了大學(xué)生信息組織和共享成果時(shí)代,是我國高等教育領(lǐng)域尤其是網(wǎng)絡(luò)思想文化方面一個(gè)巨大的進(jìn)步?;谝装嗑W(wǎng)在信息組織與共享模式上存在的缺陷,本文擬提出建立“A—B—C”的信息組織和共享模式,拓展大數(shù)據(jù)時(shí)代價(jià)值,結(jié)合信息科學(xué)和社會(huì)科學(xué)的相關(guān)理論,系統(tǒng)地給各高校提供一個(gè)集分享和管理的信息模式,構(gòu)建一個(gè)既能適應(yīng)高校大學(xué)生個(gè)性化需求又能服務(wù)于高校管理信息化平臺(tái),以改善當(dāng)今大學(xué)生網(wǎng)絡(luò)社區(qū)中信息組織混亂無序的現(xiàn)狀,同時(shí)為大學(xué)生網(wǎng)絡(luò)組織和分享模式的研究另辟蹊徑,促進(jìn)科學(xué)和技術(shù)的交流與整合。
參考文獻(xiàn)
[1]張明海,龍獻(xiàn)忠.云傳播時(shí)代大學(xué)生信息素養(yǎng)教育創(chuàng)新研究[J].圖書館,2014(5):99-101,106.
[2]潘燕桃,廖昀赟.大學(xué)生信息素養(yǎng)教育的“慕課”化趨勢[J].大學(xué)圖書館學(xué)報(bào),2014(4):21-27.