大數(shù)據(jù)分析論文范文
時間:2023-03-24 09:27:07
導(dǎo)語:如何才能寫好一篇大數(shù)據(jù)分析論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因?yàn)樵跀?shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結(jié)構(gòu),需要使用某種方法將其進(jìn)行預(yù)處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預(yù)處理過的數(shù)據(jù)進(jìn)行算法特定的分析,并將分析的結(jié)果用可視化等手段呈現(xiàn)至用戶端。
1.1數(shù)據(jù)采集
大數(shù)據(jù)的采集是整個流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。
1.2數(shù)據(jù)處理與集成
數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,包括格式化、去噪以及進(jìn)一步集成存儲。因?yàn)閿?shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會設(shè)計一些過濾器來完成這一任務(wù)。
1.3數(shù)據(jù)分析
在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進(jìn)行分析,因?yàn)樵谶M(jìn)行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進(jìn)一步地處理和分析?,F(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲的數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。
1.4數(shù)據(jù)解釋
數(shù)據(jù)解釋是對大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果。
2云計算與大數(shù)據(jù)分析的關(guān)系
云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,是一種按使用量付費(fèi)的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價值分析為目的的活動,而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺,不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺承載。所以,云計算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計算的出現(xiàn)為大數(shù)據(jù)分析提供了擴(kuò)展性更強(qiáng),使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實(shí)現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據(jù)庫、實(shí)時流數(shù)據(jù)處理以及智能分析技術(shù),如模式識別、自然語言理解、應(yīng)用知識庫等等。但是,大數(shù)據(jù)分析要走向云計算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴(kuò)展。
3基于云計算環(huán)境的Hadoop
為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當(dāng)前最流行的大數(shù)據(jù)處理平臺,并被廣泛認(rèn)可和開發(fā)應(yīng)用?;贖adoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個節(jié)點(diǎn)組成的大規(guī)模計算機(jī)集群上。
4實(shí)例分析
本節(jié)以電信運(yùn)營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價值。當(dāng)前傳統(tǒng)語音和短信業(yè)務(wù)量下滑,智能終端快速增長,移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運(yùn)營商帶來新的機(jī)會,幫助運(yùn)營商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來自于某運(yùn)營商的個人語音和數(shù)據(jù)業(yè)務(wù)清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據(jù)分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實(shí)際上樣本數(shù)據(jù)中所蘊(yùn)含的價值要遠(yuǎn)遠(yuǎn)大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結(jié)束語
篇2
關(guān)鍵詞:大數(shù)據(jù)分析;內(nèi)部審計應(yīng)用
近年來,大數(shù)據(jù)應(yīng)用更加廣泛,它改變了固有的數(shù)據(jù)分析方式,將企業(yè)經(jīng)營以及與之相關(guān)聯(lián)的企業(yè)和客戶信息進(jìn)行收集和分析,通過新的思維處理數(shù)據(jù)與技術(shù)的難題。據(jù)調(diào)查顯示,目前我國很多優(yōu)秀企業(yè)都將大數(shù)據(jù)作為新一輪經(jīng)濟(jì)增長點(diǎn),從2012年開始就實(shí)現(xiàn)了持續(xù)增長,成了企業(yè)市場經(jīng)營的巨大資料庫,提高了企業(yè)的整體技術(shù)水平和競爭能力。具體而言,大數(shù)據(jù)分析是一種能夠從各類信息中快速提取有用數(shù)據(jù)的一種新技術(shù),對內(nèi)部審計工作來說具有的意義不言而喻。下面就從大數(shù)據(jù)分析給內(nèi)部審計帶來的機(jī)遇和挑戰(zhàn)入手,從實(shí)際出發(fā)做好應(yīng)用性審計,帶動審計工作發(fā)生質(zhì)的飛躍。
一、大數(shù)據(jù)分析給內(nèi)部審計工作帶來的機(jī)遇和挑戰(zhàn)
(一)審計目標(biāo)信息化技術(shù)使用的初期,內(nèi)部審計工作依賴計算機(jī)技術(shù),可以通過對數(shù)據(jù)的觀察和分析找到審計中存在的問題,為具體工作的開展提供參考。大數(shù)據(jù)分析技術(shù)的應(yīng)用則將審計工作帶到了新的高度,它不僅能夠發(fā)現(xiàn)問題,還可以對風(fēng)險進(jìn)行評估,對效益進(jìn)行分析,及時發(fā)現(xiàn)審計工作中存在的問題,降低內(nèi)部控制風(fēng)險,為企業(yè)發(fā)展做出預(yù)測性思考。(二)審計內(nèi)容數(shù)字是傳統(tǒng)內(nèi)部審計工作參考的重點(diǎn),包括營業(yè)收入、費(fèi)用支出、稅收情況等等。大數(shù)據(jù)分析則突破了原來數(shù)字化的限制,基本內(nèi)涵和審計的內(nèi)容不斷向外延展,打破了傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)化的樣式不足,在不同的時間范圍內(nèi)可以生成復(fù)雜多變的數(shù)據(jù),其中包括文本、音頻、視頻、xml等,構(gòu)建出了審計的立體化方法。(三)分析技術(shù)大數(shù)據(jù)分析與內(nèi)部審計應(yīng)用的結(jié)合,最大的改變就在于技術(shù)的更新,大數(shù)據(jù)分析可以實(shí)現(xiàn)大數(shù)字的整合,從五大技術(shù)方面進(jìn)行了完善。即可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析、語義引擎和數(shù)據(jù)質(zhì)量與管理。這些新技術(shù)可以通過標(biāo)準(zhǔn)化的形式,建立數(shù)據(jù)新模型,提取隱藏起來的內(nèi)部審計信息,利用圖表展示數(shù)據(jù)分析的全過程,并做出前瞻性的判斷,從而提高數(shù)據(jù)的分析準(zhǔn)確性。
二、大數(shù)據(jù)分析內(nèi)部審計的方式
首先,數(shù)據(jù)驗(yàn)證性分析朝著數(shù)據(jù)挖掘性分析轉(zhuǎn)變。即由原來的多維分析驗(yàn)證數(shù)據(jù)變?yōu)橥诰蛐约夹g(shù)的使用,將數(shù)據(jù)倉庫和模型構(gòu)建起來,做好聚類分析,找到規(guī)律性內(nèi)容,并提取關(guān)聯(lián)性數(shù)據(jù)。例如,在電力審計過程中,可以建立起專門的數(shù)據(jù)資料庫,找到電力使用的具體數(shù)據(jù),分析用電情況。其次,審計方式由事后發(fā)現(xiàn)問題變?yōu)轱L(fēng)險預(yù)警。企業(yè)經(jīng)營難免會遇到各種風(fēng)險,對市場形勢進(jìn)行分析,將可能存在的危機(jī)控制在萌芽階段,是大數(shù)據(jù)分析有別于傳統(tǒng)分析模式最大的特點(diǎn)。另外,大數(shù)據(jù)分析可以早期關(guān)注經(jīng)濟(jì)運(yùn)行情況,發(fā)掘數(shù)據(jù)敏感性波動,并集合社保審計、債務(wù)數(shù)據(jù)、經(jīng)濟(jì)宏觀運(yùn)行數(shù)據(jù),實(shí)現(xiàn)信息庫的交叉使用,提升數(shù)據(jù)分析水平和審計能力。最后,單機(jī)審計向云審計方法的轉(zhuǎn)變。云審計是基于云數(shù)據(jù)庫設(shè)立的數(shù)據(jù)平臺,它依靠的是中心統(tǒng)計分析,通過網(wǎng)絡(luò)與“云”的對接,對審計成果進(jìn)行共享。與此同時,在大數(shù)據(jù)分析云計算實(shí)施的過程中,必須堅持技術(shù)的創(chuàng)新與發(fā)展,建立預(yù)算、財務(wù)、執(zhí)政一體化策略,設(shè)立專門的數(shù)據(jù)平臺,提高信息化技術(shù)審核的質(zhì)量,做好宏觀分析。
三、大數(shù)據(jù)分析在內(nèi)部審計中的應(yīng)用
大數(shù)據(jù)分析與內(nèi)部審計的綜合應(yīng)用是信息時代技術(shù)演變的新手段,在與內(nèi)部審計結(jié)合使用的過程中必須堅持全面化使用,從制度流程、機(jī)構(gòu)人員、審計業(yè)務(wù)以及技術(shù)上做好配合,全面推行新的審計方法。(一)創(chuàng)新大數(shù)據(jù)工作模式創(chuàng)新是進(jìn)步的源泉,大數(shù)據(jù)分析的推行,與內(nèi)部審計工作的結(jié)合,都必須堅持創(chuàng)新原則,對預(yù)算執(zhí)行審計有一個全面的認(rèn)識。傳統(tǒng)的孤立審計已不適應(yīng)大數(shù)據(jù)審計的要求,需要打破部門之間的界限,以審計項目為管理主線,成立大審計組,進(jìn)行扁平化管理。結(jié)合各預(yù)算部門的財務(wù)數(shù)據(jù),發(fā)現(xiàn)是否存在預(yù)算項目在連年結(jié)轉(zhuǎn)的情況下仍然安排新增預(yù)算、造成資金閑置的問題。通過對數(shù)據(jù)進(jìn)行宏觀整體分析,發(fā)現(xiàn)是否存在預(yù)算執(zhí)行效率不高、分配下達(dá)預(yù)算不及時、撥付轉(zhuǎn)移支付資金超期等情況。(二)完善跟蹤審計方式通過建設(shè)審計數(shù)據(jù)綜合分析平臺,搭建關(guān)系國計民生的重點(diǎn)行業(yè)聯(lián)網(wǎng)審計系統(tǒng),用Hadoop等專業(yè)工具處理半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),規(guī)范高效地匯集和處理大規(guī)模數(shù)據(jù)信息。例如,在地稅審計中,可利用地稅聯(lián)網(wǎng)審計系統(tǒng),集中進(jìn)行全省地稅數(shù)據(jù)整理分析,探索“數(shù)據(jù)集中采集、集中統(tǒng)一分析、疑點(diǎn)分布落實(shí)、資源充分共享”的大數(shù)據(jù)審計模式,實(shí)現(xiàn)全省聯(lián)動審計。此外,還要對資金分配結(jié)構(gòu)、資金使用流向、資金管理情況進(jìn)行總體分析,全面反映預(yù)算執(zhí)行整體情況,實(shí)現(xiàn)對預(yù)算單位的審計監(jiān)督全覆蓋。(三)實(shí)現(xiàn)多數(shù)據(jù)融合,落實(shí)經(jīng)濟(jì)責(zé)任審計運(yùn)用關(guān)聯(lián)分析,找出數(shù)據(jù)間的相互聯(lián)系,分析關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)異常聯(lián)系和異常數(shù)據(jù),尋找審計疑點(diǎn)。在經(jīng)濟(jì)責(zé)任審計中,可利用財政、稅務(wù)、社保、培訓(xùn)等數(shù)據(jù)在橫向和縱向之間都做好關(guān)聯(lián)性研究,做好數(shù)據(jù)的全面跟蹤分析,實(shí)施和推行經(jīng)濟(jì)責(zé)任審計模式,提高審計效率。另外,在深入挖掘數(shù)據(jù)過程中,還要利用數(shù)據(jù)倉庫和模型分析統(tǒng)計數(shù)據(jù)變動信息,分析關(guān)聯(lián)性內(nèi)容,對體制機(jī)制性問題開展研究,挖掘行業(yè)性和趨勢性問題。
四、結(jié)束語
綜上所述,大數(shù)據(jù)技術(shù)的發(fā)展對審計工作提出了新的、更高的要求,也為審計提供了新的工具。傳統(tǒng)的大數(shù)據(jù)分析與內(nèi)部審計工作的結(jié)合不夠緊密,技術(shù)應(yīng)用不夠突出,且人才缺失?;诖髷?shù)據(jù)分析的新情況,內(nèi)部審計工作必須從數(shù)據(jù)、資源、人才方面逐步積累資源,創(chuàng)新大數(shù)據(jù)分析的思路和模式,研究技術(shù)發(fā)展的情況,并建立覆蓋公司業(yè)務(wù)流程的審計信息化管理系統(tǒng),使公司各業(yè)務(wù)線在統(tǒng)一、透明、標(biāo)準(zhǔn)的審計監(jiān)控下陽光運(yùn)行,確保大數(shù)據(jù)在內(nèi)部審計中的高效應(yīng)用。
參考文獻(xiàn):
[1]王磊.數(shù)據(jù)挖掘技術(shù)在保險公司內(nèi)部審計中的運(yùn)用研究[D].山東財經(jīng)大學(xué),2015.
[2]梁秀根,黃鄧秋,蔡赟,魏連濤,梁國平.持續(xù)審計結(jié)合數(shù)據(jù)挖掘技術(shù)在內(nèi)部審計中的探究和應(yīng)用[A].全國內(nèi)部審計理論研討優(yōu)秀論文集(2013)[C].2014:10.
篇3
統(tǒng)計學(xué)論文2000字(一):影響民族院校統(tǒng)計學(xué)專業(yè)回歸分析成績因素的研究論文
摘要:學(xué)習(xí)成績是評價學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進(jìn)行深入研究,其結(jié)果對今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時成績;期末成績
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時成績也會影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級統(tǒng)計專業(yè)50名學(xué)生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時成績和期末成績,運(yùn)用SPSS統(tǒng)計軟件進(jìn)行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計專業(yè)必修課,也是統(tǒng)計學(xué)中的一個非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計學(xué)專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計軟件對回歸分析期末成績的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評價學(xué)生考試成績,對教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會有較大幫助。自變量x1表示數(shù)學(xué)分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設(shè),
1.隨機(jī)誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對上述模型進(jìn)行分析,即各個自變量對因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當(dāng)解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學(xué)生專業(yè)基礎(chǔ)課成績、平時成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識,注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時,當(dāng)學(xué)生平時成績不好時,隨時調(diào)整教學(xué)進(jìn)度提高學(xué)生平時學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識到,為了更好地掌握回歸分析知識,應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時學(xué)習(xí)的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問題。
統(tǒng)計學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計算技術(shù)的蓬勃發(fā)展,造就了一個嶄新的大數(shù)據(jù)時代,這些變化對統(tǒng)計學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對統(tǒng)計學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價值,是這個時代帶給我們的機(jī)遇與挑戰(zhàn),同時對數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對于常常和數(shù)據(jù)打交道的統(tǒng)計學(xué)專業(yè)的學(xué)生來說,更是如此。
二、課程教學(xué)探討
針對統(tǒng)計學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙壔蛘咚哪昙壦_設(shè),他們在前期已經(jīng)學(xué)習(xí)完統(tǒng)計學(xué)、應(yīng)用回歸分析、多元統(tǒng)計分析、時間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對學(xué)生來說是不太現(xiàn)實(shí)的,需要為統(tǒng)計學(xué)專業(yè)本科生“個性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動手能力,為在大數(shù)據(jù)時代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對軟件的計算結(jié)果熟練解讀,對各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對于已經(jīng)學(xué)過的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識的講解過程中,注意和已學(xué)過知識的融匯貫通,既復(fù)習(xí)鞏固了原來學(xué)過的知識,同時也無形中降低了新知識的難度。比如,在數(shù)據(jù)挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點(diǎn)就能和之前學(xué)過的內(nèi)容有機(jī)聯(lián)系起來。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動接收”式的學(xué)習(xí)變?yōu)椤爸鲃犹骄俊毙偷膶W(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個或幾個案例,以加強(qiáng)學(xué)生對知識的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵學(xué)生去搜集自己感興趣的或者國家及社會大眾關(guān)注的問題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時課堂表現(xiàn)、平時實(shí)驗(yàn)項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實(shí)驗(yàn)項目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價學(xué)生的表現(xiàn)。
三、教學(xué)效果評估
經(jīng)過幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對課程的興趣度在提升,課下也會不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。
教學(xué)實(shí)踐結(jié)果表明,通過數(shù)據(jù)挖掘課程的學(xué)習(xí),可以讓學(xué)生在掌握理論知識的基礎(chǔ)上,進(jìn)一步提升分析問題和解決實(shí)際問題的能力。
篇4
1 大數(shù)據(jù)時代已悄然來臨
大數(shù)據(jù)(Big data),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。通常大數(shù)據(jù)只有通過分析才能獲取很多智能的、有價值的信息。因此,大數(shù)據(jù)分析對于高校檔案管理有著無可取代的作用。大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)數(shù)據(jù)本身具備的特點(diǎn),才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價值。尤其在檔案管理上深入大數(shù)據(jù)分析將對工作帶來更大的?r值。
2 當(dāng)前高校檔案管理工作狀況及大數(shù)據(jù)在高校檔案管理的建立和應(yīng)用
目前,由于對檔案管理工作重視程度不足,高校內(nèi)仍然缺乏相應(yīng)的檔案管理硬件設(shè)施,個別部門的檔案人員甚至處于狹小潮濕的辦公區(qū)域,檔案庫房區(qū)、辦公區(qū)、閱覽區(qū)不能分開。很多檔案管理人員身兼數(shù)職,網(wǎng)絡(luò)化、數(shù)字化的檔案管理更是無從談起。傳統(tǒng)的檔案管理信息零落、復(fù)雜、不能共享。這樣間接地浪費(fèi)了檔案資源,還造成了原始檔案信息的流失,從而影響了檔案信息化的發(fā)展水平。因此,高校檔案管理信息化的建立已勢在必行,進(jìn)而為廣大師生提供新信息上網(wǎng)、電子郵件交流、聯(lián)機(jī)公共目錄查詢等服務(wù),通過提供定向、定題的交互信息咨詢,提升檔案管理的服務(wù)能力和質(zhì)量。
3 大數(shù)據(jù)時代對高校檔案管理工作的影響
大數(shù)據(jù)時代對高校檔案管理工作的影響,第一是有助于原始檔案文件的保存。傳統(tǒng)的檔案文件常常以紙質(zhì)檔案、照片、錄音、錄像檔案的形式出現(xiàn),歲月的沉淀和檔案人員的更新?lián)Q代,常常會因?yàn)槟承┲骺陀^因素的出現(xiàn),而阻礙了高校檔案的開發(fā)利用。
第二是有助于加大檔案的開發(fā)利用程度。隨著大數(shù)據(jù)在檔案管理工作中的有效應(yīng)用,對傳統(tǒng)檔案實(shí)施有選擇和有步驟的數(shù)字化,為檔案網(wǎng)絡(luò)信息的存儲、檢索和利用提供數(shù)據(jù)基礎(chǔ)。通過大數(shù)據(jù)時代與檔案管理的結(jié)合,使檔案實(shí)體和檔案信息實(shí)現(xiàn)了自動化管理,節(jié)省了大量的時間和人力資源,為開展檔案的科研工作創(chuàng)造了有利的條件。
篇5
摘要:大數(shù)據(jù)時代思維方式講究思維主體上的協(xié)同合作、思維客體上的綜合運(yùn)用、思維中介上的工具開發(fā)。數(shù)據(jù)應(yīng)用的側(cè)重點(diǎn)由感官理性轉(zhuǎn)向了證據(jù)理性,由單一結(jié)論轉(zhuǎn)向了個性化分析判斷,從被動獲取轉(zhuǎn)向了主動預(yù)測。它勢必在數(shù)據(jù)處理習(xí)慣、數(shù)據(jù)潛在價值挖掘和數(shù)據(jù)價值分析利用上對高校專業(yè)建設(shè)造成沖擊,并在專業(yè)建設(shè)數(shù)據(jù)挖掘力度、數(shù)據(jù)平臺搭建以及專門數(shù)據(jù)分析人才的培養(yǎng)方面提出相應(yīng)要求。
關(guān)鍵詞 :大數(shù)據(jù) 思維方式 專業(yè)建設(shè)
高校專業(yè)建設(shè)匯聚著大量的信息,從學(xué)生角度來看,包括專業(yè)必修課、專業(yè)選修課、專業(yè)必修學(xué)分、專業(yè)實(shí)踐、課程作業(yè)、專業(yè)成績等各種信息;從教師角度來看,包含專業(yè)教學(xué)任務(wù)、課件等教學(xué)信息,專業(yè)論文著作、科學(xué)研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學(xué)科專業(yè)的分布、專業(yè)的數(shù)量規(guī)模、專業(yè)的招生就業(yè)、專業(yè)預(yù)警等信息。隨著移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,人們主動產(chǎn)生和由設(shè)備自動收集的專業(yè)信息必將越來越多。它們共同存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn),毫無疑問,高校專業(yè)建設(shè)思維必將受其影響。2015年,教育部高等教育教學(xué)評估中心啟動了教學(xué)基本狀態(tài)數(shù)據(jù)庫采集的行動,標(biāo)志著大數(shù)據(jù)正大步向高校進(jìn)軍,其觸發(fā)的思維革命與方式轉(zhuǎn)變正大力沖擊著高校教學(xué)管理的固有模式。因此,有效運(yùn)用大數(shù)據(jù)時代思維方式探索高校專業(yè)建設(shè)發(fā)展途徑,有效預(yù)測和分析專業(yè)建設(shè)走向,是高水平大學(xué)走向現(xiàn)代化治理的必然趨勢。
一、大數(shù)據(jù)時代的特點(diǎn)及思維方式
維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》一書中,解讀了大數(shù)據(jù)的4個特點(diǎn),即大量(Volume)、高速(Velocity)、多樣(Variety)、真實(shí)(Veracity),簡稱4V。但他同時又提醒到,大數(shù)據(jù)延伸的另一個特點(diǎn)是更多和更亂。如果無法順暢理清各種數(shù)據(jù)間的關(guān)聯(lián)性,我們將在它的時代中迷失。舍恩伯格強(qiáng)調(diào),在龐大的數(shù)據(jù)面前保持清晰的頭腦,理順?biāo)季S方式更為重要。他說,大數(shù)據(jù)時代思維方式是:每天早上起來想一下,這么多數(shù)據(jù)我能用來干什么,這些價值在哪里可以找到,能不能找到一個別人以前都沒有做過的事情,你的想法和思路,是最重要的資產(chǎn)。他提示我們,轉(zhuǎn)變慣有的思維方式,將成為獲取數(shù)據(jù)價值和創(chuàng)新行為方式的前提與根本。
數(shù)據(jù)是死的,人是活的,要讓死的數(shù)據(jù)說話,就必須發(fā)揮人的主觀能動性,用活人的思維。有學(xué)者從思維主體、思維客體和思維中介等方面分析大數(shù)據(jù)時代應(yīng)具備的思維方式結(jié)構(gòu),認(rèn)為在大數(shù)據(jù)時代面前,個體思維者在思維主體上需要從精神生產(chǎn)的過程中尋求協(xié)同合作,由個人的思維活動轉(zhuǎn)化為集體思維活動;在思維客體上要側(cè)重挖掘隱藏在數(shù)字背后的深刻的內(nèi)涵,實(shí)現(xiàn)突破性的科學(xué)預(yù)測和科研活動,實(shí)現(xiàn)全方位、多角度的綜合思維;在思維中介上要尋求有力工具,運(yùn)用多種信息加工手段和方法,提高數(shù)據(jù)存儲和處理速度的準(zhǔn)確性和可靠性。并以此得出敏捷性、開放性、前瞻性和個性化是大數(shù)據(jù)時代思維方式的代表特征。
二、大數(shù)據(jù)時代思維方式對高校專業(yè)建設(shè)的沖擊
一是對數(shù)據(jù)處理習(xí)慣造成沖擊。按照以往數(shù)據(jù)管理和處理的方式,無論是管理者還是管理對象,都無法及時有效地搜集和應(yīng)對層出不窮、錯綜復(fù)雜、始料未及的專業(yè)建設(shè)數(shù)據(jù)。一種處理的方式便是被動獲取和被動應(yīng)付,讓數(shù)據(jù)不斷累積或流失,然后定時清空或有意遺忘,無法真正有效挖掘數(shù)據(jù)的隱藏價值,造成“數(shù)據(jù)浪費(fèi)”。其原因在于人們的思維尚未適應(yīng)大數(shù)據(jù)時代的洪流,尚未意識到在大數(shù)據(jù)面前,個體的思維主導(dǎo)和思維對象以及所能利用的思維中介早已超出了固有的范疇習(xí)慣,如不轉(zhuǎn)變數(shù)據(jù)處理的思維方式,改進(jìn)處理數(shù)據(jù)的思維習(xí)慣,管理將陷入低效和混亂的境地,協(xié)同創(chuàng)新將舉步維艱。
二是對數(shù)據(jù)潛在價值的挖掘造成沖擊。以往對專業(yè)建設(shè)數(shù)據(jù)的挖掘通常采用直線型的方式進(jìn)行。就高校教育管理層來說,專業(yè)建設(shè)數(shù)據(jù)往往是自下而上獲得,通過各學(xué)院、專業(yè)的報送來獲取第一手專業(yè)數(shù)據(jù)。就專業(yè)本身來說,其建設(shè)數(shù)據(jù)的獲得一般采用實(shí)時獲取、延時存儲、滯后分析的直線型關(guān)系模式進(jìn)行。而大數(shù)據(jù)時代下要求我們從時空的立體角度對專業(yè)數(shù)據(jù)的潛在價值進(jìn)行深入挖掘。按照挖掘的任務(wù),一項數(shù)據(jù)的挖掘包含了對數(shù)據(jù)的時空聚類、時空分類、時空異常檢測等過程,并逐步深入探討對數(shù)據(jù)挖掘的頻繁模式、周期模式、共現(xiàn)模式、關(guān)聯(lián)模式等主題的研究,以圖架構(gòu)起科學(xué)的數(shù)據(jù)挖掘系統(tǒng)。例如,通過高校選課平臺,長期跟蹤學(xué)生選課科目,通過有效數(shù)據(jù)的挖掘,得出該時間段學(xué)生對某一學(xué)科領(lǐng)域的興趣度數(shù)據(jù),繼而對某一專業(yè)所在的選修課的開設(shè)廣度和深度進(jìn)行判斷,同時也可以為開課教師的教學(xué)效果評定提供有效數(shù)據(jù)證明。
三對數(shù)據(jù)價值的分析利用造成沖擊。大數(shù)據(jù)的應(yīng)用核心是大數(shù)據(jù)預(yù)測:通過對各方面的數(shù)據(jù)分析利用,提前預(yù)判即將到來的事件。那么,通過對專業(yè)建設(shè)時空數(shù)據(jù)的挖掘,運(yùn)用相關(guān)技術(shù)進(jìn)行關(guān)聯(lián)分析,可以極大地提升專業(yè)建設(shè)的預(yù)測能力,達(dá)成科學(xué)的專業(yè)預(yù)警機(jī)制和專業(yè)規(guī)劃方案。它一改以前高校對于專業(yè)發(fā)展預(yù)測的理論與感性判斷,采用實(shí)樣而非抽樣,效率而非精確,相關(guān)而非因果等相互關(guān)系,用數(shù)據(jù)和事實(shí)說話。例如,在探索專業(yè)分流的問題時,學(xué)校可利用圖書館借閱平臺,從新生入學(xué)第一天起,記錄其借閱圖書的數(shù)量、頻率、種類、周期等行為數(shù)據(jù),通過時空聚類和共現(xiàn)模式對數(shù)據(jù)進(jìn)行深入挖掘,就可以大致預(yù)測該生的學(xué)科興趣和專業(yè)愛好,繼而判定其可能感興趣的專業(yè),將之提供給學(xué)生,作為其挑選專業(yè)的參考數(shù)據(jù),對于解決學(xué)生專業(yè)選擇的盲目性和未來專業(yè)旨趣有很大助益。由此,學(xué)校的專業(yè)定位將被提前明確并適時調(diào)整,個性化專業(yè)分流及因材施教將得以可能。
三、大數(shù)據(jù)時代思維方式對高校專業(yè)建設(shè)提出新的要求
首先,要求加大專業(yè)建設(shè)數(shù)據(jù)挖掘力度,提升專業(yè)建設(shè)數(shù)據(jù)的實(shí)用價值。高校在專業(yè)建設(shè)過程中產(chǎn)生了形形的數(shù)據(jù),就專業(yè)內(nèi)在結(jié)構(gòu)的角度來看,包括專業(yè)數(shù)量,專業(yè)定位,課程設(shè)置等信息。從專業(yè)外在價值的角度來看,包括專業(yè)滿意度、專業(yè)興趣度、專業(yè)課程設(shè)置、專業(yè)實(shí)踐安排、專業(yè)教師配備等信息,這些數(shù)據(jù)的獲取、監(jiān)控和分析直接關(guān)系著專業(yè)建設(shè)的走向,通過獲取這些關(guān)鍵數(shù)據(jù),從大的方面來說,可以預(yù)測專業(yè)定位和人才培養(yǎng)的成效;從小的方面來說,可以及時有效獲得課程體系和師資力量等有效數(shù)據(jù),進(jìn)一步提高教育教學(xué)質(zhì)量。因此,改變以往被動式的搜集專業(yè)數(shù)據(jù)的習(xí)慣,深入挖掘?qū)I(yè)建設(shè)帶來的各種數(shù)據(jù),可以有效提升專業(yè)建設(shè)數(shù)據(jù)的實(shí)際效用。
其次,要求搭建專業(yè)建設(shè)數(shù)據(jù)平臺,拓寬專業(yè)建設(shè)數(shù)據(jù)獲取途徑。良好的數(shù)據(jù)挖掘需要科學(xué)數(shù)據(jù)獲取的平臺,否則無法科學(xué)共享數(shù)據(jù)和分析數(shù)據(jù)的意義,這就需要找尋到一個專業(yè)的數(shù)據(jù)實(shí)用工具,搭建一個專業(yè)的數(shù)據(jù)平臺。以復(fù)旦大學(xué)為例,該校從2012年開始建立和逐步完善校級統(tǒng)一數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫的基礎(chǔ)上,建立了包含面向師生在內(nèi)的多類的主題數(shù)據(jù)展示系統(tǒng),包括人員信息類(教職工信息統(tǒng)計、學(xué)生信息統(tǒng)計、本專科生基本信息查詢、教職工基本信息查詢、研究生基本信息查詢)、科研類(文科科研數(shù)據(jù)分析、教師學(xué)術(shù)表現(xiàn))、教學(xué)類(研究生成績分析、招生數(shù)據(jù)分析、本科生生命周期數(shù)據(jù)分析)、綜合服務(wù)(一卡通分析、圖書館客流分析、綜合校情展示、其他信息)、學(xué)生工作(宿舍數(shù)據(jù)統(tǒng)計、宿舍使用情況統(tǒng)計)、報表類(教育部高基報表)等。[ ]形成了在業(yè)務(wù)管理,教學(xué)資源,網(wǎng)絡(luò)行為三個層面以數(shù)據(jù)化為著眼點(diǎn),以“人”為中心的數(shù)據(jù)索引和存儲模式。既實(shí)現(xiàn)了數(shù)據(jù)共享,又促進(jìn)了業(yè)務(wù)融合,同時也為教育決策提供服務(wù)支持。近期教育部組織各高校完善教學(xué)基本狀態(tài)數(shù)據(jù)庫采集的舉措,將對專業(yè)建設(shè)數(shù)據(jù)的監(jiān)控宏觀調(diào)控起到重大作用,某種程度上佐證了數(shù)據(jù)平臺搭建的必要性。
最后,要求培養(yǎng)專業(yè)建設(shè)數(shù)據(jù)分析人才,深入分析專業(yè)建設(shè)數(shù)據(jù)意義。大量數(shù)據(jù)的堆積并不能直接產(chǎn)生效益,所謂外行人看熱鬧,內(nèi)行人看門道,研究表明,僅有少量的數(shù)據(jù)能被挖掘用來解決實(shí)際問題,很多復(fù)雜、重要的問題要依靠數(shù)據(jù)處理、數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量來解決。這就要求校園信息化中做數(shù)據(jù)分析的人員需要具備既懂得數(shù)據(jù)、又懂得業(yè)務(wù)的復(fù)合能力,能將業(yè)務(wù)帶入到數(shù)據(jù)剖析過程、將技術(shù)傳遞給業(yè)務(wù)人員。從而建立起大數(shù)據(jù)管理的良性生態(tài)。因此,培養(yǎng)專業(yè)化的數(shù)據(jù)分析人才顯得尤為必要,高校專業(yè)建設(shè)也不例外。當(dāng)數(shù)以萬計的專業(yè)建設(shè)數(shù)據(jù)蜂擁而至的時候,如何更好、更科學(xué)有效地獲取、存儲、分析、挖掘和利用它們,非專業(yè)化人員無法有效實(shí)現(xiàn)。有鑒于此,部分院校已在嘗試開設(shè)大數(shù)據(jù)采集與管理專業(yè),意圖培養(yǎng)專業(yè)的大數(shù)據(jù)分析人才。而在國外,如美國,圍繞大數(shù)據(jù)的開發(fā)和應(yīng)用,早已形成了專門的職業(yè),用來專業(yè)挖掘數(shù)據(jù)的意義。所以,在教育管理層面上嘗試培養(yǎng)專門的專業(yè)建設(shè)數(shù)據(jù)分析人才,對于專業(yè)建設(shè)發(fā)展有著深遠(yuǎn)的意義。
參考文獻(xiàn)
[ 1 ] 張燕南等. 大數(shù)據(jù)時代思維方式對教育的啟示[ J ] . 教育發(fā)展研究,2013(11):2-3
[2]吉根林等.面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J].南京師大學(xué)報·自然科學(xué)版,2014(3):3
[3]呂本富等.大數(shù)據(jù)預(yù)測研究及相關(guān)問題[J].科技促進(jìn)發(fā)展,2014(1):61-62
[4]趙澤宇等.復(fù)旦大學(xué):大數(shù)據(jù)促進(jìn)服務(wù)模式轉(zhuǎn)變[J].中國教育網(wǎng)絡(luò),2014:69
篇6
關(guān)鍵字:大數(shù)據(jù) 情報研究 情報研究技術(shù)
中圖分類號: G250.2 文獻(xiàn)標(biāo)識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(big data)時代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對自己的研究和實(shí)踐帶來的深刻影響,情報研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個簡單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會,使業(yè)務(wù)更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計計算,而是深層的挖掘。大數(shù)據(jù)時代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問題?!皹I(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對數(shù)據(jù)分析提出了新的、更高的要求。可以這么說,大數(shù)據(jù)時代就是數(shù)據(jù)分析的時代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個事實(shí)或規(guī)律可以同時隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個事實(shí)或規(guī)律的某一個或幾個側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過程中有意識地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會帶來數(shù)據(jù)獲取、整合、存儲、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時,大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計算機(jī)輔助分析或基于計算機(jī)的智能化分析,將成為大數(shù)據(jù)時代數(shù)據(jù)與信息分析的主流模式。
對于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機(jī)遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時代,情報研究工作正在得到空前的重視,大數(shù)據(jù)為情報研究的新發(fā)展提供了機(jī)會,從更為廣闊的視野來看待情報研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進(jìn)情報研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時代本身也要求各行各業(yè)重視情報研究工作,這就必然使得眾多學(xué)科有意識地涉足到以往作為專門領(lǐng)域的情報研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報研究所獨(dú)占,以往情報研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢不再。因此,如何把握住自身的優(yōu)勢,并抓住機(jī)會有所拓展,是情報學(xué)在大數(shù)據(jù)時代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報研究的發(fā)展趨勢
大數(shù)據(jù)帶來的新觀念,正在引報研究的新發(fā)展,而且,研究人員也在不斷地從情報研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報研究的未來走向。英國萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問題,將導(dǎo)致情報研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國政府部門內(nèi)部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導(dǎo)致情報研究中的預(yù)測失??;③要汲取更多外界的專業(yè)知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國內(nèi)外同行的研究成果,本文將情報研究的發(fā)展趨勢總結(jié)為以下五個方面:單一領(lǐng)域情報研究轉(zhuǎn)向全領(lǐng)域情報研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報研究的嚴(yán)謹(jǐn)性;情報研究的智能化。
2.1 單一領(lǐng)域情報研究轉(zhuǎn)向全領(lǐng)域情報研究
隨著學(xué)科的深入交叉融合及社會發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報、科技情報等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報分析的認(rèn)知過程,以指導(dǎo)情報分析及其工具的研發(fā)。同時,情報學(xué)中的引文分析等文獻(xiàn)計量方法也被借鑒用于網(wǎng)站影響力評估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計算機(jī)領(lǐng)域的技術(shù),為情報研究提供了有力的技術(shù)視角,情報研究獲得的知識反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)??梢姡瑹o論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個更大的情景下做通盤考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國的創(chuàng)新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾?,如早期的科技?shù)據(jù),可能由于國際形勢等外部因素,導(dǎo)致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會得“正確”的錯誤結(jié)論,這時應(yīng)針對這樣的異常情況,將研究問題放置在當(dāng)時的時代背景下,揭示背后的原因,從其他方面收集信息來補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說,必須要考察不同時間戳下的相關(guān)信息,再對分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來討論,可能會得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理條件、發(fā)展定位等,卻可能會得出相反的結(jié)論。這就說明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當(dāng)前關(guān)注的問題不一定就是其他地區(qū)要關(guān)注的問題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會對決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報研究的另一大發(fā)展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進(jìn)行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識或解決政策難題??萍记閳蠼缫彩侨绱?,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計數(shù)據(jù)、高校網(wǎng)站、期刊、報紙、圖書等來評估大學(xué)等科研機(jī)構(gòu)??梢?,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來支持情報研究,信息源可以是學(xué)術(shù)論文、專利等不同類型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢是由幾大因素決定的。一是情報研究問題的復(fù)雜性。在大數(shù)據(jù)背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術(shù)報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調(diào)查等,可以反映出社會對該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實(shí)踐角度說明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評估大學(xué)為例,評估的結(jié)果會引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢和差距,指導(dǎo)未來發(fā)展定位,同時也為廣大學(xué)生報考提供參考??梢?,研究結(jié)果對社會的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當(dāng)問題含糊不清時,可能需要不斷地調(diào)整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時候,識別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會的公共話語環(huán)境,并引導(dǎo)著技術(shù)、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會現(xiàn)象[12]、預(yù)測未來發(fā)展方向[11]等提供了機(jī)會,有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點(diǎn)話題[13]等,帶來了網(wǎng)絡(luò)輿情分析等研究內(nèi)容。此外,這類信息結(jié)合其他類型的數(shù)據(jù),產(chǎn)生了新的情報研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會和社區(qū)情報(social and community intelligence,SCI),揭示人類行為模式和社群動態(tài)[14]。
此外,機(jī)構(gòu)知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識庫應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項事件和正在進(jìn)行的科研活動的文檔。這暗示著學(xué)術(shù)界從過去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過程。從機(jī)構(gòu)知識庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識庫工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢??梢灶A(yù)見,隨著科技的發(fā)展和應(yīng)用的深入,還會不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報研究的發(fā)展。
2.4 強(qiáng)調(diào)情報研究的嚴(yán)謹(jǐn)性
情報研究活動在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴于分析人員根據(jù)已有知識構(gòu)建認(rèn)知框架(frame),通過對認(rèn)知框架的不斷修正來達(dá)到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴(yán)謹(jǐn),減少情報分析的不確定、提升情報成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問題。情報研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評估角度,給出了8個指標(biāo)來衡量分析過程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評價。從這幾項指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來的偏差;解釋評價是要正確對待分析結(jié)論??梢?,情報研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報研究活動正逐步轉(zhuǎn)變?yōu)橐婚T科學(xué)。
在大數(shù)據(jù)背景下,情報分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對技術(shù)的要求。面對海量數(shù)據(jù),自動化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術(shù)手段,如何在這樣的分析環(huán)境中將情報研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問題??梢钥吹?,利用技術(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見,也許通過多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個解決方案??梢姡诖髷?shù)據(jù)時代,情報研究需要多種手段來加強(qiáng)其分析過程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報研究的智能化
大數(shù)據(jù)背景下的情報研究,對技術(shù)提出了更高的要求。正如美國國家科學(xué)基金會(NSF)的報告[22]所說,美國在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識的能力。對于情報研究來說,應(yīng)用智能化技術(shù)能自動進(jìn)行高級、復(fù)雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來講,情報研究對象得以擴(kuò)展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時,多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術(shù)支持。從分析需求來講,簡單的統(tǒng)計分析已不能滿足現(xiàn)在社會的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術(shù)來支撐。可見,這一發(fā)展趨勢是大數(shù)據(jù)時代下的必然。而各國在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動著情報研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領(lǐng)域研究人員提供集成計算資源,從而推動創(chuàng)新。
目前,對情報研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報研究智能化的本質(zhì)概括為定量化、可計算、可重復(fù)。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計算機(jī)自動化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉(zhuǎn)化為計算機(jī)可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語義的信息,采用統(tǒng)計、數(shù)據(jù)挖掘等方法加以計算,獲取隱含的知識??芍貜?fù)是指自動化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報研究帶來客觀性的一面。
3 情報研究中的技術(shù)問題
情報研究的上述發(fā)展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計替代情報研究中的計算技術(shù),由此對情報研究技術(shù)提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項適用于眾多行業(yè)的分析技術(shù),包括A/B測試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識別、預(yù)測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學(xué)習(xí)、模擬、時間序列分析、無監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術(shù)也是當(dāng)前情報分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學(xué)[25],是自動分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計算機(jī)自動生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計、開發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識發(fā)現(xiàn)過程,關(guān)注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結(jié)果的局限性或者有效性,這無疑不符合情報研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時,現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對情報分析認(rèn)知過程的支持,這就對使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識表示、統(tǒng)計分析、知識發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動分析,融入交互、認(rèn)知等人的因素來協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報道或?qū)n}博客)領(lǐng)域,也說明了將可視化分析技術(shù)應(yīng)用于情報研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報研究領(lǐng)域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結(jié)合的問題,第二類是應(yīng)用自動化分析潛力有限的問題,第三類是應(yīng)用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過考慮用戶、任務(wù)和數(shù)據(jù)集特點(diǎn),來確定可視化和自動分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]。可見,要將可視化分析技術(shù)應(yīng)用于情報研究領(lǐng)域,需要明確每類問題適用哪種組合方式。其次,情報研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報研究領(lǐng)域中的認(rèn)知過程是什么樣的,關(guān)注哪些問題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術(shù)來解決。此外,從現(xiàn)有的可視化分析技術(shù)來看,主要是將各個相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來,但在將來會產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個知識發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數(shù)據(jù)分析和知識發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群點(diǎn)分析、序列分析、趨勢和演變分析等,吸納了統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、模式識別、算法、高性能計算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領(lǐng)域的技術(shù),并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來分析研究主題的相關(guān)性,從科技論文與專利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計、共詞計算層次上,在知識發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘。可見,數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報研究自身發(fā)展的需求。此外,由于較少有專門針對情報研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時使用好幾個分析工具,如在使用SPSS進(jìn)行聚類分析的同時,還使用Ucinet分析社會網(wǎng)絡(luò)。這帶來的問題是,分析缺乏完整性,可能社會網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚?,就?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務(wù),分析哪些問題是可以使用數(shù)據(jù)挖掘技術(shù)來支持的,這類問題有哪些共同點(diǎn)、特殊性,能否對未來可能的情報分析問題進(jìn)行擴(kuò)展,哪些問題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對于某類或某個分析問題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對該問題進(jìn)行適應(yīng)性改造,如何評價挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢,即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發(fā)展,尋找情報分析的新模式,值得我們關(guān)注。
3.3 語義處理
語義是關(guān)于意義(meaning)的科學(xué),語義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語義技術(shù)包括語義標(biāo)注、知識抽取、檢索、建模、推理等[34]。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對各類信息的語義處理,在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報研究實(shí)踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統(tǒng)的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內(nèi)容主題時,需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時,常常無法識別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結(jié)果上,缺乏有效的主題說明,自動形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對大數(shù)據(jù)的沖擊,這種半自動化的處理方法無疑是耗時又費(fèi)力的。此外,對于新型情報研究對象,如網(wǎng)絡(luò)新聞、博客等,已有如動態(tài)監(jiān)測科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應(yīng)用語義技術(shù)成為廣泛需求及必然。
將語義技術(shù)應(yīng)用于情報分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報研究任務(wù)的特點(diǎn),了解它的語義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對多維度劃分出的各類任務(wù)給出詳細(xì)的規(guī)范,例如,對微博等社會化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會化媒體中的語義任務(wù)之一。其次,語義資源建設(shè)問題,即在情報分析領(lǐng)域中,要實(shí)現(xiàn)語義層面上的理解,是否需要建設(shè)語義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構(gòu)建,并且這種語義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報研究工作。第三,信息抽取問題??萍夹畔⑸婕氨姸鄬W(xué)科的專業(yè)術(shù)語、各種科研機(jī)構(gòu)、組織等,如何使用語義技術(shù)將這些信息準(zhǔn)確地提取出來并加以標(biāo)注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術(shù),把不同來源的數(shù)據(jù)對象及其互動關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個新的具有更高效率和更好性能的具有語義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4 結(jié)語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報學(xué)領(lǐng)域中情報研究的理論和實(shí)踐帶來了機(jī)遇,也帶來了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對此有清醒的認(rèn)識。本文分析了大數(shù)據(jù)背景下情報研究的若干發(fā)展趨勢,總結(jié)了情報研究中值得關(guān)注的技術(shù)問題,以期能為促進(jìn)情報研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL].?。?012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
篇7
關(guān)鍵詞:大數(shù)據(jù)時代;學(xué)科館員;數(shù)據(jù)素養(yǎng)服務(wù);學(xué)科發(fā)展支撐服務(wù)
摘要:在大數(shù)據(jù)環(huán)境下,高校學(xué)科館員應(yīng)努力提供基于數(shù)據(jù)獲取與利用的信息素養(yǎng)服務(wù),為學(xué)者提供基于文獻(xiàn)信息和數(shù)據(jù)的學(xué)科知識發(fā)展支撐服務(wù),為學(xué)??蒲泄芾砼c決策部門提供決策支持服務(wù),為深入科研一線的學(xué)者提供定制化知識服務(wù)。
中圖分類號:G251.6文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2017)04-0131-03
1大數(shù)據(jù)對圖書館發(fā)展的挑戰(zhàn)
1980年,美國最早提出了“大數(shù)據(jù)”概念,但大數(shù)據(jù)時代的到來是在2004年以后,以Facebook、Twitter為代表的社交媒體相繼出現(xiàn),互聯(lián)網(wǎng)成為全世界網(wǎng)民實(shí)時互動、交流協(xié)同的載體。隨著數(shù)字化、移動化、網(wǎng)絡(luò)化的發(fā)展,大數(shù)據(jù)的應(yīng)用無處不在,使得圖書館用戶的信息環(huán)境、信息行為等發(fā)生了巨大的變化,圖書館已經(jīng)不再是用戶獲取信息的唯一渠道。對用戶來說,在大數(shù)據(jù)時代,信息資源的組織管理、數(shù)據(jù)挖掘和價值發(fā)現(xiàn)比信息獲取更加重要。
Web of Science、中國知網(wǎng)等國內(nèi)外商業(yè)數(shù)據(jù)庫的迅猛發(fā)展,使得圖書館需要培養(yǎng)大數(shù)據(jù)時代的圖書館數(shù)據(jù)管理與應(yīng)用人才。隨著采集存儲數(shù)據(jù)的成本越來越低,分析工具越來越先進(jìn),個人隱私安全面臨著巨大的沖擊與風(fēng)險,如何保護(hù)用戶的個人隱私,對新時代的圖書館員提出了更高的職業(yè)道德與專業(yè)素養(yǎng)要求[1]。傳統(tǒng)出版社的電子出版、數(shù)字圖書館的發(fā)展及開放獲取等,促進(jìn)了科研資源的大數(shù)據(jù)化發(fā)展。為此,學(xué)科服務(wù)在大數(shù)據(jù)時代應(yīng)積極探索信息服務(wù)的新理念和新方法,努力構(gòu)建智慧學(xué)科服務(wù)[2]。學(xué)科服務(wù)是圖書館全館服務(wù)體系的靈魂和有機(jī)部分,學(xué)科館員是全館最核心、最重要的資源,應(yīng)當(dāng)借助大數(shù)據(jù)時代的優(yōu)勢與機(jī)遇,在算機(jī)軟硬件操作、信息資源挖掘、讀者隱私保護(hù)等方面提高服務(wù)質(zhì)量[3],從而運(yùn)用知識圖譜整理館藏資源、建立學(xué)科文獻(xiàn)數(shù)據(jù)庫、整合資源知識等。
2基于數(shù)據(jù)獲取與利用的信息素養(yǎng)服務(wù)
數(shù)據(jù)素養(yǎng)主要體現(xiàn)為數(shù)據(jù)解讀、數(shù)據(jù)管理、數(shù)據(jù)利用、數(shù)據(jù)評價等[4],強(qiáng)調(diào)對數(shù)據(jù)的操作和使用。另外,其還包括數(shù)據(jù)的倫理道德修養(yǎng)[5]、數(shù)據(jù)存取[6]等。學(xué)科館員應(yīng)具有發(fā)現(xiàn)、評估與使用信息和數(shù)據(jù)的意識和能力。
2.1數(shù)據(jù)獲取與利用能力
學(xué)科館員的數(shù)據(jù)素養(yǎng)主要體現(xiàn)為對科學(xué)數(shù)據(jù)的獲取和再利用、數(shù)據(jù)庫重組、數(shù)據(jù)分析與可視化軟件使用及培訓(xùn)等。預(yù)計到2020年,80%以上的公益性、基礎(chǔ)性科學(xué)數(shù)據(jù)資源將通過因特網(wǎng)面向全社會共享。學(xué)科館員應(yīng)幫助用戶群體提高數(shù)據(jù)獲取能力,努力培養(yǎng)和提高用戶群體的公共自助科學(xué)數(shù)據(jù)開放獲取意識,幫助人們識別和查找科研數(shù)據(jù)的在線信息庫。此外,數(shù)據(jù)重組會創(chuàng)造出更大的價值,如:英屬哥倫比亞大學(xué)圖書館和華盛頓大學(xué)圖書館建設(shè)學(xué)科服務(wù)門戶,將購買的多個數(shù)據(jù)庫(如期刊論文、圖書、研究報告、數(shù)據(jù)、數(shù)字化館藏、學(xué)位論文等)分裝打包,并推送到各學(xué)科平臺,不僅降低了用戶查找相關(guān)數(shù)據(jù)庫的時間成本,而且提高了各數(shù)據(jù)庫的利用率;北京大學(xué)將古籍資源加入3D技術(shù)進(jìn)行處理,添加古代地圖,聚合其他人文景觀信息,大大提高了古籍的觀賞價值和利用率。
2.2學(xué)會和善于利用工具
在新時期,學(xué)科館員應(yīng)具有學(xué)科專才、情報能力,并能熟練掌握及利用相關(guān)的軟件工具,如:信息導(dǎo)航、信息檢索、檢索查新、文獻(xiàn)管理、知識發(fā)現(xiàn)、專利分析等工具。數(shù)據(jù)軟件培訓(xùn)主要是指學(xué)科館員根據(jù)用戶需求,到相關(guān)院系開設(shè)數(shù)據(jù)分析軟件(如SPSS、Eviews、Stata等)、文獻(xiàn)管理軟件(如EndNote、RefWorks等)、科研管理軟件、商業(yè)統(tǒng)計軟件等相關(guān)專題講座、討論會,幫助用戶主動運(yùn)用軟件工具并提高科研效率。云計算正在改變?nèi)藗儗?shù)據(jù)存儲的看法,海量數(shù)據(jù)存檔研究成為一項基礎(chǔ)性工作,越來越多的大學(xué)和研究中心開始建立科學(xué)數(shù)據(jù)倉儲庫,如Figshare、Dryad、PANGAEA等。因此,面對云架構(gòu),學(xué)科館員需要對云存儲等數(shù)據(jù)存儲基礎(chǔ)設(shè)施及數(shù)據(jù)組織進(jìn)行必要的了解和認(rèn)識,通過高度標(biāo)準(zhǔn)化的數(shù)據(jù)存儲工具適應(yīng)科研數(shù)據(jù)負(fù)載的變更,保證在可信賴環(huán)境中提供數(shù)據(jù)集的持續(xù)永久性訪問。
3基于文獻(xiàn)信息和數(shù)據(jù)的學(xué)科發(fā)展支撐服務(wù)
3.1學(xué)者成果驗(yàn)證
科研機(jī)構(gòu)的科研能力是衡量其競爭能力的重要指標(biāo),學(xué)者作為其中的主體,其科研能力直接決定科研機(jī)構(gòu)的科研水平和后續(xù)的發(fā)展優(yōu)勢。圖書館學(xué)科館員可以根據(jù)學(xué)者需求,利用WOS、Scopus等數(shù)據(jù)庫檢索學(xué)者在某一時段的發(fā)文數(shù)量、被引頻次、所投期刊的影響因子等,分析合作者的影響和產(chǎn)出績效,并基于學(xué)者個人成果,包括期刊、會議論文、專著等作品,提供文獻(xiàn)收錄和引用檢索證明,方便科研人員進(jìn)行職稱申報、基金申請和評獎等。
3.2嵌入式課程教學(xué)
學(xué)科館員以課程為主要服務(wù)方式,提供信息素養(yǎng)教育課程,促進(jìn)用戶通過課件學(xué)習(xí)、課堂研討等方式全面提高自己的信息素養(yǎng)技能。學(xué)科館員與專業(yè)教師進(jìn)行合作,將信息素養(yǎng)培訓(xùn)內(nèi)容嵌入課堂教學(xué),通過“課堂教學(xué)信息指導(dǎo)”和“嵌入課程教學(xué)”等方式,針對性地提供信息素養(yǎng)教育;借助虛擬學(xué)習(xí)環(huán)境,提供注冊課程,獲取課程學(xué)習(xí)資源、課程考試資源等內(nèi)容,延伸教學(xué)空間與交流空間,培養(yǎng)學(xué)生的終生學(xué)習(xí)能力。
篇8
關(guān)鍵詞:大數(shù)據(jù);經(jīng)濟(jì)學(xué);數(shù)據(jù)分析
大數(shù)據(jù)作為一種有用的信息資源,在商業(yè)、金融等領(lǐng)域發(fā)揮著越來越重要作用,也逐漸成為社會科學(xué)的國際前沿應(yīng)用研究內(nèi)容之一。然而,在經(jīng)濟(jì)學(xué)領(lǐng)域,大數(shù)據(jù)還鮮少被用到(據(jù)統(tǒng)計,截至2014年12月,google中學(xué)術(shù)搜索到的與“大數(shù)據(jù)”有關(guān)的研究論文共3026篇,其中僅有29篇是和經(jīng)濟(jì)學(xué)相關(guān))。但因海量經(jīng)濟(jì)數(shù)據(jù)資源的快速增長,計算技術(shù)和能力的不斷提高,以及方法論的不斷發(fā)展,將大數(shù)據(jù)分析技術(shù)運(yùn)用于經(jīng)濟(jì)學(xué)已成為一個值得探討的新課題。展望未來,由于經(jīng)濟(jì)學(xué)是一門理論與實(shí)踐相結(jié)合的學(xué)科,將大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué),有可能會開辟一個全新的經(jīng)濟(jì)學(xué)發(fā)展領(lǐng)域。
一、大數(shù)據(jù)在經(jīng)濟(jì)學(xué)領(lǐng)域應(yīng)用的基本原理
大數(shù)據(jù)在經(jīng)濟(jì)學(xué)中應(yīng)用的基本思路以大樣本數(shù)據(jù)統(tǒng)計與機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ)。其中大樣本統(tǒng)計的過程概括如下:用N個代入變量得出對應(yīng)的N個測量結(jié)果與K個潛在的預(yù)測因子,比如:以居民消費(fèi)價格CPI指數(shù)預(yù)測為例,首先通過GOOGLE數(shù)據(jù)搜索或其他軟件,篩選出同CPI有關(guān)的一系列關(guān)鍵詞(比如糧食產(chǎn)量、原油期貨價格、氣候溫度、價格改革政策等),然后通過這些關(guān)鍵詞在文本數(shù)據(jù)(新聞、微博、評論、研究報告、學(xué)術(shù)論文等)出現(xiàn)的時間頻次,計算它們之間的相關(guān)關(guān)系和邏輯路徑關(guān)系,從而得到測量結(jié)果N和預(yù)測因子K。在許多情形下,每一個代入變量的信息是足夠豐富的,但不具有結(jié)構(gòu)性,故可能會產(chǎn)生很多潛在預(yù)測因子,因此,需要注意的是:若是過度擬合,即預(yù)測因子K的個數(shù)可能會遠(yuǎn)遠(yuǎn)大于觀測變量N的個數(shù)時,雖然模型可完美解釋觀測到的結(jié)果,但樣本外數(shù)據(jù)的解釋力卻很差。在這種狀況下,構(gòu)造一個最大化樣本解釋力的模型便成為首要目標(biāo),同時構(gòu)建的模型還不能出現(xiàn)因過度擬合所導(dǎo)致的樣本外無力解釋的情形。因模型構(gòu)建不同,使用方法也隨之改變,懲罰預(yù)測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據(jù)最小化離差平方和來選擇模型系數(shù)。通過將樣本分為“訓(xùn)練樣本”和“測試樣本”(“訓(xùn)練樣本”用來估計模型參數(shù),“測試樣本”用來評估模型)進(jìn)行過度擬合。而在評估預(yù)測效果時,一般交叉使用樣本內(nèi)預(yù)測與過度擬合,但目前這種交叉驗(yàn)證的方法在當(dāng)前的實(shí)證微觀經(jīng)濟(jì)學(xué)中也鮮少用到。
機(jī)器學(xué)習(xí)的一個非常重要假設(shè)就是機(jī)器學(xué)習(xí)的環(huán)境是相對穩(wěn)定的,也就是樣本數(shù)據(jù)(訓(xùn)練樣本與測試樣本情形相同)獨(dú)立產(chǎn)生于同一過程。但由于現(xiàn)實(shí)環(huán)境會隨著時間發(fā)生改變,故這一假設(shè)并不合理,因此,在高頻使用新數(shù)據(jù)的應(yīng)用中,往往通過對自身持續(xù)“再訓(xùn)練”,從而使得模型可以隨著時間與環(huán)境的變化對預(yù)測結(jié)果進(jìn)行調(diào)整。當(dāng)然,對于機(jī)器學(xué)習(xí),有些經(jīng)濟(jì)學(xué)家提出了盧卡斯批判的疑問,即若根據(jù)模型的預(yù)測結(jié)果進(jìn)行政策調(diào)整,則政策調(diào)整后的現(xiàn)實(shí)結(jié)果可能與初始模型的預(yù)測結(jié)果有差異,因?yàn)檎叩母淖儠绊憯?shù)據(jù)間的潛在行為關(guān)系,但這一疑問在其他預(yù)測模型,比如計量經(jīng)濟(jì)模型、結(jié)構(gòu)方程模型和聯(lián)立系統(tǒng)模型中也都存在。
二、大數(shù)據(jù)對經(jīng)濟(jì)學(xué)的影響及前景
如今,隨著數(shù)據(jù)樣本容量的急劇增加,使得大數(shù)據(jù)的使用方式不盡相同。作為一個規(guī)律性科學(xué),經(jīng)濟(jì)學(xué)需要廣泛、詳細(xì)的數(shù)據(jù),并運(yùn)用統(tǒng)計技術(shù)來處理新型數(shù)據(jù),大數(shù)據(jù)的出現(xiàn)可能會在社會學(xué)與計算機(jī)科學(xué)間構(gòu)建一架橋梁,其學(xué)科價值可能在于創(chuàng)造新的思維方式,這將會導(dǎo)致對經(jīng)濟(jì)學(xué)的新思考和研究方法創(chuàng)新,甚至?xí)矸治鼋?jīng)濟(jì)學(xué)方法的質(zhì)變。
一方面,由于多維度的精細(xì)間隔,大數(shù)據(jù)可以為經(jīng)濟(jì)學(xué)研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經(jīng)濟(jì)理論研究提供了一種全新的測量方法。例如:麻省理工大學(xué)助理教授Alberto Cavallo設(shè)計的“百萬價格”項目,該項目旨在通過一個網(wǎng)絡(luò)程序,獲取網(wǎng)上物品價格,繼而運(yùn)用這些數(shù)據(jù)計算得出通脹指數(shù),該通貨膨脹指數(shù)就是阿根廷的精確透明通貨膨脹指標(biāo),其實(shí)時價格數(shù)據(jù)的捕捉能力和準(zhǔn)確度,使得該指標(biāo)作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數(shù)據(jù)選擇也提供了一個探索新機(jī)會的理由,目前一個備受矚目的例子就是“及時預(yù)報”,在某些方面它可以通過龐大經(jīng)濟(jì)社會數(shù)據(jù)集進(jìn)行短期精確預(yù)測。
另一方面,大數(shù)據(jù)已與行為經(jīng)濟(jì)學(xué)相適應(yīng),成為產(chǎn)業(yè)相關(guān)經(jīng)濟(jì)規(guī)律研究的一部分,并且,大數(shù)據(jù)在經(jīng)濟(jì)學(xué)領(lǐng)域已經(jīng)顯示出眾多的優(yōu)越性。大數(shù)據(jù)已有潛力去挑戰(zhàn)理性概念,例如對于經(jīng)濟(jì)學(xué)家在預(yù)測問題上的出錯概率,強(qiáng)調(diào)樣本偏差的方法;或者對于政策刺激的外部效應(yīng)問題,強(qiáng)調(diào)在社會媒體中情緒化分析出現(xiàn)的混亂問題,總而言之,大數(shù)據(jù)與先進(jìn)的建模策略相結(jié)合,可以產(chǎn)生更詳細(xì)、更準(zhǔn)確和更有說服力的解釋和分析。
篇9
一、大數(shù)據(jù)的基本概念
大數(shù)據(jù)(bigdata)即是在網(wǎng)絡(luò)多元化形式之中的一種巨型數(shù)據(jù)集合,其來源于社交網(wǎng)絡(luò)、搜索引擎以及電子商務(wù)網(wǎng)絡(luò)等等,具有體量大、速率高、多樣性、真實(shí)以及價值等幾個主要的特征。大數(shù)據(jù)與云計算具有較為密切的聯(lián)系,因?yàn)閱我坏挠嬎銠C(jī)并無法對大數(shù)據(jù)進(jìn)行處理,因此需要利用分布式的計算框架,其基本特點(diǎn)在于對巨型數(shù)據(jù)的深度挖掘,但始終需依托于云計算的分布式處理。早在二十世紀(jì)八十年代便已有科學(xué)家做出預(yù)見,大數(shù)據(jù)所帶來的變革必將改變我的生活、工作方式以及思維。在近十年間,大數(shù)據(jù)已成為互聯(lián)網(wǎng)技術(shù)的一個重要方面,其關(guān)注度也呈逐年上升的趨勢。正是在這樣的環(huán)境之中,我國的企業(yè)經(jīng)營發(fā)展迎來了前所未有的機(jī)遇與挑戰(zhàn)。
二、大數(shù)據(jù)時代下企業(yè)經(jīng)營管理所面臨的挑戰(zhàn)
(一)數(shù)據(jù)多樣化
信息的發(fā)展與經(jīng)濟(jì)的進(jìn)步基本上是保持這相同的步調(diào),在大數(shù)據(jù)背景下,企業(yè)需要根據(jù)實(shí)際的經(jīng)營需求,自由選擇傳統(tǒng)以及現(xiàn)代兩種信息數(shù)據(jù)收集的方式,并對不同網(wǎng)絡(luò)渠道信息資源的收集進(jìn)行探究,尤其是在電子商務(wù)飛速發(fā)展的今天,對圖片、視頻以及數(shù)據(jù)內(nèi)容進(jìn)行采集。就企業(yè)自身的經(jīng)營管理而言,大部分企業(yè)對于信息收集處理的方式還比較局限,基本還停留在滿足于結(jié)構(gòu)信息發(fā)展的需求之上,而對于企業(yè)自身的非結(jié)構(gòu)化信息則難以進(jìn)行有效的處理與分析。值得說明的是,企業(yè)自身的非結(jié)構(gòu)化信息在企業(yè)的經(jīng)營管理之中占據(jù)著較為重要的地位,甚至可以說對企業(yè)非結(jié)構(gòu)化信息的處理是企業(yè)經(jīng)營發(fā)展的基礎(chǔ)。
(二)實(shí)時數(shù)據(jù)分析
隨著經(jīng)濟(jì)全球化程度的加深,企業(yè)的發(fā)展與其內(nèi)部系統(tǒng)以及外部環(huán)境有著密不可分的關(guān)系,這兩者的基本特點(diǎn)是迅捷、快速、高效。簡而言之,在大數(shù)據(jù)時代下企業(yè)自身數(shù)據(jù)處理的任務(wù)正在飛速增長。與傳統(tǒng)企業(yè)的經(jīng)營管理模式不同,現(xiàn)代化企業(yè)的管理很大程度上依賴于企業(yè)對信息數(shù)據(jù)“即時”的分析把握?;诖?,企業(yè)將面臨相當(dāng)龐大的信息處理任務(wù),而隨著信息分析處理任務(wù)量的急劇增長,也對企業(yè)信息數(shù)據(jù)處理的速度以及質(zhì)量提出了更高的要求。大數(shù)據(jù)時代下的企業(yè)信息數(shù)據(jù)處理必須始終保持“即時”性,這也是現(xiàn)代化企業(yè)信息數(shù)據(jù)處理分析的基本發(fā)展趨向,同時也是企業(yè)健康穩(wěn)定發(fā)展的基本需求。
(三)建立在數(shù)據(jù)內(nèi)容上的決策
企業(yè)現(xiàn)代化程度的加深,意味著企業(yè)各類經(jīng)營活動均對信息數(shù)據(jù)有著更高的要求,這也是企業(yè)數(shù)據(jù)信息處理分析發(fā)展的一個方向。對于信息數(shù)據(jù)的精確分析,是理性決策的重要保障,能夠有效提高決策的科學(xué)性、規(guī)范性以及精確性,避免因數(shù)據(jù)內(nèi)容的不準(zhǔn)確,導(dǎo)致決策者出現(xiàn)不同程度的錯誤判斷,減少企業(yè)經(jīng)營發(fā)展的風(fēng)險。就現(xiàn)狀來說,許多企業(yè)在擴(kuò)大生產(chǎn)以及業(yè)務(wù)范圍的過程之中,對于信息數(shù)據(jù)的處理分析并不如何重視,只是盲目的將所得信息進(jìn)行單向性的匯總,而缺乏對于信息數(shù)據(jù)內(nèi)容的歸納判斷,同時對于同行業(yè)內(nèi)企業(yè)的信息數(shù)據(jù)也并不重視,導(dǎo)致企業(yè)決策出現(xiàn)一定的紕漏。在大數(shù)據(jù)的時代背景之下,只有充分重視信息數(shù)據(jù)內(nèi)容,并對其進(jìn)行科學(xué)化的處理分析,才能夠有效解決企業(yè)內(nèi)部管理所存在的問題。因此,為了對傳統(tǒng)決策觀念與模式進(jìn)行改變,就有必要進(jìn)行科學(xué)規(guī)范的數(shù)據(jù)分析,并將決策的舉措置于數(shù)據(jù)內(nèi)容上進(jìn)行,以謀求企業(yè)長遠(yuǎn)發(fā)展。
(四)關(guān)注數(shù)據(jù)安全
現(xiàn)代化企業(yè)經(jīng)營管理各類活動的均與信息數(shù)據(jù)的準(zhǔn)確性有著較為密切的聯(lián)系,這也包括企業(yè)自身所掌握的信息,尤其是企業(yè)客戶的信息,對于企業(yè)來說更是其核心價值之所在。在大數(shù)據(jù)的時潮之中,企業(yè)必須思考如該如何在有效分析處理信息數(shù)據(jù)的基礎(chǔ)之上,對企業(yè)商業(yè)機(jī)密以及客戶信息進(jìn)行全面的保護(hù)。
三、大數(shù)據(jù)時代下企業(yè)經(jīng)營管理模式與發(fā)展分析
(一)運(yùn)營決策以數(shù)據(jù)為基礎(chǔ)
在大數(shù)據(jù)的時代背景之下,企業(yè)必須強(qiáng)化對內(nèi)部信息數(shù)據(jù)的整合管理并逐步建立起相關(guān)的體系,使企業(yè)日常經(jīng)營活動均有相關(guān)的信息數(shù)據(jù)內(nèi)容作為參照。為推動企業(yè)經(jīng)營管理模式的進(jìn)步,就搭建企業(yè)內(nèi)部信息數(shù)據(jù)的平臺,使企業(yè)內(nèi)部的信息數(shù)據(jù)分析管理體系趨向規(guī)范化,以提升企業(yè)整體信息數(shù)據(jù)分析管理工作的效率。這也意味著,企業(yè)必須建立于社會網(wǎng)絡(luò)的鏈接,并提高對于社會網(wǎng)絡(luò)數(shù)據(jù)的觀察與分析,通過對不同社會網(wǎng)絡(luò)平臺上的信息數(shù)據(jù)進(jìn)行采集整理,深度挖掘管理活動之中所需的信息內(nèi)容,并完成后續(xù)的分析傳輸工作。同時,企業(yè)也必須加深對于信息數(shù)據(jù)采集搜索的強(qiáng)度,以提升企業(yè)信譽(yù)為基本目的,制定多層次、多角度、多取向的音效策略。以上內(nèi)容,均建立在對信息數(shù)據(jù)的分析處理之上,實(shí)現(xiàn)企業(yè)運(yùn)營決策的所有內(nèi)容都有其信息數(shù)據(jù)的基礎(chǔ)。
(二)培養(yǎng)數(shù)據(jù)管理人才
目前,市場環(huán)境乃是以知識經(jīng)濟(jì)作為基本引導(dǎo),這也意味著企業(yè)的經(jīng)營發(fā)展愈來愈倚重于人才,尤其是在大數(shù)據(jù)時代下,企業(yè)想要在日趨激烈的市場競爭之中脫穎而出,就必須加大對于人才的吸納。大數(shù)據(jù)時代的來臨,對于企業(yè)的經(jīng)營管理提出了更高的要求以及標(biāo)準(zhǔn),這也是對企業(yè)內(nèi)部人才綜合素質(zhì)的長大考驗(yàn)。為了保證企業(yè)信息數(shù)據(jù)分析管理工作的效率與質(zhì)量,就有必要培養(yǎng)符合企業(yè)發(fā)展需求的數(shù)據(jù)管理人才,以大數(shù)據(jù)時代的要求來看,對信息數(shù)據(jù)具有敏銳感知能力、應(yīng)對能力以及分析能力是一名優(yōu)秀數(shù)據(jù)管理人才所須具備的基本素質(zhì)。因此,企業(yè)必須加強(qiáng)對數(shù)據(jù)管理人才的儲備,并建立完善的招聘、篩選、任用、培訓(xùn)制度以及相關(guān)的考核獎勵機(jī)制,推動企業(yè)數(shù)據(jù)管理人才工作素質(zhì)的提高。
(三)企業(yè)網(wǎng)絡(luò)的建設(shè)
從提升企業(yè)信息數(shù)據(jù)管理分析的角度來談,就有必要在企業(yè)內(nèi)部建設(shè)全面化、多向性、科學(xué)性的企業(yè)內(nèi)部網(wǎng)絡(luò),為信息數(shù)據(jù)的各項工作提供一個良好的平臺,并實(shí)現(xiàn)企業(yè)內(nèi)部信息數(shù)據(jù)的有效化管理。企業(yè)網(wǎng)絡(luò)的建設(shè)必須符合企業(yè)經(jīng)營發(fā)展的現(xiàn)狀以及需求,并具備一定的科學(xué)性與合理性,以謀求企業(yè)發(fā)展為基礎(chǔ),提升企業(yè)服務(wù)質(zhì)量為手段,推動企業(yè)信息網(wǎng)絡(luò)建設(shè)為最終目的,提高企業(yè)對信息數(shù)據(jù)分析管理工作的效率。
結(jié)束語
綜上所述,在大數(shù)據(jù)的時代潮流之中,企業(yè)發(fā)展所面對的外在環(huán)境具有多樣化的基本特征,且規(guī)模亦不盡相同。企業(yè)經(jīng)營管理的改革必須與信息化社會的進(jìn)步保持相同的步調(diào)。所以,企業(yè)必須主動迎合大數(shù)據(jù)時代,置身于這股時潮之中,并結(jié)合自身的具體情況,思考如何有效利用大數(shù)據(jù)時代所提供的資源來提升企業(yè)自身的競爭力,使企業(yè)在日趨激烈的市場競爭之中,始終立于不敗之地。
參考文獻(xiàn):
[1]陸波.信息爆炸(大數(shù)據(jù))對現(xiàn)代企業(yè)經(jīng)營的挑戰(zhàn)、機(jī)遇與對策[J].經(jīng)貿(mào)實(shí)踐,2017(15):164-165.
篇10
論文關(guān)鍵詞:網(wǎng)絡(luò)環(huán)境,大學(xué)生信息組織,共享模式
在易班中,這個新興網(wǎng)絡(luò)群體組織被統(tǒng)稱為網(wǎng)絡(luò)社區(qū),在大家都比較熟悉的易班網(wǎng)按網(wǎng)絡(luò)組織分為機(jī)構(gòu)群和公共群,或者另外一種分類法叫做聊天群和非聊天群。這已經(jīng)初步建立起網(wǎng)絡(luò)組織和共享模式。從最早的BBS,從博客群到微博再到微信、易信,發(fā)展到現(xiàn)在的易班,大學(xué)生網(wǎng)絡(luò)學(xué)習(xí)和生活由此真正也進(jìn)入了專業(yè)化移動社區(qū)時代。自從易班校園好聲音活動開播以來,易班網(wǎng)絡(luò)社區(qū)在中國網(wǎng)絡(luò)領(lǐng)域成為了后起之秀,逐漸成為大學(xué)師生獲取、交流與傳播信息的重要平臺。
然而,在當(dāng)今社會,QQ、微信、易信等平臺仍然是主流新媒體。隨著大學(xué)生網(wǎng)絡(luò)社區(qū)的迅速發(fā)展,易班網(wǎng)絡(luò)的社區(qū)信息資源的管理尤其是信息組織和分享方面的問題日益凸顯。如何在尊重學(xué)生個性發(fā)展的基礎(chǔ)上有效地對大學(xué)生進(jìn)行思想政治教育,如何控制網(wǎng)絡(luò)組織中的信息流向,讓信息流變成現(xiàn)實(shí)的管理數(shù)據(jù)庫,如何把網(wǎng)絡(luò)信息資源組織成有序而優(yōu)化的信息管理反饋系統(tǒng),比如學(xué)生的網(wǎng)絡(luò)話語與學(xué)生的操行自動比對,形成管理者的共享材料。這是當(dāng)前網(wǎng)絡(luò)社區(qū)信息管理的幾大難題,也是解決當(dāng)前大學(xué)生網(wǎng)絡(luò)社區(qū)信息個性化需求與高校有序管理需求之間的矛盾的主要措施。
1 易班的信息組織模式和理念還不能很好適應(yīng)A—B
易班作為一個服務(wù)平臺,首先應(yīng)當(dāng)是一個管理平臺。社區(qū)化的思想應(yīng)當(dāng)首先服務(wù)于高校管理。過于追求社區(qū)化,當(dāng)然某種意義上利于學(xué)生群體自由,但是不利于管理。試用易班后,多數(shù)高校發(fā)現(xiàn)了這個問題。易班原來英文名叫“E-class”,建立以班級為群體或者小社區(qū)的理念是它的初衷,這個是好的,但是班級一定要找到它的根,即要找到它的院系然后找到它的大學(xué)。這樣才有管理的條件。而且班級新聞怎么推送上去要看這個鏈條是否完整,管理節(jié)點(diǎn)有沒有。易班的信息組織模式要是能適應(yīng)當(dāng)前網(wǎng)絡(luò)時代的發(fā)展,就一定要做到A—B—C的模式,其中第一個重要環(huán)節(jié)就是A—B,A就是網(wǎng)絡(luò)服務(wù)提供商,就是教育部易班發(fā)展中心,B就是各個高校的管理層,這個脈絡(luò)不僅在現(xiàn)實(shí)生活中非常清晰,而且要做到在網(wǎng)絡(luò)中也非常清晰。學(xué)生有歸屬感,不至于游離于網(wǎng)絡(luò),如果讓學(xué)生隨心所欲,學(xué)生就可能走出社會主義核心價值觀的輿論氛圍,思想和精神得不到健康發(fā)展。
第二個環(huán)節(jié)才是B—C,B是各高校的管理者,C就是一個個的群組。B是架起易班服務(wù)的橋梁,C是群星燦爛的易班組織,B能體會到易班的精神并將之傳導(dǎo)到C,C最終能共享易班服務(wù)成果。結(jié)合易班網(wǎng)絡(luò)社區(qū)組織結(jié)構(gòu)構(gòu)成及功能特點(diǎn),以及國內(nèi)外有關(guān)信息組織結(jié)構(gòu)和共享模式的相關(guān)理論,建立“A—B—C”系統(tǒng)化、個性化的大學(xué)生網(wǎng)絡(luò)社區(qū)中的信息組織管理共享模式,不僅有利于解決網(wǎng)絡(luò)社區(qū)中信息組織新出現(xiàn)的問題,促進(jìn)網(wǎng)絡(luò)社區(qū)中信息資源規(guī)范管理,現(xiàn)代企業(yè)管理論文而且從深層次上揭示信息組織和共享的結(jié)構(gòu)機(jī)制,建立起適應(yīng)復(fù)雜網(wǎng)絡(luò)社區(qū)環(huán)境的、完善高校學(xué)生管理和思想政治教育的信息組織和共享模式。
2 易班信息共享模式有待升華
易班網(wǎng)絡(luò)目前停留在信息分享的初級階段,各高校仍然不能很好分享或者獲取網(wǎng)絡(luò)中有價值的信息,也需要自己收集加工信息,這個情況造成很多輔導(dǎo)員職業(yè)疲倦。以至于討厭易班,不愿意發(fā)動學(xué)生加入易班。網(wǎng)絡(luò)社區(qū)中的信息組織和共享模式,不是對信息組織和共享模式的簡單相加,而是對傳統(tǒng)信息組織模式的升華和優(yōu)化,是對傳統(tǒng)社會中有關(guān)商業(yè)化網(wǎng)絡(luò)信息組織共享模式的方法和經(jīng)驗(yàn)進(jìn)行借鑒、總結(jié)和改造的結(jié)果,是一種具有實(shí)踐過程并將成果指導(dǎo)實(shí)踐的研究。有具體的網(wǎng)絡(luò)社區(qū)環(huán)境應(yīng)用場地,有現(xiàn)實(shí)的易班網(wǎng)絡(luò)平臺,還要有虛擬的大數(shù)據(jù)分析分享系統(tǒng),對于改善網(wǎng)絡(luò)社區(qū)中的信息組織有重要的指導(dǎo)價值,能促進(jìn)網(wǎng)絡(luò)社區(qū)更加有序的運(yùn)行具有重要的意義。
易班對網(wǎng)絡(luò)社區(qū)的信息主要集中于大學(xué)生所關(guān)注的領(lǐng)域或者活動,無論從微社區(qū)、話題,還是輕應(yīng)用,都比較“散”,范圍非常廣泛,缺乏提煉。學(xué)校和院系除了知道學(xué)生人數(shù),剩下的事情就只停留在“點(diǎn)贊”和“刷屏”上了,真正獲得有價值的信息,比如學(xué)生最近在干嗎?學(xué)生普世價值觀數(shù)據(jù)分析?學(xué)生社會行為學(xué)分析數(shù)據(jù)、學(xué)生心理需求方面分析數(shù)據(jù)等等這些信息無法擁有,老師們也就無力去再做些什么。所以易班要向這方面努力。概括起來主要有:1)信息共享應(yīng)該接入整個學(xué)生數(shù)據(jù)庫;2)分層級分享易班分析數(shù)據(jù)庫,這個需要大數(shù)據(jù)支持;3)積分系統(tǒng)應(yīng)該下放到管理層;4)好的應(yīng)用明碼標(biāo)價或共享;5)應(yīng)拓展數(shù)據(jù)分析的學(xué)科領(lǐng)域。科學(xué)地建立大學(xué)生易班網(wǎng)絡(luò)社區(qū)中的信息組織和共享模式,以及大數(shù)據(jù),將使易班更有吸引力,更有應(yīng)用前景。
總的來說,易班網(wǎng)開辟了大學(xué)生信息組織和共享成果時代,是我國高等教育領(lǐng)域尤其是網(wǎng)絡(luò)思想文化方面一個巨大的進(jìn)步?;谝装嗑W(wǎng)在信息組織與共享模式上存在的缺陷,本文擬提出建立“A—B—C”的信息組織和共享模式,拓展大數(shù)據(jù)時代價值,結(jié)合信息科學(xué)和社會科學(xué)的相關(guān)理論,系統(tǒng)地給各高校提供一個集分享和管理的信息模式,構(gòu)建一個既能適應(yīng)高校大學(xué)生個性化需求又能服務(wù)于高校管理信息化平臺,以改善當(dāng)今大學(xué)生網(wǎng)絡(luò)社區(qū)中信息組織混亂無序的現(xiàn)狀,同時為大學(xué)生網(wǎng)絡(luò)組織和分享模式的研究另辟蹊徑,促進(jìn)科學(xué)和技術(shù)的交流與整合。
參考文獻(xiàn)
[1]張明海,龍獻(xiàn)忠.云傳播時代大學(xué)生信息素養(yǎng)教育創(chuàng)新研究[J].圖書館,2014(5):99-101,106.
[2]潘燕桃,廖昀赟.大學(xué)生信息素養(yǎng)教育的“慕課”化趨勢[J].大學(xué)圖書館學(xué)報,2014(4):21-27.