數據分析報告范文
時間:2023-03-21 19:39:52
導語:如何才能寫好一篇數據分析報告,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
我認為一份好的分析報告,有以下一些要點:
首先,要有一個好的框架
跟蓋房子一樣,好的分析肯定是有基礎有層次,有基礎堅實,并且層次明了才能讓閱讀者一目了然,架構清晰、主次分明才能讓別人容易讀懂,這樣才讓人有讀下去的欲望;
第二,每個分析都有結論,而且結論一定要明確
如果沒有明確的結論那分析就不叫分析了,也失去了他本身的意義,因為你本來就是要去尋找或者印證一個結論才會去做分析的,所以千萬不要忘本舍果;
第三,分析結論不要太多要精
如果可以的話一個分析一個最重要的結論就好了,很多時候分析就是發(fā)現問題,如果一個一個分析能發(fā)現一個重大問題,就達到目的了,不要事事求多,寧要仙桃一口,不要爛杏一筐,精簡的結論也容易讓閱者接受,減少重要閱者(通常是事務繁多的領導,沒有太多時間看那么多)的閱讀心理門檻,如果別人看到問題太多,結論太繁,不讀下去,一百個結論也等于0;
第四,分析結論一定要基于緊密嚴禁的數據分析推導過程
不要有猜測性的結論,太主觀的東西會沒有說服力,如果一個結論連你自己都沒有肯定的把握就不要拿出來誤導別人了;
第五,好的分析要有很強的可讀性
這里是指易讀度,每個人都有自己的閱讀習慣和思維方式,寫東西你總會按照自己的思維邏輯來寫,你自己覺得很明白,那是因為整個分析過程是你做的,別人不一定如此了解,要知道閱者往往只會花10分鐘以內的時間來閱讀,所以要考慮你的分析閱讀者是誰?他們最關心什么?你必須站在讀者的角度去寫分析郵件;
第六,數據分析報告盡量圖表化
這其實是第四點的補充,用圖表代替大量堆砌的數字會有助于人們更形象更直觀地看清楚問題和結論,當然,圖表也不要太多,過多的圖表一樣會讓人無所適從;
第七,好的分析報告一定要有邏輯性
通常要遵照:1、發(fā)現問題–2、總結問題原因–3、解決問題,這樣一個流程,邏輯性強的分析報告也容易讓人接受;
第八,好的分析一定是出自于了解產品的基礎上的
做數據分析的產品經理本身一定要非常了解你所分析的產品的,如果你連分析的對象基本特性都不了解,分析出來的結論肯定是空中樓閣了,無根之木如何叫人信服?!
第九,好的分析一定要基于可靠的數據源
其實很多時候收集數據會占據更多的時間,包括規(guī)劃定義數據、協(xié)調數據上報、讓開發(fā)人員提取正確的數據或者建立良好的數據體系平臺,最后才在收集的正確數據基礎上做分析,既然一切都是為了找到正確的結論,那么就要保證收集到的數據的正確性,否則一切都將變成為了誤導別人的努力;
第十,好的分析報告一定要有解決方案和建議方案
你既然很努力地去了解了產品并在了解的基礎上做了深入的分析,那么這個過程就決定了你可能比別人都更清楚第發(fā)現了問題及問題產生的原因,那么在這個基礎之上基于你的知識和了解,做出的建議和結論想必也會更有意義,而且你的老板也肯定不希望你只是個會發(fā)現問題的人,請你的那份工資更多的是為了讓你解決問題的;
十一,不要害怕或回避“不良結論”
分析就是為了發(fā)現問題,并為解決問題提供決策依據的,發(fā)現產品問題也是你的價值所在,相信你的老板請你來,不是光讓你來唱贊歌的,他要的也不是一個粉飾太平的工具,發(fā)現產品問題,在產品缺陷和問題造成重大失誤前解決它就是你的分析的價值所在了;
十二,不要創(chuàng)造太多難懂的名詞
如果你的老板在看你的分析花10分鐘要叫你三次過去來解釋名詞,那么你寫出來的價值又在哪里呢,還不如你直接過去說算了,當然如果無可避免地要寫一些名詞,最好要有讓人易懂的“名詞解釋”;
篇2
調查組人員通過對不同民族、年齡、學歷、宗教信仰、職業(yè)、健康狀況、戶籍所在地的成年人員進行抽樣調查,在云南省大理市共完成有效問卷456份。根據將問卷用SPSS軟件分析后,我們得出大理市受訪者就業(yè)與民族教育的調研數據。
一、就業(yè)情況
從大理當地農業(yè)戶口的受訪者工作狀況來看,25.9%的人只是務農,17.3%的人以務農為主,同時也充實非農工作,16.9%的人以非農工作為主,同時也務農,只從事非農工作的人員比例為35%,退休人員的比例為0.4%,全日制學生的比例為7.7%,失業(yè)或待業(yè)人員、家務勞動者及其他不工作也不上學的成員比重為4.2%。
(一)農業(yè)戶口人員
本地非農務工方面,1964-2013年期間,有23.5%的受訪者從事過本地非農務工,其中34.2%受訪者是通過朋友/熟人介紹,19%的受訪者是通過家人/親戚介紹,通過招聘廣告和直接申請(含考試)的人員比例一樣,均為13.9%,有8.9%的人是通過本鄉(xiāng)同民族介紹,有6.3%的人是通過政府/社區(qū)安排介紹,而比例最低的是通過商業(yè)職介(包括人才交流會);以前有外出從業(yè)經歷,但今年如果為外出就業(yè)的主要原因上,比例最高的原因是“家中農業(yè)缺乏勞動力”、“回家結婚、生育”和“收入沒有在家穩(wěn)定”,分別為31%、13.8%、12.9%。在從事農林牧副漁業(yè)的被訪者中,勞動屬于農村家庭承包經營勞動者的比例最高,有效百分比達到96.7%。
(二)城鎮(zhèn)戶口或城鎮(zhèn)外來務工人員
在城鎮(zhèn)戶口或城鎮(zhèn)外來務工人員群體中,從就業(yè)范圍看,76.8%的人在本鄉(xiāng)內工作,比重最大,只有0.2%的人在省外國內范圍工作,其余都在省內;從職業(yè)來看,其中工作的職業(yè)比例最高的是辦事人員和有關人員,占21.7%,國家機關黨群組織、企事業(yè)單位負責人和農林牧副漁水利生產人員比例一樣,均為14.5%,專業(yè)技術人員占11.6%,商業(yè)人員占10.1%,從事生產、運輸設備操作人員及有關人員的比例為8.7%,軍人的比例為1.4%;在得到第一份城鎮(zhèn)工作的最主要渠道方面,最主要的是通過政府/社區(qū)安排介紹和直接申請(含考試),比例分別為25%和22.1%。
在我們詢問的456名受訪者中,有14.3%的人沒有工作,問及原因和連續(xù)沒有工作的時間,多數人表示不愿多談或說不清。
二、民族語言與教育
(一)語言
訪談對象中有90%的人是白族,在問及現在能用哪些話與人交談時,81.4%的人會用普通話,95.2%以上的人會用漢語方言和本民族語言,也有3.5%的人會說其他少數民族語言;漢語方言語言程度上,能流利準確使用的比例為68.4%,聽不懂也不會說的僅占1.1%;本民族語言的語言程度上,96.7%的人能流利準確的使用,但也有2%的人表示聽不懂也不會說;在普通話語言程度上,35.4%的受訪者能流利準確的使用,能熟練使用但有些音不準和口音較重的比例相差不大,分別為14.7%、14.9%,基本能交談但不太熟練的比例為11.6%,只有2.2%的受訪者聽不懂也不會說。
(二)文字
據了解,現代白族有自己的語言,但一般使用漢字書寫。根據調查數據,在問及是否會寫漢字時,79.6%的人表示會,9.9%的人表示會一些,10.3%的人表示不會;在問及是否會使用本民族文字時,4.1%的人表示會,93.8%的人表示沒有文字,有0.7%的人表示不知道有沒有文字;其他民族的文字書寫方面,有0.4%的表示會。
(三)雙語教育
篇3
大數據整體市場規(guī)模1000億,細分市場行業(yè)應用規(guī)模最大
《報告》顯示,整個大數據產業(yè)分為基礎平臺、通用技術、行業(yè)應用等多個細分市場,2017年大數據整體市場規(guī)模1000億。細分市場中,基礎平臺整體市場規(guī)模在100億元左右,通用技術整體市場規(guī)模在200億元左右。行業(yè)應用層,大數據在各個行業(yè)應用差異較大,應用相對成熟的金融、政府領域市場規(guī)模為200億元。整個行業(yè)應用市場規(guī)模為700億。
大數據在金融、政務、互聯網成熟度最高
《報告》顯示,大數據在各行各業(yè)的成熟度與基礎設施、市場規(guī)模和應用范圍關系密切。根據調研,金融、政務、互聯網這三個行業(yè)的IT投入位列各行業(yè)前列,隨著“互聯網+政務”的普及、政務云和政務大數據的落地,政府2017年IT投入超過800億元,占中國IT總投入的5-10%。金融一直是重IT投入的行業(yè),以銀行為例,2017年中國銀行業(yè)整體IT投資為800億元,整個金融行業(yè)的IT投資突破千億元大關。
基礎設施成熟度同樣會對大數據應用落地應用產生很大影響。信息化是大數據的基礎,互聯網行業(yè)信息化程度最高,金融、政務行業(yè)在20世紀初已開始進行信息化建設,經歷十幾年發(fā)展,基礎信息化已建設完畢。相比醫(yī)療、工業(yè)等領域,金融、政務和互聯網行業(yè)結構化數據占比高,數據標準化程度高。
云計算、大數據、AI、IoT多項技術融合是未來趨勢,提供整體解決方案的公司機會最大
《報告》指出,與國外不同,中國市場云計算、大數據、AI、IoT等技術幾乎是同時間爆發(fā),企業(yè)客戶同一時間采購云計算、大數據、AI等產品,企業(yè)客戶最終目的是通過新技術來實現開源節(jié)流,實現這一目標需要多項技術融合,技術邊界正逐步模糊。
云計算作為大數據的基礎,大幅降低企業(yè)的IT硬件成本,將有超過50%的IT預算投入到大數據、AI等應用。AI促使大數據從輔助決策向替代決策進化,使大數據廠商突破工具軟件天花板,發(fā)展空間放大10倍。在智能客服領域,AI技術的發(fā)展使得技術廠商的市場空間由原先的30-50億提升到300-400億。
篇4
【關鍵詞】 乳腺病變;乳腺超聲;BI2RADS ;實用價值
作者單位:450000 鄭州腫瘤醫(yī)院超聲科
通訊作者:王雁 河南省腫瘤醫(yī)院
乳腺疾病超聲檢查的普及和超聲儀器的不斷更新,使越來越多且越來越小的乳腺疾病被發(fā)現,對乳腺病變分級歸類,有助于臨床制訂治療方案。2003年美國放射學會(ACR)提出了適用于乳腺超聲圖像的影像報告與數據系統(tǒng)(breast imaging reporting and data system, BI-RADS-US)[1]。國外學者研究認為該系統(tǒng)能提高不同經驗水平的超聲醫(yī)師對乳腺病灶性質判斷的一致性,有助于提高超聲醫(yī)師對乳腺病變的診斷。但目前國內此類報道鮮見。本研究擬通過臨床分析的方法來探討其對乳腺病變診斷的臨床應用價值,現報告如下。
1 資料與方法
1.1 一般資料 乳腺超聲數據庫中2008年3月至2010年11月來我院就診并確定診斷的乳腺疾病的200例患者。年齡18~75歲,平均(45±5.7)歲,臨床均表現為脹痛,自檢或醫(yī)生觸摸到腫塊;乳腺結構不良27例,纖維腺瘤99例,導管內狀瘤16例,乳腺癌36例,乳腺炎8例,乳腺淋巴瘤10例,乳腺內異物4例。
1.2 儀器 應用GE ViVid 7和Siemens Antares彩色超聲診斷儀,配備高頻線陣探頭,探頭頻率為5.6~14 MHz。
1.3 檢查方法 患者取仰臥位,雙臂上舉充分暴露,過大者取側臥位,全面檢查雙側乳腺及腋窩,了解病灶大小、形態(tài)、邊緣、邊界、有無包膜、內部回聲、有無鈣化、腫塊內部及邊緣有無血流、腋下有無腫大淋巴結。
1.4 BI-RADS分級標準 依據文獻[2],病變分為7 個級別,0 級:需附加影像評價,該病灶可能有惡性危險;1 級:陰性,影像檢查無腫塊、結構扭曲或微小鈣化等任何異常;2 級:良性,單純囊腫、乳腺內淋巴結、乳腺內假體,穩(wěn)定的術后改變及長期隨訪觀察可能性較大的纖維腺瘤,病變呈圓形或橢圓形,邊界光滑完整,內部回聲均勻;3 級:可能良性,惡性風險< 2 % ,病變形態(tài)呈圓形、橢圓形,邊緣完整,纖維腺瘤可能性大,復雜囊腫和多發(fā)小囊腫同樣可分于該級,建議短期間隔繼續(xù)檢查;4 級:可疑異常,惡性風險3 %~94 % ,考慮活檢,病變形態(tài)呈圓形、橢圓形或不規(guī)則形,邊緣欠規(guī)則,毛糙,無明顯包膜,內部回聲均勻或不均勻,出現無回聲區(qū)或強回聲鈣化,其中4A 3 %~30 % ,4B 31 %~60 % ,4C 61 %~94 %; 5 級: 高度提示惡性,惡性風險> 95 % ,需采取適當措施。病變形態(tài)大多不規(guī)則,分葉狀,少數呈圓形,無包膜,大多邊界不清,有的邊界粗糙,回聲增強,邊緣不整齊,呈“蟹足狀”“微小分葉征”等,大多呈低回聲,內部回聲不均,可見沙粒狀鈣化;6 級:已知曾行活檢的惡性病變。
2 結果
200例患者中0 級8例(4.0%) ,1 級10例(5.0%) ,2 級39例(19.5%) ,3 級57例(28.5%) ,4A 級37例(18.5%) ,4B 級16例(8.0%) ,4C 級11例(5.5%) ,5 級30例(11.0 %)。惡性病例44 例,其中歸入5 級30例中19例病理提示為惡性,3例為良性,歸入4 級64例中26例病理證實為惡性,歸入0 級8 例中1例為惡性。5 級腫塊超聲圖像具備多數惡性腫塊特點。歸入4 級64例中38例術后病理證實為良性,但超聲圖像不能除外惡性可能,僅惡性風險系數較低。
3 討論
乳腺疾病是影響女性健康的最常見疾患之一,超聲檢查的優(yōu)勢在于簡便易行,可獲得乳腺的任意斷面圖像,而被廣泛應用于臨床。但在對乳腺癌進行超聲診斷時,由于操作者經驗影響對聲像特征的判斷,導致結果可能發(fā)生誤差,針對缺乏統(tǒng)一的對病灶的描述方法和標準這一情況,ACR協(xié)會推出的BI-RADS-US從乳腺腫塊的形狀、邊緣、硬度等方面進行了描述,同時對相應的腫塊特征進行適當的解釋,生成一個包含惡性程度分級以及中肯的診療建議在內的總體評價,旨在為乳腺的超聲影像報告和研究提供幫助。
傳統(tǒng)二維超聲診斷乳腺疾病的準確率為75 % ,結合多普勒診斷準確率約90 %[3]。但傳統(tǒng)超聲對乳腺疾病的診斷缺乏統(tǒng)一標準,BI-RADS 分級則克服了傳統(tǒng)超聲診斷主觀性較強的特點,規(guī)范了乳腺疾病超聲診斷標準,減少描述混淆,提高了診斷符合率及對病灶良惡性鑒別能力,且在不同醫(yī)療機構之間歸一研究和乳腺超聲檢測及乳腺癌篩選等方面均起重要作用。
有研究者[4]指出“遵循BI-RADS-US的規(guī)定并不能確保能獲得更準確的結果,而是使操作者在現有資料基礎上因循更合理的操作程序,做出適應患者需要的最安全有效的處置,來減少不必要的活檢。通過本研究發(fā)現通過規(guī)范的檢查,BI-RADS-US為影像醫(yī)師規(guī)范地進行圖像報告提供了質量保證,有助于患者得到更加有效的治療,便利了超聲和鉬靶等影像技術之間以及和臨床之間的交流,具有使用與推廣價值。
在規(guī)范的檢查和隨訪監(jiān)控基礎之上,BI-RADS-US通過提供統(tǒng)一的病灶描述標準,規(guī)范了超聲醫(yī)師圖像報告的質量,避免了不必要的活檢,最大限度地防止了過度治療和治療不足。只有在經驗積累和細致認真地回顧性分析基礎上不斷更新,才能夠建立一個更為準確的超聲圖像特征描述和報告系統(tǒng),為超聲診斷乳腺腫瘤提供強有力的輔助。
參考文獻
[1] American College of Radiology. BI-RADS: ultrasound. In: Breast Imaging Reporting and Data System: BI-RADS altas (4th edn). American College of Radiology: Raston,VA,2003.
[2] 顧雅佳,肖勤.乳腺X線報告規(guī)范化-BI-RADS介紹.中國醫(yī)學計算機成像雜志,2007,13(5):322-326.
篇5
[關鍵詞] 數據挖掘;高校圖書館;應用
[中圖分類號] TP311.1 [文獻標識碼] A 文章編號:1671-0037(2015)01-78-2
Application of Data Exploitation Technology in University Library and Information Analysis
Cheng Jiuju
(Library of Xinyang Vocational and Technical College, Xinyang Henan 464000)
Abstract:Data exploitation is a kind of relatively young information processing technology, has been widely used in many fields, and its important role has become increasingly prominent. This paper mainly introduces the concept of data exploitation, the process of data exploitation, and its important role in the university library has been dominantly discussed.
Keywords:data exploitation; university library; application
隨著社會的不斷發(fā)展,科學技術的不斷進步,各行各業(yè)都涌現出了各種各樣的大量的數據,數據爆炸式的增長,使得我們已經沒有更多的精力和時間去查看這些數據,而更為關注于找到行之有效地方法去方便快捷的利用數據,自動的處理數據,智能地找到隱藏在其中的潛在的對我們的生活、工作有幫助的信息和知識[1]。因此一個作為計算機科學前沿學科的數據挖掘技術也應運而生,它出現于20世紀80年代后期,20世紀90年代有了更加迅猛的發(fā)展,目前數據挖掘已經在金融、商務、電信產業(yè)、醫(yī)療衛(wèi)生、科學與工程等方面得到了廣泛的應用,同樣數據挖掘技術在高校圖書館中也發(fā)揮著巨大的作用。
1 數據挖掘的概念
什么是數據挖掘呢?顧名思義就是從海量的數據中挖掘出知識的過程。各行各業(yè)所產生的數據形式是不一樣的,作為一種實用的技術,數據挖掘可以應用于各種類型的數據,包括事務數據、數據庫數據、數據倉庫數據、空間數據、多媒體數據、數據流、圖或網絡數據等,從這些數據中發(fā)現潛藏的規(guī)律,找到其中的有趣的模式即知識,為人們的生產、生活、科研等提供依據,推動著社會更快更好地往前發(fā)展[2]。
2 數據挖掘的過程
2.1 數據清理
即刪除掉不正確、不一致、不完整或冗余數據,光滑噪聲數據,改進數據的質量,使得最后的數據集合有利于數據挖掘的進行,能夠順利地推導出正確的模式,得到可靠的輸出及結論。
2.2 數據集成
即將不同數據源中的數據進行合并存放在一個具有相同結構及屬性的數據存儲中,有效地集成可以減少結果數據集的不一致和冗余,有利于提高后續(xù)挖掘過程的速度及準確性。
2.3 數據變換
即通過聚集或匯總操作,把數據統(tǒng)一和變換成方便于挖掘的結構。數據變換使的挖掘過程更有效,促進了數據挖掘的成功。
2.4 數據選擇
即從數據庫中取出與目標任務有關的數據,例如高校圖書館的數據庫中包含有各個院系的學生個人信息及借閱信息。如果我們想分析某個系的學生借閱圖書的情況,則只需要提取出本系學生借閱記錄即可,而如果我們想分析各系各屆學生對于各類圖書的熱愛程度,以方便于為學生進行圖書推薦,則此任務與學生信息中的性別、學號等屬性無關,在數據挖掘前可以通過刪除冗余的或不相關的屬性來減少要分析的數據量,能夠加快挖掘的進程,而且能使得到的模式更宜于理解。
2.5 數據挖掘
即使用智能的方法來提取出數據的模式。
2.6 模式評估
即根據某種興趣度度量,找到代表知識的真正有趣的模式,所謂有趣的模式是指所產生的模式是新穎的,潛在能用的,易于被人理解的,而且在某種確信度上對于新的或是檢驗數據是有效地。
2.7 知識表示
即使用知識表示和可視化的技術,使得挖掘出來的知識能夠呈現到用戶面前,使知識容易理解,方便人們使用。
3 數據挖掘在圖書館中的應用
隨著科學技術的不斷進步,高校圖書館的管理也從原來的人工記錄轉變?yōu)榱爽F代化的圖書管理系統(tǒng),方便了圖書的管理及借閱,但是,隨著社會的不斷進步,圖書館不能僅局限于借、還書這種最基本的職能,而應該更主動地去為讀者提供更高質量的服務,使的圖書館能更大程度地發(fā)揮其功效,因此,作為一門新興的信息處理技術的數據挖掘技術也在圖書館找到了用武之地,圖書館的大量的數據資源為其挖掘提供了肥沃的土壤。
3.1 為高校圖書館的領導決策及購買圖書提供強有力的依據
圖書館是高校的靈魂所在,是一個學校的精髓部分,學校在進步,圖書館也必須要不斷地前進,這就要求要不斷地給圖書館注入新鮮的血液,但是,圖書館的經費是有限的,我們要利用有限的經費在更大程度的為讀者服務,就必須能夠采購到有更高利用率的圖書,以往我們采購圖書有三種方法:一是各院系各推薦一名老師隨圖書館老師一起去采購;二是由各院系向圖書館推薦圖書;三是圖書館老師根據已有經驗,對館藏的了解等自行采購。但這些采購方法都具有很強的主觀意識,缺乏全面性,而數據挖掘技術的引進就能很好地解決這一問題,通過讀者的借閱記錄,系統(tǒng)中的歷史采購記錄等,挖掘出各類圖書的利用度,能夠使得更有針對性地去購買圖書。利用數據挖掘技術作用于圖書館的數據庫,我們可以從中了解到各學科的關聯度,使得圖書館領導在進行館藏分布時能夠更正確地進行決策。
3.2 使得圖書館能主動地為讀者提供更為貼心的服務
高校圖書館基本都有檢索系統(tǒng),當你知道自己想要看哪本書時,只要在檢索系統(tǒng)中輸入該書的名字,便能找到此書的相關信息,并且能很快捷地找到該書,實現借閱。但當讀者漫無目的時,去諾大的圖書館借書卻是一件很費時費精力的事,有時來來回回走了數趟還沒有發(fā)現自己鐘愛的圖書,這樣會逐漸減少讀者對圖書館的興趣,進而也使讀者的數量逐漸減少了。
采用數據挖掘技術作用于圖書館管理系統(tǒng)的數據庫可以根據讀者的專業(yè),以往的借閱記錄,以及同專業(yè)學生的借閱記錄等挖掘出有趣的模式,評估讀者的興趣愛好,初步預測此讀者可能喜愛的圖書,實現圖書的推送,縮小了讀者的選擇范圍,同樣也可以挖掘出同屆學生最熱愛的圖書,而且可以根據相關性分組或關聯規(guī)則,找到圖書借閱的常有的頻繁序列,如DELPHI書總是和數據庫建設這類書同時被借出,這是一個頻繁的子結構,這樣,當有同學借閱DELPHI這本書時,我們就可以給他推薦數據庫建設這本書,進行主動地提供服務,不僅留住了當前的讀者,同時也能挖掘出潛在的讀者,增加圖書館的讀者流量,也增加了各類圖書的利用率。同樣從挖掘出來的信息我們可以區(qū)分開來熱門圖書和冷門圖書,以及認識到各類圖書之間的關聯度,以此來實現圖書館圖書分布位置的優(yōu)化,更方便于讀者的借閱。
3.3 防止圖書館的數據庫被入侵
高校圖書館的數據庫是圖書館的核心,其中記錄了各系學生的個人信息,學生的借閱信息,以及所有館藏圖書的信息,一旦遭到入侵,數據庫被破壞,也許就會使圖書館一度回到“原始社會”,后果將不堪設想。所以,我們要保護圖書館數據庫的安全,通常在圖書館的服務器上都安裝的有防火墻,并且服務器也設置了密碼,但是,為了做到萬無一失,我們也可以使用數據挖掘技術,構建出正常訪問行為的模型,或是挖掘頻繁遇到的事件序列,檢測到離群點,阻止或停止惡意的行為,并提供報告信息,實現入侵檢測,保護圖書館的數據安全。
4 結語
隨著數據挖掘技術的不斷發(fā)展,其在圖書館發(fā)揮的作用也日益顯著,它使得圖書館的服務質量進一步提高了,同時也優(yōu)化了館藏的分布,能檢測惡意攻擊圖書館數據庫的行為,保護了圖書館的數據安全,作為一門新興的信息處理技術,它得到了越來越多人的關注,也得到了進一步的研究,相信在不久的將來,隨著數據挖掘技術的不斷深化,功能的不斷加強,它將為圖書館提供更多的幫助,使的圖書館能更大程度的去發(fā)揮其潛在的作用,更好地為廣大的師生員工服務。
參考文獻:
篇6
完整的數據分析主要包括了六個既相對獨立又互有聯系的階段,它們依次為:明確分析目的和思路、數據準備、數據處理、數據分析、數據展現、報告撰寫等六步,所以也叫數據分析六步曲。
明確分析目的和思路
做任何事都要有個目標,數據分析也不例外。經常有一些數據分析愛好者,向數據分析高手請教以下問題:
這圖表真好看,怎么做的?
這數據可以做什么樣的分析?
高級的分析方法在這里能用嗎?
需要做多少張圖表?
數據分析報告要寫多少頁?
為什么這些數據分析愛好者會提出這些問題呢?原因很簡單,就是他們沒有明確的分析目的,為了分析而分析,而且一味追求高級的分析方法,這就是數據分析新手的通病。
如果目的明確,那所有問題就自然迎刃而解了。例如,分析師是不會考慮“需要多少張圖表”這樣的問題的,而是思考這個圖表是否有效表達了觀點?如果沒有,需要怎樣調整?
所以在開展數據分析之前,需要想清楚為什么要開展此次數據分析?通過這次數據分析需要解決什么問題?只有明確數據分析的目的,數據分析才不會偏離方向,否則得出的數據分析結果不僅沒有指導意義,甚至可能將決策者引入歧途,后果嚴重。
當分析目的明確后,我們就要對思路進行梳理分析,并搭建分析框架,需要把分析目的分解成若干個不同的分析要點,也就是說要達到這個目的該如何具體開展數據分析?需要從哪幾個角度進行分析?采用哪些分析指標?
同時,還要確保分析框架的體系化,以便分析結果具有說服力。體系化也就是邏輯化,簡單來說就是先分析什么,后分析什么,使得各個分析點之間具有邏輯關系。如何確保分析框架的體系化呢?可以以營銷、管理等方法和理論為指導,結合實際業(yè)務情況,搭建分析框架,這樣才能確保數據分析維度的完整性、分析框架的體系化、分析結果的有效性及正確性。
營銷方面的理論模型有4P理論、用戶使用行為、STP理論、SWOT等,而管理方面的理論模型有PEST、5W2H、時間管理、生命周期、邏輯樹、金字塔、SMART原則等。
明確數據分析目的以及確定分析思路,是確保數據分析過程有效進行的先決條件,它可以為數據收集、處理以及分析提供清晰的指引方向。
數據準備
數據準備是按照確定的數據分析框架,收集相關數據的過程,它為數據分析提供了素材和依據。這里所說的數據包括第一手數據與第二手數據,第一手數據主要指可直接獲取的數據,如公司內部的數據庫、市場調查取得的數據等;第二手數據主要指經過加工整理后得到的數據,如統(tǒng)計局在互聯網上的數據、公開出版物中的數據等。
數據處理
數據處理是指對采集到的數據進行加工整理,形成適合數據分析的樣式,保證數據的一致性和有效性。它是數據分析前必不可少的階段。
數據處理的基本目的是從大量的、可能雜亂無章、難以理解的數據中抽取并推導出對解決問題有價值、有意義的數據。如果數據本身存在錯誤,那么即使采用最先進的數據分析方法,得到的結果也是錯誤的,不具備任何參考價值,甚至還會誤導決策。
數據處理主要包括數據清洗、數據轉化、數據抽取、數據合并、數據計算等處理方法。一般拿到手的數據都需要進行一定的處理才能用于后續(xù)的數據分析工作,即使再“干凈”的原始數據也需要先進行一定的處理才能使用。
數據分析
數據分析是指用適當的分析方法及工具,對收集來的數據進行分析,提取有價值的信息,形成有效結論的過程。
在確定數據分析思路階段,數據分析師就應當為需要分析的內容確定適合的數據分析方法。到了這個階段,就能夠駕馭數據,從容地進行分析和研究了。
由于數據分析大多是通過軟件來完成的,這就要求數據分析師不僅要掌握各種數據分析方法,還要熟悉主流數據分析軟件的操作。一般的數據分析我們可以通過Excel完成,而高級的數據分析就要采用專業(yè)的分析軟件進行,如數據分析工具SPSS、SAS等。
數據展現
通過數據分析,隱藏在數據內部的關系和規(guī)律就會逐漸浮現出來,那么通過什么方式展現出這些關系和規(guī)律,才能讓別人一目了然呢?一般情況下,數據是通過表格和圖形的方式來呈現的,我們常說用圖表說話就是這個意思。
常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、散點圖、雷達圖等,當然可以對這些圖表進一步整理加工,使之變?yōu)槲覀兯枰膱D形,例如金字塔圖、矩陣圖、瀑布圖、漏斗圖、帕雷托圖等。
多數情況下,人們更愿意接受圖形這種數據展現方式,因為它能更加有效、直觀地傳遞出分析師所要表達的觀點。一般情況下,能用圖說明問題的,就不用表格,能用表格說明問題的,就不用文字。
報告撰寫
數據分析報告其實是對整個數據分析過程的一個總結與呈現。通過報告,把數據分析的起因、過程、結果及建議完整地呈現出來,以供決策者參考。所以數據分析報告是通過對數據全方位的科學分析來評估企業(yè)運營質量,為決策者提供科學、嚴謹的決策依據,以降低企業(yè)運營風險,提高企業(yè)核心競爭力。
一份好的分析報告,首先需要有一個好的分析框架,并且層次明晰,圖文并茂,能夠讓讀者一目了然。結構清晰、主次分明可以使閱讀對象正確理解報告內容;圖文并茂,可以令數據更加生動活潑,提高視覺沖擊力,有助于讀者更形象、直觀地看清楚問題和結論,從而產生思考。
另外,分析報告需要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為最初就是為尋找或者求證一個結論才進行分析的,所以千萬不要舍本求末。
篇7
東方之星成立于2002年,從2007年起專注于教育督導信息化建設,2012年成立了基礎教育評測技術的研究中心,從事研究教育督導與信息技術的融合以及督政、督學和教育質量監(jiān)測信息質量環(huán)境的構建。東方之星從軟件開發(fā)到以第三方的身份參與教育督導評測,其成長過程既是一個政府培育社會力量參與教育督導監(jiān)測的過程,也是一個政府研究如何引導社會力量參與教育評測機制實踐的過程。
1.提供多方位技術支持,服務教育督導評估
東方之星為大連市先后建設完成了教育督導評估綜合應用系統(tǒng)、責任區(qū)掛牌督導管理系統(tǒng)、學生體質健康監(jiān)測系統(tǒng)、區(qū)域教育資源配置均衡發(fā)展監(jiān)測系統(tǒng)、學生品德發(fā)展監(jiān)測系統(tǒng)、教育督導數據管理平臺和教育督導數據中心。隨著應用軟件系統(tǒng)建設和應用的不斷深入,大連市政府教育督導室提出了越來越多、越來越寬泛的要求,需要企業(yè)自己根據國際、國內教育督導發(fā)展趨勢,從基本理論(發(fā)展性督導評價理論)到操作理念(ISO9000標準的PDCA循環(huán)),再到技術發(fā)展(云計算到大數據到充分互聯)提供多方位技術支持,為大連市設計、規(guī)劃教育督導信息生態(tài)環(huán)境,而不僅僅是按照需求開發(fā)系統(tǒng)。
2.提供個性化決策支持,服務教育行政治理
在縣域義務教育均衡發(fā)展專項督導評估中,國務院教育督導辦采用“差異系數”來監(jiān)測縣域義務教育校際間八項指標的綜合均衡狀況,用數據說話是一個具有里程碑意義的事件。
大連市政府教育督導室引導東方之星在差異系數的基礎上,設計差異標準、差異貢獻,給出改進工作的具體量化標準,以此為標準開發(fā)了決策支持模型,為教育決策提供科學、詳實的數據依據。
至此,東方之星發(fā)展成為了一家可為教育提供決策支持服務的企業(yè),向為教育督導評估提供第三方評估服務邁出了堅實的一步。大連市教育行政體系也逐步接受、認可并主動尋求這種第三方提供的決策支持服務,并希望東方之星能夠直接介入教育監(jiān)測,思想和理念發(fā)生了潛移默化的轉變。
3.提供數據分析,受托參與教育督導評測
東方之星依靠自身技術優(yōu)勢,在決策支持模型的基礎上,研制了發(fā)展程度指數、基尼系數、投入傾斜指數、效率指數等。在縣域均衡、市域均衡分布監(jiān)測的基礎上,綜合監(jiān)測和分析省、市、縣義務教育均衡發(fā)展八項指標的均衡情況、發(fā)展情況(相對遼寧省義務教育辦學標準)、投入情況。
大連市政府教育督導室對東方之星研究成果進行了評估,認為科學、合理、可行,給予了充分的肯定,并委托東方之星以第三方的視角,獨立編制《2014年大連市縣域義務教育均衡發(fā)展數據分析報告》、2014年大連市各區(qū)市縣《縣域義務教育均衡發(fā)展數據分析報告》、2014年大連市各學校《縣域義務教育均衡發(fā)展數據報告》。2015年,受遼寧省政府教育督導室委托,東方之星獨立編制了《2015年遼寧省縣域義務教育均衡發(fā)展數據分析報告》《2013-2015年遼寧省縣域義務教育均衡發(fā)展數據分析報告》。
篇8
這是數據雜志北京部分讀者對統(tǒng)計媒體服務企業(yè)的一次專項活動的評價。
“五一”前夕,數據雜志社組織100多家企業(yè)近200人進行了一次別開生面的專項服務活動――“2009數據?統(tǒng)計分析報告會”?;顒又燮髽I(yè)讀者現實所需,以企業(yè)統(tǒng)計分析為主題,先后請國家統(tǒng)計局北京調查總隊副總隊長邢志宏和北京市發(fā)改委經濟與社會發(fā)展研究所投資消費研究部主任劉秀如,分別就北京市一季度經濟形勢和如何進行統(tǒng)計分析寫作作精彩報告,并就讀者關心的問題進行面對面溝通與互動,報告會引起讀者的濃厚興趣和廣泛認可。
■ 緣起
多年以來,充分利用《數據》平臺,加強與讀者溝通與互動,努力為企業(yè)、為讀者提供服務,是數據雜志社的一貫宗旨。2007年11月,數據雜志社以“政府統(tǒng)計服務與企業(yè)信息需求”為主題,舉辦了“2007?數據論壇”,200余家企業(yè)老總、企業(yè)分管統(tǒng)計工作領導和企業(yè)統(tǒng)計工作者參加論壇。2008年12月,數據雜志社組織召開了“2008數據?企業(yè)讀者座談會”,燕山石化、中糧集團等30多家企業(yè)代表圍繞提升統(tǒng)計數據質量、加強統(tǒng)計信息服務、改進統(tǒng)計行政執(zhí)法等熱點問題積極建言獻策。
面對國際金融危機背景,北京企業(yè)受到的影響程度有多大;在擴內需、保增長要求下,企業(yè)如何發(fā)展,前景如何?及時提供有質量、有份量的企業(yè)統(tǒng)計分析報告成為亟待解決的課題,也是企業(yè)領導對企業(yè)統(tǒng)計工作者的殷切希望和期待。許多企業(yè)統(tǒng)計工作者通過電話、電子郵件等形式紛紛向本刊反映提升統(tǒng)計分析能力的愿望及相關需求。
“數據雜志是企業(yè)統(tǒng)計人的家園,企業(yè)統(tǒng)計的需求就是我們的責任?!睌祿s志社副總編云霞介紹,數據雜志社自2009年年初就開始籌辦“2009數據?統(tǒng)計分析報告會”,邀請統(tǒng)計分析的行家里手,結合統(tǒng)計工作實際,就統(tǒng)計分析報告寫作作專題講座準備,用實實在在的行動來回報廣大讀者的支持和幫助。
■ 主講
“統(tǒng)計分析寫作是統(tǒng)計人的看家本領”。主持人數據雜志社總編張雪原一語道出了報告會的主旨和要義。在聽眾們的熱切期待和掌聲中,國家統(tǒng)計局北京調查總隊副總隊長邢志宏首先開講。邢志宏結合一季度北京經濟狀況及發(fā)展走勢,分別以餅圖、柱狀圖、曲線圖等專業(yè)圖表作演示,從統(tǒng)計視角揭秘“數據背后的故事”。
邢志宏介紹,從近10年來的季度統(tǒng)計數據看,北京經濟曾出現過兩次低谷,分別在1997年的一季度和2002年的一季度,經濟增長分別為7.5%和7.3%。今年一季度,北京經濟增長6.1%,可以說近10年來是國際經濟形勢對北京經濟沖擊最大的一次。
邢志宏表示,從目前的情況分析,北京經濟已出現企穩(wěn)跡象。一季度,北京經濟增長速度為6.1%,好于預期。從數據上看,雖然1至2月經濟形勢還非常嚴峻,但3月已有回暖跡象。工業(yè)方面,降幅已在放緩;服務業(yè)的14個業(yè)態(tài)中,有13個業(yè)態(tài)出現增長;財政收入3月份出現6.9%的增長。此外,從就業(yè)形勢的穩(wěn)定、消費者和企業(yè)家信心指數的提升以及旅游業(yè)降幅的縮小等方面都可以看出,北京經濟最壞的時刻很可能已經過去。但是否就此判斷北京經濟已出現拐點,關鍵還要看第二季度數據。如果二季度啟動內需的作用不足以彌補外需不足帶來的影響,全市經濟仍會處于低谷狀態(tài)。所以,現在關鍵是落實內需的一攬子計劃,鞏固內需的基礎。
“一季度北京房地產交易增長81.1%的回暖勢頭備受關注。一季度商品房交易量大增屬于“乍暖還寒”,投資性消費需求尚未進場,房地產市場仍處于調整期?!北本┦邪l(fā)發(fā)委經濟與社會發(fā)展研究所投資消費研究部主任劉秀如以北京市房地產形勢分析為例進行了她的統(tǒng)計分析寫作的報告。
劉秀如指出,“房地產產業(yè)政策效應較為遲滯,針對單一調控目標密集使用‘組合拳’,容易造成市場周期調整步伐過快。如果從U形發(fā)展轉變?yōu)閂形反彈,對北京房地產產業(yè)的健康和北京經濟長遠發(fā)展都不利?!眲⑿闳缯J為,北京房地產調整包括房屋質量與綜合配套水平提升、住宅產業(yè)化、開發(fā)模式革新等諸多方面,需要較長時間完成盤整。
劉秀如結合房地產形勢指出,統(tǒng)計分析要本著客觀、中立的態(tài)度,做一個理性的第三方;要盡可能預測客觀走勢,兼顧政府、開發(fā)商、消費者、公眾等群體的態(tài)度;要以政府統(tǒng)計數據為基本依據,以建委數據、中介機構等調查數據為補充數據,從總體上考量房地產態(tài)勢。
■ 共鳴
時鐘已過10點,報告會后半場進入互動。豐臺區(qū)統(tǒng)計局靳立華、北京現代汽車有限公司統(tǒng)計負責人王永梅、北京同仁堂連鎖藥店有限責任公司財務負責人黃麗萍等分別就統(tǒng)計分析報告的數據運用、出現統(tǒng)計口徑不一致如何解決、執(zhí)行新會計報表后與統(tǒng)計數據的銜接等問題與臺上嘉賓進行了對話交流。
如一石激起萬千漣漪,互動像開啟了思維的閘門,許多企業(yè)讀者把在基層難以解答的問題一個個拋向嘉賓,請求解答。報告會到了預定時間,但聽眾仍然意猶未盡。接下來,以企業(yè)統(tǒng)計分析為主題的相關問題又一次次地通過《數據》平臺,在讀者、編者、作者或專家中傳遞著、交流著、探索著,認識越來越一致,寫法越來越清晰。
堅持以數據為支撐,分析為前提,在擁有詳實數據和精到分析的基礎上形成分析報告。北京首都開發(fā)控股(集團)有限公司戰(zhàn)略投資部孟佳致函本刊:“我以為,一些企業(yè)統(tǒng)計的參謀作用沒有充分發(fā)揮出來,原因在于不能運用手頭現有數據寫出內容詳實的分析報告;有些則是統(tǒng)計數據分析的層面有局限性,不能及時從領導關心的角度提供急需的分析;有的是對企業(yè)所處行業(yè)的全面數據掌握不充分,因此,分析缺乏力度,說話沒有底氣?!泵霞褟娬{統(tǒng)計分析報告要堅持數據為支撐,分析為前提。
篇9
1.重策略執(zhí)行而輕戰(zhàn)略制定,企業(yè)整體運作意識不強戰(zhàn)略是企業(yè)發(fā)展的長期性、全局性指導思想,策略則是戰(zhàn)略的具體化。從決策邏輯上來說,企業(yè)必須先確定營銷戰(zhàn)略,然后再根據戰(zhàn)略制定策略。具體在營銷模擬實驗中,學生先要進行SWOT分析,明確企業(yè)的優(yōu)勢、劣勢、機會和威脅;然后進行STP分析,把握各細分市場之間的差異性,明確公司的目標市場,確定產品的市場定位;之后再制定公司的具體發(fā)展目標,如市場占有率目標、銷售額目標、利潤目標,這些內容基本都屬于公司戰(zhàn)略決策的范疇,對企業(yè)后階段的策略制定起著方向性的指導作用。但在實驗操作實際中,很多學生對戰(zhàn)略分析不夠重視,把大部分時間和精力都放在了策略制定與執(zhí)行上,熱衷于進行新產品的開發(fā)、新品牌的推出、價格的制定與調整、渠道的選擇、廣告促銷等,至于為何要這樣去制定和執(zhí)行,以后要怎樣去制定和執(zhí)行,則缺少全盤考慮。實際上,由于學生前期的戰(zhàn)略分析不全面,戰(zhàn)略目標不明確,很多策略的針對性和實用性不強,甚至有些策略就憑主觀感覺或估計來確定。
2.決策過程不嚴謹,數據分析能力弱由于市場環(huán)境越來越復雜,決策風險越來越大,企業(yè)的決策日趨客觀嚴謹,決策中越來越重視數據的支撐作用。數據是市場的真實反映,揭示了事物發(fā)展的客觀規(guī)律,本身就是決策的重要參考,培養(yǎng)學生的數據分析能力和嚴謹思維也是營銷模擬實驗教學的一個重要目標。市場模擬營銷實驗中包含大量的數據,比如銷售量、銷售額、增長率、利潤額、利潤率、生產成本、投資收益率、知名度、股價等等,另外還有許多圖表,如折線圖、餅形圖、柱狀圖及矩陣圖等,每一次營銷計劃執(zhí)行后,這些數據或圖表就會發(fā)生相應的變化。這些數據中蘊含著豐富的市場信息,非常值得我們去挖掘,但這些數據或圖表并沒有被學生很好地利用,學生對數據的敏感度不夠,不擅長去分析其中包含的信息,對它們的認識有些表面化,往往是在進行簡單的了解后便很快制定出營銷策略,決策過程欠嚴謹。
二、市場營銷模擬實驗教學的優(yōu)化對策
1.科學分組,確保競爭公平為使每一位同學都能始終保持實驗興趣,也為了保證小組競爭的公平,教師在實驗開始前必須對全班進行科學分組。分組時要考慮以下幾點:首先要確定每組的人數,每組人數不宜過多,太多了影響決策效率,還可能導致人浮于事,一般三人一組比較好,團隊比較精干,也便于協(xié)商或討論;然后要確定小組成員選擇標準,每一小組至少要有一位專業(yè)能力相對突出的同學,以保證決策過程的專業(yè)性和合理性,并帶動其他同學積極參與。確定組隊標準后,學生可以先行組合,然后把組隊名單交給老師,老師根據實際情況對各組成員進行適當調整,盡量使各組的實力保持相對平衡。
2.突出戰(zhàn)略決策,做好市場分析與戰(zhàn)略定位企業(yè)的決策需要有戰(zhàn)略思維,要預先做好市場及產品的規(guī)劃,在此基礎上再制定出不同階段的營銷策略。為此企業(yè)需要對營銷環(huán)境做出全面細致的分析,了解企業(yè)的優(yōu)勢、劣勢、機會和威脅,并在市場細分的基礎上做出目標市場的選擇,確定產品在目標市場的定位,最終形成成熟的營銷方案。這種戰(zhàn)略分析能力體現出了學生的宏觀視野和邏輯思維,但往往也是很多學生的弱項,需要教師在實驗環(huán)節(jié)中予以特別重視,通過一系列強化訓練來培養(yǎng)。比如要求學生在每次實驗中必須提交兩份戰(zhàn)略分析報告,一份是SWOT分析報告,一份是STP報告,報告中必須對營銷環(huán)境、戰(zhàn)略定位、營銷目標做出詳細分析和具體明確,并闡述原因和依據,在分析報告沒有提交之前,不能進入下一個實驗環(huán)節(jié)。在每一年度的營銷實驗結束后,教師還要對全班所有同學的分析報告進行評比,將評比結果作為期末成績的參考。通過這種硬性規(guī)定,讓學生重視戰(zhàn)略分析,逐步提高從全局把握問題的能力。
3.強化數據分析,做到嚴謹決策數據分析能反映一個人看待問題的深度以及思維的嚴謹性,但對于很多學生來說,由于營銷分析工具掌握不牢固,對數據分析的方法比較生疏,難以從多個數據中發(fā)現事物之間的內在聯系或規(guī)律,更多是根據主觀感覺或個人經驗,再結合一些表面的數據來制定營銷對策,決策過程存在某種隨意性。為改變這一不良決策習慣,教師在實驗中必須強調一點,就是所有的決策必須有數據支撐,必須有數據分析,用數字說話。這并非提倡決策的“數據主義”,只是強調嚴謹決策的重要,這種訓練對學生以后的行為習慣和邏輯思維將產生積極影響,讓學生更理性地看待問題和解決問題。以營銷模擬實驗中的廣告投放決策為例,就要求學生先了解企業(yè)本年度的營銷預算、廣告的目標、媒體的成本、媒體的傳播效應、企業(yè)目前的知名度等數據,然后對這些數據進行科學計算,得出廣告投放的時間、次數和費用,而不能憑估計隨意給定一個數字。
篇10
因此,很多企業(yè)都會利用Hadoop實現數據存儲,再通過其他工具實現對大數據的高速捕獲和實時分析。這里,我們將通過艾瑞咨詢集團的一個真實案例,解讀一下敏捷BI如何和Hadoop進行互補,幫助其實現互聯網大數據分析的。
定制化項目效率低下
艾瑞咨詢集團(iResearch)是一家專注于網絡媒體、電子商務、網絡游戲、無線增值等新經濟領域,深入研究和了解消費者行為,并為網絡行業(yè)和傳統(tǒng)行業(yè)客戶提供市場調查研究和戰(zhàn)略咨詢服務的專業(yè)市場調研機構。
目前,艾瑞咨詢集團可以向企業(yè)提供線下報告和軟件兩種定制化咨詢報告服務。但是,企業(yè)客戶的定制化需求非常多變,艾瑞咨詢集團生成一份線下報告交付周期需要3至4周,提供軟件的交付周期則需要半年。再加上項目所需人工成本升高、迭代周期延長,艾瑞咨詢集團往往不敢承接太多定制化項目。
通過調研,筆者發(fā)現了艾瑞咨詢集團的真正需求:根據時間維度和網站匯總對用戶的來源地區(qū)、來路域名、頁面訪問次數、停留時間、有效訪問次數、跳出率、回訪者、新訪問者、回訪次數和回訪相隔天數等相關數據進行統(tǒng)計分析,并且還能夠在動態(tài)添加條件之后,通過對監(jiān)測用戶行為獲得的數據進行分析,以最終得出更加詳細、清楚的用戶行為習慣。
因此,艾瑞咨詢集團迫切需要一種更加敏捷、高效的大數據分析工具提升定制化業(yè)務的效率。
大數據面前:敏捷BI PK傳統(tǒng)BI
在解決艾瑞咨詢集團面臨的難題時,傳統(tǒng)BI的做法是,IT人員事先根據需求分析進行建模,建好二次表或打Cube并提前匯總好數據,業(yè)務人員才能在前端查看到分析結果的報表。雖然這種做法很成熟,但是解決不了艾瑞咨詢集團的難題。
首先,業(yè)務人員查看的報表相對靜態(tài),分析的維度和度量的計算方式已在建模時預先設定好,不能更改。例如,定好了求和或求平均數,再想改成求方差必須再去修改模型。
其次,分析需求變更時,業(yè)務人員不能直接調整報表,需要IT人員重新建?;蛐薷囊延蟹治瞿P?,耗時較長,響應速度較慢。
最后,有些企業(yè)的數據量很小,也需要按照此流程和架構來進行大費周折的數據分析。
造成這些問題的本質原因是,過去的技術架構針對海量數據的計算能力不足,企業(yè)用戶需要通過建模、二次表、Cube提前進行數據運算匯總。
艾瑞咨詢集團希望為企業(yè)客戶提交這樣一份分析報告,不僅能看還能動態(tài)分析。對于艾瑞咨詢集團來說,數據展現應該是起點而不是終點。看到了數據,要能交互式分析、深入向下挖掘,要能發(fā)現問題并找到答案,還要能采取行動。與數據交互的過程要足夠快,如果用戶每次點擊需要等三五分鐘才出結果,就無法進行交互分析。
并且,分析報告應能讓非IT部門的同事直接在分析平臺上做出來。不能把所有的分析報告需求都提交到IT部門,這樣會嚴重增加IT部門的工作負擔。同時,敏捷BI的實施和操作要簡單化,讓業(yè)務人員可直接使用。
同時,分析報告需求經常需要牽涉到數據層的改動,需要IT部門去改進數據層和業(yè)務層,傳統(tǒng)BI平臺需要一兩個月才能完成模型梳理。敏捷BI無需事先建模,可以在分析過程中靈活調整分析維度和報表展現,需求變更可以在一天之內響應,提升企業(yè)的洞察力決策力。
與傳統(tǒng)BI的重量建模、統(tǒng)一視圖不同,敏捷BI采取輕量建模、N個視圖的方法,不建二次表和Cube,數據導入后可以直接進行分析,并且業(yè)務人員可以實時調整分析的維度和度量的計算方式,極大地增加了靈活性,真正做到和數據對話。
既然有這么便捷的方式,為何傳統(tǒng)BI不采用這種架構呢?那是因為,傳統(tǒng)技術架構沒有引入大數據技術,面對海量數據無法在用戶點擊后的幾秒內就展現企業(yè)客戶需要的分析結果,因此必須通過建模提前把數據匯總好,才能保證分析報表展現時的速度。
因此,實現敏捷BI的前提是采用新架構處理數據,其涉及的技術包括分布式計算、內存計算、列存儲、庫內計算等。敏捷BI可以通過更低的成本、更短的上線周期,快速讓企業(yè)洞察到數據的含義和價值。
業(yè)務效率數倍提升
深入研究艾瑞咨詢集團要分析的數據,筆者發(fā)現,艾瑞咨詢集團每天要分析的數據量達幾千萬條,且不同企業(yè)客戶的分析需求各不相同。因此,復雜多變的多維度分析需求對分析工具的分析性能提出了更高的挑戰(zhàn),而傳統(tǒng)的數據庫和Hadoop架構已經無法滿足高性能和即時分析的需求。
為此,艾瑞咨詢集團考察過國外一些知名的產品,但是當他們獲知產品的價格和后續(xù)的服務費用之后只能放棄。而國內大多數的分析工具大多是上一代BI,需事先建模再進行分析,難以應對靈活的多維度分析變化需求,且針對大數據量的處理能力不能滿足要求。
最終,艾瑞咨詢集團選擇了永洪敏捷BI技術。當艾瑞咨詢集團將三個月的細節(jié)數據(約50億條)導入敏捷BI系統(tǒng),直接就可以展現出定制分析報告。對比原先基于Excel和SQL編程的分析方法,艾瑞咨詢集團的業(yè)務效率獲得數倍的提升:線下報告交付周期從3至4周縮短至小于1周,軟件交付從半年縮短至一個月。
同時,艾瑞咨詢集團原來由于擔心需求變化導致沒有能力交付的很多項目被收入囊中。采用敏捷BI工具后,艾瑞咨詢集團可以在幾天內快速搭建原型向客戶展示,任意的需求變更都可以一周內調整完畢。這種快速原型試錯的方式,使得艾瑞咨詢集團有能力承接很多此類項目。
由于業(yè)務效率的極大提升,有能力承接更多的項目,艾瑞咨詢集團的收入空間也出現了數倍的增長。與此同時,艾瑞咨詢集團的客戶滿意度也穩(wěn)步提升。
不僅如此,為了提供更加直觀可交互的分析報告,提升企業(yè)用戶體驗,艾瑞咨詢集團基于敏捷BI工具,構建了一個新型SaaS平臺。艾瑞咨詢集團把企業(yè)客戶用Hadoop架構存儲的數據,通過敏捷BI提供的接口導入到數據集市內,然后通過敏捷BI快速呈現出結果。
事實上,Hadoop和敏捷BI都有各自適用的不同業(yè)務場景,兩者是相互補充的關系。當前,很多企業(yè)都采用Hadoop實現數據的存儲,然后把Hadoop數據導入敏捷BI基于分布式內存計算的高性能數據集市中,之后再進行數據可視化分析。鑒于現在Hadoop在企業(yè)的應用相當廣泛,永洪敏捷BI產品也支持Hadoop數據源的連接。