統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)建設(shè)研究

時(shí)間:2022-11-24 03:02:23

導(dǎo)語(yǔ):統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)建設(shè)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)建設(shè)研究

山東省統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)是在“互聯(lián)網(wǎng)+”政務(wù)的時(shí)代大背景下提出的面向統(tǒng)計(jì)數(shù)據(jù)深度分析的新一代統(tǒng)計(jì)大數(shù)據(jù)管理系統(tǒng)。系統(tǒng)可以有效整合現(xiàn)有的所有數(shù)據(jù)資源以及對(duì)未來(lái)產(chǎn)生的數(shù)據(jù)資源進(jìn)行更好的管理,形成具備處理百億級(jí)統(tǒng)計(jì)數(shù)據(jù)的高性能、專(zhuān)業(yè)化統(tǒng)計(jì)數(shù)據(jù)分析工作平臺(tái),有利于更好地開(kāi)展統(tǒng)計(jì)數(shù)據(jù)生產(chǎn),建設(shè)現(xiàn)代化服務(wù)型統(tǒng)計(jì),滿(mǎn)足各級(jí)黨委、政府和人民群眾對(duì)統(tǒng)計(jì)數(shù)據(jù)服務(wù)越來(lái)越高的要求。伴隨著現(xiàn)代統(tǒng)計(jì)業(yè)務(wù)的快速發(fā)展,建設(shè)“覆蓋全面、調(diào)查準(zhǔn)確、核算科學(xué)、運(yùn)作高效”的現(xiàn)代統(tǒng)計(jì)體系的要求不斷提高,這就要求統(tǒng)計(jì)部門(mén)能夠隨時(shí)對(duì)所掌握的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行大規(guī)模、隨機(jī)場(chǎng)景的專(zhuān)業(yè)化統(tǒng)計(jì)分析。建設(shè)統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)能夠幫助統(tǒng)計(jì)部門(mén)管理海量、多來(lái)源異構(gòu)統(tǒng)計(jì)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行多層次的分析和利用,解決當(dāng)前各級(jí)統(tǒng)計(jì)部門(mén)在統(tǒng)計(jì)數(shù)據(jù)管理使用過(guò)程中所面臨的以下問(wèn)題:1)數(shù)據(jù)資源分散,各種來(lái)源的統(tǒng)計(jì)微觀數(shù)據(jù)、綜合數(shù)據(jù)、宏觀數(shù)據(jù)分散在數(shù)管部門(mén)、業(yè)務(wù)處室,數(shù)據(jù)資源目錄不清晰,數(shù)據(jù)資源管理困難,大規(guī)模、跨專(zhuān)業(yè)使用困難。2)不同種類(lèi)的調(diào)查歷史數(shù)據(jù)存儲(chǔ)在固定的硬件設(shè)備上,查詢(xún)歷史數(shù)據(jù)需要使用相應(yīng)的軟件系統(tǒng),效率低。年代久遠(yuǎn)、硬件損壞、軟件丟失,導(dǎo)致數(shù)據(jù)丟失風(fēng)險(xiǎn)大。3)設(shè)管、專(zhuān)業(yè)、數(shù)管、各軟件開(kāi)發(fā)商對(duì)統(tǒng)計(jì)調(diào)查元數(shù)據(jù)的術(shù)語(yǔ)不統(tǒng)一,建模方法不統(tǒng)一,導(dǎo)致在數(shù)據(jù)生產(chǎn)的各個(gè)流程階段,元數(shù)據(jù)可比性、延續(xù)性差。歷年的統(tǒng)計(jì)制度中,元數(shù)據(jù)的口徑變化沒(méi)有得到有效管理。4)生成指標(biāo)時(shí)間序列數(shù)據(jù)困難,不能夠方便快速的查看數(shù)據(jù)隨時(shí)間的變化情況。5)數(shù)據(jù)交換效率低。數(shù)據(jù)庫(kù)系統(tǒng)與分析系統(tǒng)之間進(jìn)行數(shù)據(jù)交換的能力弱,元數(shù)據(jù)交換質(zhì)量差,主要數(shù)據(jù)文件載體無(wú)法直接跨系統(tǒng)使用。統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)庫(kù)的建設(shè)應(yīng)具備以下兩大目標(biāo):第一,整合各種原始數(shù)據(jù)資源。使用標(biāo)準(zhǔn)化的元數(shù)據(jù)來(lái)描述來(lái)自不同調(diào)查的原始數(shù)據(jù),使各種格式的原始數(shù)據(jù)都能夠方便的進(jìn)入到基礎(chǔ)數(shù)據(jù)庫(kù)中,同時(shí)納入部門(mén)宏觀數(shù)據(jù)以及部分微觀數(shù)據(jù),未來(lái)根據(jù)分析需求納入企業(yè)數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)對(duì)統(tǒng)計(jì)數(shù)據(jù)資源的整合和統(tǒng)一管理,方便按時(shí)間序列、主題、地區(qū)、行業(yè)等多維度多角度的查詢(xún),使山東省統(tǒng)計(jì)數(shù)據(jù)資源都達(dá)到可以直接用于分析的狀態(tài)。第二,為統(tǒng)計(jì)數(shù)據(jù)分析工作提供支撐。使各種分析應(yīng)用、分析工具都能夠方便的訪問(wèn)基礎(chǔ)數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源,提高數(shù)據(jù)資源的利用效率,提升數(shù)據(jù)資源的價(jià)值。

1總體架構(gòu)設(shè)計(jì)

基礎(chǔ)數(shù)據(jù)庫(kù)的總體架構(gòu)如下,從上至下依次分為數(shù)據(jù)應(yīng)用展示、數(shù)據(jù)管理服務(wù)層、應(yīng)用支撐層、數(shù)據(jù)資源層以及基礎(chǔ)設(shè)施層。1.1數(shù)據(jù)應(yīng)用展示層。數(shù)據(jù)應(yīng)用展示層包括元數(shù)據(jù)門(mén)戶(hù)、數(shù)據(jù)分析子系統(tǒng)、數(shù)據(jù)查詢(xún)展現(xiàn)門(mén)戶(hù)。數(shù)據(jù)應(yīng)用展示層直接面向數(shù)據(jù)分析用戶(hù),提供包括了元數(shù)據(jù)查詢(xún)、數(shù)據(jù)查詢(xún)、數(shù)據(jù)分析、數(shù)據(jù)計(jì)算等系統(tǒng)核心業(yè)務(wù)功能。元數(shù)據(jù)門(mén)戶(hù)可以查詢(xún)和展示基礎(chǔ)數(shù)據(jù)庫(kù)中各類(lèi)元數(shù)據(jù)、元數(shù)據(jù)的關(guān)聯(lián)關(guān)系、元數(shù)據(jù)的屬性信息等。數(shù)據(jù)分析子系統(tǒng)包含兩個(gè)部分,分析應(yīng)用工具集和可視化分析工具??梢暬治龉ぞ呤腔A(chǔ)數(shù)據(jù)庫(kù)提供的基于R語(yǔ)言的集成化數(shù)據(jù)分析環(huán)境。分析工具集是常用的數(shù)據(jù)分析工具的統(tǒng)稱(chēng),包括SPSS、SAS、馬克威等。數(shù)據(jù)查詢(xún)展現(xiàn)門(mén)戶(hù)能夠?qū)崿F(xiàn)用戶(hù)快速查找、對(duì)比數(shù)據(jù)、數(shù)據(jù)圖表展示等。1.2數(shù)據(jù)管理服務(wù)層。數(shù)據(jù)管理服務(wù)層作為后臺(tái)支撐數(shù)據(jù)分析和各種數(shù)據(jù)應(yīng)用,核心是數(shù)據(jù)資源服務(wù)平臺(tái),各種數(shù)據(jù)管理模塊、數(shù)據(jù)應(yīng)用模塊以組件的方式連接到數(shù)據(jù)資源服務(wù)平臺(tái)上。數(shù)據(jù)資源服務(wù)平臺(tái)應(yīng)用多種先進(jìn)的數(shù)據(jù)查詢(xún)?cè)L問(wèn)技術(shù)、數(shù)據(jù)緩存基礎(chǔ)開(kāi)發(fā),集成分析引擎、圖形引擎、報(bào)表引擎的多種組件,針對(duì)R和其他多種數(shù)據(jù)分析工具定制外部訪問(wèn)組件。元數(shù)據(jù)管理系統(tǒng)基于DDI標(biāo)準(zhǔn)進(jìn)行構(gòu)建,主要功能包括元數(shù)據(jù)編輯、元數(shù)據(jù)管理、元數(shù)據(jù)注冊(cè)、元數(shù)據(jù)等功能。數(shù)據(jù)整合工具用于數(shù)據(jù)入庫(kù),通過(guò)數(shù)據(jù)整合工具,多種源頭的基礎(chǔ)數(shù)據(jù)都能夠匹配上標(biāo)準(zhǔn)的元數(shù)據(jù)被寫(xiě)入到基礎(chǔ)數(shù)據(jù)庫(kù)中。1.3應(yīng)用支撐層。應(yīng)用支撐層包括基礎(chǔ)開(kāi)發(fā)平臺(tái)、高性能數(shù)據(jù)加載引擎、混合數(shù)據(jù)訪問(wèn)引擎、報(bào)表工具、公式引擎、圖形引擎等。1.4數(shù)據(jù)資源層。數(shù)據(jù)資源層包括元數(shù)據(jù)庫(kù)、整合資源庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市四個(gè)大的組成部分。其中元數(shù)據(jù)庫(kù)用于支撐元數(shù)據(jù)管理系統(tǒng)存儲(chǔ)和管理元數(shù)據(jù),相對(duì)其他三個(gè)庫(kù)是獨(dú)立出來(lái)的,元數(shù)據(jù)庫(kù)中的內(nèi)容通過(guò)元數(shù)據(jù)管理系統(tǒng)進(jìn)行編輯入庫(kù)。整合數(shù)據(jù)資源庫(kù)采用NoSQL數(shù)據(jù)庫(kù),實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)以及元數(shù)據(jù)、標(biāo)準(zhǔn)化數(shù)據(jù)文件、數(shù)據(jù)描述文件的存儲(chǔ)。整合資源庫(kù)的數(shù)據(jù)內(nèi)容,按照元數(shù)據(jù)描述的情況,被打散后逐條保存到數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)根據(jù)元數(shù)據(jù)動(dòng)態(tài)生成,方便用戶(hù)隨時(shí)根據(jù)各種條件進(jìn)行數(shù)據(jù)查詢(xún),支持對(duì)海量數(shù)據(jù)的即席查詢(xún)和匯總分析。1.5基于大數(shù)據(jù)的基礎(chǔ)設(shè)施層。基礎(chǔ)設(shè)施基于大數(shù)據(jù)分析架構(gòu)搭建,整合資源庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和元數(shù)據(jù)庫(kù)都由分布式數(shù)據(jù)庫(kù)、分布式文件存儲(chǔ)系統(tǒng)和應(yīng)用服務(wù)引擎組成,共同為數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析應(yīng)用服務(wù),具備處理海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的能力,能夠滿(mǎn)足快速查詢(xún)、高性能數(shù)據(jù)運(yùn)算、復(fù)雜數(shù)據(jù)挖掘的需求。

2基于標(biāo)準(zhǔn)的理論模型設(shè)計(jì)

基礎(chǔ)數(shù)據(jù)庫(kù)系統(tǒng)的理論模型可以從業(yè)務(wù)模型、元數(shù)據(jù)標(biāo)準(zhǔn)、信息技術(shù)和最終實(shí)現(xiàn)四個(gè)層面。理論模型研發(fā)設(shè)計(jì)參照多個(gè)國(guó)際統(tǒng)計(jì)標(biāo)準(zhǔn),包括GSBPM、GSIM、DDI、SDMX、ISO11179、CSpro等。標(biāo)準(zhǔn)規(guī)范體系按照國(guó)家統(tǒng)計(jì)局相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家統(tǒng)計(jì)局相關(guān)業(yè)務(wù)流程規(guī)范設(shè)計(jì),做到完整覆蓋和完美兼容。采用標(biāo)準(zhǔn)體系不但可以提升業(yè)務(wù)融合性、數(shù)據(jù)可讀性、系統(tǒng)可擴(kuò)展性,而且可以實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的平臺(tái)無(wú)關(guān)性,系統(tǒng)數(shù)據(jù)和元數(shù)據(jù)脫離本系統(tǒng)一樣可以被理解被使用。系統(tǒng)設(shè)計(jì)應(yīng)遵循統(tǒng)計(jì)通用業(yè)務(wù)模型、統(tǒng)計(jì)通用信息模型和企業(yè)聯(lián)網(wǎng)直報(bào)系統(tǒng)等,采用DDI和SDMX進(jìn)行統(tǒng)計(jì)業(yè)務(wù)和數(shù)據(jù)的組織,運(yùn)用XML和數(shù)據(jù)倉(cāng)庫(kù)等信息技術(shù),形成最終的產(chǎn)品。

3統(tǒng)計(jì)分析設(shè)計(jì)

統(tǒng)計(jì)分析設(shè)計(jì)為全流程一站式,徹底改變過(guò)去進(jìn)行統(tǒng)計(jì)分析時(shí)需要先去多個(gè)系統(tǒng)找數(shù),再逐一進(jìn)行指標(biāo)化預(yù)處理,再進(jìn)行分析的低效能弊端,將數(shù)據(jù)提取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化的過(guò)程集成在一個(gè)平臺(tái)內(nèi),應(yīng)用高性能的數(shù)據(jù)計(jì)算技術(shù)保證整個(gè)過(guò)程流暢,基于R語(yǔ)言實(shí)現(xiàn)描述性分析、模型分析和挖掘分析的多種層次的分析能力,保障用戶(hù)可以進(jìn)行任意組合的查詢(xún)分析,提供即查即所見(jiàn),使探索式分析成為可能。

作者:侯昭民 單位:山東省統(tǒng)計(jì)數(shù)據(jù)管理中心