數(shù)據(jù)使用質(zhì)量評價研究
時間:2022-12-18 11:32:38
導(dǎo)語:數(shù)據(jù)使用質(zhì)量評價研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
大數(shù)據(jù)正在成為處理大量數(shù)據(jù)時遇到常見問題的新型解決方案,這些問題可能是多樣化的,并且可能也會以大規(guī)模并行處理。根據(jù)要進行的分析類型,必須以特定方式收集和安排一些具體數(shù)據(jù),以應(yīng)對各種性質(zhì)(技術(shù)、概念和方法)的新挑戰(zhàn),即收集的數(shù)據(jù)必須與感興趣的領(lǐng)域或分析的背景相關(guān),換句話說,數(shù)據(jù)必須對分析有價值。傳統(tǒng)工作中,自有數(shù)據(jù)洞察可以通過商業(yè)智能技術(shù)完成,在很大程度上有益于其業(yè)務(wù)績效。這些見解是通過對新類型的數(shù)據(jù)利用新類型分析來開展業(yè)務(wù)的新方法?,F(xiàn)在當(dāng)數(shù)據(jù)以特定不同格式或以不同速率進行時,經(jīng)典的如基于關(guān)系數(shù)據(jù)庫的處理結(jié)構(gòu)化數(shù)據(jù)的能力是不夠的,特別是在性能和延遲方面。
1數(shù)據(jù)使用質(zhì)量模型
大數(shù)據(jù)解決方案可以被理解為完整的信息系統(tǒng),如果相分析交易和分析數(shù)據(jù),那么這些數(shù)據(jù)將扮演大數(shù)據(jù)輸入的角色。在任何情況下我們都無法實現(xiàn)大數(shù)據(jù)分析的結(jié)果,但是其質(zhì)量可能通過其他模型進行評估。有關(guān)輸入數(shù)據(jù)的數(shù)據(jù)質(zhì)量等級的測量可以參照ISO/IEC25012標(biāo)準(zhǔn)。本文模型涉及ISO/IEC25010中描述的所有類型質(zhì)量之間的依賴關(guān)系,ISO/IEC25010對質(zhì)量的解釋可以應(yīng)用于數(shù)據(jù),將數(shù)據(jù)理解為產(chǎn)品:數(shù)據(jù)滿足定義要求的程度是數(shù)據(jù)的內(nèi)部質(zhì)量;數(shù)據(jù)表示的關(guān)系和適當(dāng)性是數(shù)據(jù)的外部質(zhì)量;為數(shù)據(jù)設(shè)定的目標(biāo)的實現(xiàn)程度是使用中的質(zhì)量。ISO/IEC25012的數(shù)據(jù)質(zhì)量模型有助于研究大數(shù)據(jù)解決方案輸入數(shù)據(jù)的內(nèi)部和外部質(zhì)量,但不能用于研究使用中的質(zhì)量。本工作中介紹的3As數(shù)據(jù)使用中的質(zhì)量模型用于填補使用中數(shù)據(jù)質(zhì)量的空白,從而可以評估大數(shù)據(jù)項目中數(shù)據(jù)的使用質(zhì)量。也就是說,這個新模型旨在提供一種方法,從質(zhì)量的角度為預(yù)期用途(即通過大數(shù)據(jù)分析產(chǎn)生可信賴的結(jié)果)獲得數(shù)據(jù)合理的程度和適當(dāng)程度。根據(jù)這種基于質(zhì)量理念的觀點,本文在評估時同時提出了主要的數(shù)據(jù)質(zhì)量問題。
2使用質(zhì)量水平
大數(shù)據(jù)項目中的使用質(zhì)量水平是數(shù)據(jù)的充分性,以達(dá)到分析的目的。根據(jù)Merriam字典,使用質(zhì)量水平可以被定義為對某些需求目的或要求足夠滿意的狀態(tài)或能力。根據(jù)這一定義,數(shù)據(jù)的充分性是足以實現(xiàn)分析目標(biāo)和目的的數(shù)據(jù)狀態(tài)或能力。換句話說,要符合通過特定大數(shù)據(jù)解決方案進行分析的特定特征。本文工作將特征分為四類:可訪問性、上下文、代表性以及內(nèi)在性。作為研究過程的一部分,這四個類別在大數(shù)據(jù)背景下重新分為兩個特征:語境充分性和操作充分性。首先來簡化特征:代表性、可訪問性和內(nèi)在性。這種簡化的主要原因在于數(shù)據(jù)必須可以使用可用于大數(shù)據(jù)分析的資源和技術(shù)來處理,這三個類別適合于單個特征的定義,我們稱之為操作充分性。關(guān)于語境充分性,我們承認(rèn)時間方面是語境的一部分。盡管如此,由于實時分析的重要性日益增加,因此需要對時間方面進行單獨評估。因此,本文確定了三大關(guān)鍵數(shù)據(jù)質(zhì)量特征,這些特征對于大數(shù)據(jù)分析環(huán)境中的數(shù)據(jù)非常重要,分別是:上下文充分性、時間充分性和操作充分性。
3As數(shù)據(jù)質(zhì)量使用模型中每個特征的定義
上下文充分性指的是數(shù)據(jù)集在分析的相同感興趣域內(nèi)使用的能力,獨立于任何格式(例如,結(jié)構(gòu)化與非結(jié)構(gòu)化),任何大小或流入速度。從這個意義上說,重要的是數(shù)據(jù)首先是相關(guān)和完整的,使用的數(shù)據(jù)量是適當(dāng)?shù)?;其次是獨特且語義上可互操作的,因此考慮到給定的上下文并且由于重復(fù)而沒有不一致性,數(shù)據(jù)必須是可理解的;再就是語義準(zhǔn)確,數(shù)據(jù)必須代表大數(shù)據(jù)分析環(huán)境中的真實實體;最后是可信的,所有數(shù)據(jù)來源必須可信,數(shù)據(jù)必須由允許開發(fā)分析的同一組人員訪問,且符合規(guī)定的規(guī)定和要求。時間充分性是指數(shù)據(jù)在適當(dāng)?shù)臅r間段內(nèi)進行分析。例如,相似的年齡或在歷史數(shù)據(jù)特定持續(xù)時間內(nèi),意味著數(shù)據(jù)指的是類似的時間段。重要的是要注意通過分析的數(shù)據(jù)操作的時間方面不包括在該定義中,而是僅包括數(shù)據(jù)本身的時間方面。因此,處理的數(shù)據(jù)應(yīng)該是:(1)時間并發(fā):指在類似或適當(dāng)?shù)臅r間段內(nèi)發(fā)生的事實。例如,如果分析集中在過去的事件上,那么數(shù)據(jù)必須與相關(guān)的事物相對應(yīng);(2)及時更新:數(shù)據(jù)必須針對手頭的任務(wù)進行適當(dāng)更新;(3)頻繁:在進行某種趨勢分析時,使用數(shù)據(jù)生成與所需的未來時段(所需頻率)相關(guān)的結(jié)果。大數(shù)據(jù)解決方案具體分析可以獨立于數(shù)據(jù)質(zhì)量使用水平的評估來執(zhí)行。通過3As使用質(zhì)量模型提供的評價水平,可以用于提高對分析結(jié)果健全性的意識指標(biāo)。從這個意義上講,數(shù)據(jù)清理時間挑戰(zhàn)的性能問題也得以實現(xiàn)。數(shù)據(jù)的動態(tài)將始終是其外部質(zhì)量的一部分,關(guān)鍵元素將通過設(shè)置數(shù)據(jù)約束的業(yè)務(wù)規(guī)則來識別,測量外部數(shù)據(jù)質(zhì)量時則將考慮到使用ISO/IEC25012的特性。
4結(jié)論
本文提出的數(shù)據(jù)質(zhì)量使用模型可應(yīng)用于任何大數(shù)據(jù)特定實施,因為其措施獨立于任何情況,要求或技術(shù)。評估的執(zhí)行方式是不必移動數(shù)據(jù)。相反,本文的數(shù)據(jù)質(zhì)量使用模型是在大數(shù)據(jù)解決方案中實現(xiàn)的。并且數(shù)據(jù)管理員能夠決定是評估數(shù)據(jù)子集還是完整數(shù)據(jù)集。由于完成了大數(shù)據(jù)數(shù)據(jù)質(zhì)量計劃的所有常見挑戰(zhàn),因此可以引用數(shù)據(jù)質(zhì)量使用模型作為評估大數(shù)據(jù)項目中數(shù)據(jù)質(zhì)量的適當(dāng)解決方案。
作者:黃永鑫 郭彥辰 單位:河北省秦皇島市東北大學(xué)