數(shù)據(jù)挖掘技術(shù)在軟件工程的實用性

時間:2022-02-09 09:54:46

導(dǎo)語:數(shù)據(jù)挖掘技術(shù)在軟件工程的實用性一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)在軟件工程的實用性

【摘要】隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)水平得到提升,很多領(lǐng)域都開始應(yīng)用該技術(shù)。軟件工程也是高科技時代的產(chǎn)物,其發(fā)展與信息技術(shù)存在直接關(guān)系。在軟件工程領(lǐng)域使用數(shù)據(jù)挖掘技術(shù),可以體現(xiàn)出該技術(shù)的優(yōu)勢,促進(jìn)軟件研發(fā)水平的全面提升,降低軟件研發(fā)成本,推動社會的發(fā)展。本文通過說明數(shù)據(jù)挖掘技術(shù)與圖書館管理信息系統(tǒng)的內(nèi)涵,闡明數(shù)據(jù)挖掘技術(shù)在圖書館管理信息系統(tǒng)中應(yīng)用的作用,并舉出具體的應(yīng)用實例,有益于加強圖書館中的管理工作,也便于管理工作的決策與研究,使圖書館管理工作更加標(biāo)準(zhǔn)和規(guī)范。

【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);軟件工程;圖書館管理;管理信息系統(tǒng);應(yīng)用策略

1引言

信息化領(lǐng)域高速發(fā)展,數(shù)據(jù)挖掘技術(shù)成為先進(jìn)信息技術(shù)被廣泛應(yīng)用,并且逐步使用到軟件工程中,讓開發(fā)、管理、代碼編寫等各個環(huán)節(jié)順利進(jìn)行,從而實現(xiàn)數(shù)據(jù)挖掘的高效進(jìn)行,促進(jìn)數(shù)據(jù)質(zhì)量的提升,提高研發(fā)速度,提高軟件工程開發(fā)水平,滿足各項工作的運行需要,促進(jìn)軟件工程領(lǐng)域的發(fā)展。我國圖書館的館藏圖書量較大,需要處理的信息量也不斷變得繁雜。在此條件下,圖書館管理信息系統(tǒng)充分應(yīng)用數(shù)據(jù)挖掘技術(shù)是十分必要的,我們要通過數(shù)據(jù)挖掘技術(shù)進(jìn)一步改變較為傳統(tǒng)的圖書館管理,達(dá)到提高圖書館信息化管理整體水平的目的。

2數(shù)據(jù)挖掘技術(shù)與圖書館管理信息系統(tǒng)

2.1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)主要是對數(shù)據(jù)進(jìn)行深入的開發(fā),并在大量的數(shù)據(jù)中整理出有價值的數(shù)據(jù),達(dá)到雜亂數(shù)據(jù)規(guī)整化的目的。大量數(shù)據(jù)中仍然具有缺陷,比如不完整性、隨機性和噪聲性等,利用該技術(shù)對數(shù)據(jù)進(jìn)行挖掘,并從各種數(shù)據(jù)中提取出有價值的信息,使其更具實用性。在數(shù)據(jù)處理過程中使用數(shù)據(jù)挖掘,是對數(shù)據(jù)信息的轉(zhuǎn)換。數(shù)據(jù)挖掘也是一種多學(xué)科融合之下的技術(shù),體現(xiàn)出大數(shù)據(jù)的優(yōu)勢。利用數(shù)據(jù)挖掘掌握全部數(shù)據(jù)信息,更容易被用戶采用和使用。數(shù)據(jù)挖掘?qū)嶋H上是對數(shù)據(jù)進(jìn)行深度加工和精細(xì)加工的過程,并且在數(shù)據(jù)分析中具有高度的自主性。它主要針對各種格式的數(shù)據(jù)庫和Internet,首先構(gòu)建完善的數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)清理與轉(zhuǎn)換,經(jīng)過挖掘之后得出結(jié)論,進(jìn)行進(jìn)一步的分析和總結(jié)。數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于生產(chǎn)和生活的各個領(lǐng)域,并取得了良好的效果,例如數(shù)字圖書館的個性化服務(wù),同樣可以利用數(shù)據(jù)挖掘技術(shù),從它的應(yīng)用效果可以看出,服務(wù)質(zhì)量得到了極大提升[1]。

2.2圖書館管理信息系統(tǒng)

圖書館管理信息系統(tǒng)是通過計算機掌握全部圖書館信息,讓圖書館管理順利實施,這是現(xiàn)代化圖書館管理的模式,專業(yè)性高、可使用性強、工作內(nèi)容比較繁雜。圖書館管理信息系統(tǒng)對數(shù)據(jù)進(jìn)行采集、存儲和轉(zhuǎn)換,給用戶提供完善的信息,取代以往人工作業(yè)方式,提高工作精度和質(zhì)量,讓圖書館管理者做出正確的決策。在信息化建設(shè)的過程中,合理應(yīng)用海量的網(wǎng)絡(luò)資源,及時進(jìn)行深入分析和研究,深度挖掘信息資源的內(nèi)在,給用戶提供有用的信息,讓管理人員了解內(nèi)在的關(guān)系,實現(xiàn)管理人員與圖書、用戶之間的高效鏈接。

3圖書館管理信息系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的作用

3.1切實提升信息獲取速度

信息獲取速度的提高是當(dāng)前圖書館管理的需要,也是信息管理技術(shù)應(yīng)用的優(yōu)勢,體現(xiàn)出數(shù)據(jù)挖掘技術(shù)的優(yōu)勢。信息獲取速度的提升,是通過數(shù)據(jù)挖掘技術(shù)在圖書館管理信息系統(tǒng)中的高效應(yīng)用,能夠更進(jìn)一步記載用戶的瀏覽記錄、閱讀傾向,并進(jìn)行更加深化的觀測,然后系統(tǒng)會將所獲取的數(shù)據(jù)通過分析、融合,找到具有價值的數(shù)據(jù),并通過關(guān)聯(lián)規(guī)則將同時獲取的相關(guān)規(guī)則進(jìn)行編制,組建出能夠為用戶提供充分選擇和利用的圖書資源,信息獲取順利實現(xiàn)。

3.2確保用戶個性化服務(wù)

圖書館的目標(biāo)是給用戶提供高水平的服務(wù),滿足不同人群的閱讀需要。但是,從管理的過程來看,這樣圖書館的服務(wù)會更加被動,并不能達(dá)到用戶使用的要求,這種處于被動的服務(wù)模式使圖書館的管理發(fā)展滯后。而充分應(yīng)用了數(shù)據(jù)挖掘技術(shù)的圖書館,在此技術(shù)的支撐下,為用戶提供了由自己進(jìn)行實際操作和向用戶推薦相關(guān)閱讀服務(wù)一個平臺,有效地提高了圖書館的智能化水平。這種現(xiàn)代化的服務(wù)模式既保證了圖書館在服務(wù)過程中處于主動,使人力與物力的配置更加合理化,也使用戶更加明確自己的實際需求,促進(jìn)了服務(wù)質(zhì)量的提升,確保了用戶個性化服務(wù)[2]。

3.3實現(xiàn)圖書館資源優(yōu)化利用

圖書館資源的優(yōu)化利用可以發(fā)揮出圖書資源的作用,利用數(shù)據(jù)挖掘技術(shù)可以實現(xiàn)。系統(tǒng)內(nèi)存儲大量的借閱日志,跟蹤用戶和書籍信息,每日借用書籍而形成的大量數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)分析無法確定借用書籍資源的趨勢。應(yīng)用數(shù)據(jù)挖掘技術(shù)后,將圖書館每日借書數(shù)據(jù)深入挖掘和利用,分析用戶的真實需求,發(fā)布相關(guān)的服務(wù)方案,保證圖書館資源科學(xué)合理的應(yīng)用。因此,在數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書管理系統(tǒng)后,有效地優(yōu)化了信息資源,改善了信息架構(gòu),科學(xué)地解決了此類問題。首先,它可以先有效地分析圖書館中用戶的瀏覽記錄和借閱日志記錄,以及分析出圖書館館藏圖書的記錄,再將分析出的數(shù)據(jù)進(jìn)行系統(tǒng)分析,把分析結(jié)果與用戶實際的需求作為基本的根據(jù),以此確定圖書館館藏書目的類型和數(shù)量。其次,隨著信息技術(shù)的發(fā)展與完善,網(wǎng)絡(luò)信息的發(fā)展也越來越完善,在此環(huán)境下,它能使圖書館輕松地獲取有價值的信息并將其添加到信息資源數(shù)據(jù)庫中,豐富了庫中的信息資源,也使管理人員的工作效率得到提高[3]。在圖書館的規(guī)模建設(shè)的持續(xù)發(fā)展中,日漸更新的藏書量變得更加繁雜,會使用戶對圖書的搜集和閱讀造成較大困擾。為了有效地控制信息資源,有必要將其基本屬性進(jìn)行分類,以確保信息整合和轉(zhuǎn)化的科學(xué)性和合理性。

3.4達(dá)到信息自動處理的要求

經(jīng)過信息處理技術(shù)的應(yīng)用,保證挖掘技術(shù)可以充分利用,這是圖書管理信息系統(tǒng)基本功能,與傳統(tǒng)的圖書館管理中的信息處理模式相比有較明顯的差別。傳統(tǒng)的圖書館管理中,數(shù)據(jù)采集常常受到挖掘時間限制,會存有數(shù)據(jù)缺失,數(shù)據(jù)遺漏等現(xiàn)象,不利于查找,此時,挖掘技術(shù)中的數(shù)據(jù)清理,就能有效地解決此類問題。數(shù)據(jù)挖掘技術(shù)在該系統(tǒng)中的應(yīng)用使用戶所需要的數(shù)據(jù)能夠更加完整精確地存儲在數(shù)據(jù)倉庫當(dāng)中。用戶只需遵循標(biāo)準(zhǔn)化的檢索程序,可以直接獲取目標(biāo)文件信息。相對而言,該類型的信息挖掘過程具備標(biāo)準(zhǔn)化、自動化、廣泛性的優(yōu)勢。

3.5館藏資源優(yōu)化利用

利用數(shù)據(jù)挖掘技術(shù)可以充分掌握用戶與圖書、圖書之間的關(guān)系,以此為基礎(chǔ)對圖書的采購進(jìn)行指導(dǎo)。一方面,適當(dāng)篩除借閱率低的舊書,針對借閱率高的圖書類型進(jìn)行豐富和填充,達(dá)到優(yōu)化館藏的目的,使圖書館的圖書資源更加符合用戶需求,利用掌握的信息客觀分析圖書轉(zhuǎn)化趨勢。另一方面,不同學(xué)科也有著差異和關(guān)系,且隨著時間的變化而改變,通過運用數(shù)據(jù)挖掘技術(shù)把這種關(guān)系呈現(xiàn)出來,以此用來指導(dǎo)圖書館中專業(yè)學(xué)科的設(shè)置,也達(dá)到了優(yōu)化館藏的目的,同時,為用戶提供了相關(guān)學(xué)科專業(yè)的咨詢服務(wù)和推薦服務(wù)。

3.6圖書館決策制定達(dá)到智能化標(biāo)準(zhǔn)

數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書管理中,能夠收集到與圖書館中信息資源相關(guān)的全部信息,掌握內(nèi)部數(shù)據(jù),并且為決定的制定提供強有力的支持,保證數(shù)據(jù)可以充分利用,促進(jìn)工作順利開展和實施。

3.7創(chuàng)建數(shù)字圖書館

現(xiàn)代社會發(fā)展之下,數(shù)字圖書館是未來發(fā)展的必然。分析數(shù)據(jù)挖掘技術(shù)的形態(tài),數(shù)字圖書館通過現(xiàn)代化信息技術(shù)的研發(fā)和應(yīng)用,可以掌握全面的圖書館資源,采集圖書圖像、文字與語音等資源,這種情況之下,處理和儲存了現(xiàn)有的信息資源,有利于最終價值的進(jìn)一步提升。分析應(yīng)用的狀態(tài),可以完成數(shù)字圖書館建設(shè),掌握足夠的數(shù)據(jù)信息。總之,數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,能夠系統(tǒng)應(yīng)用現(xiàn)代有效的分析工具和統(tǒng)計方法,同時,還可以應(yīng)用決策樹、規(guī)則處理等技術(shù)獲取足夠的信息資源,它實現(xiàn)了對圖書館管理模式的可行性分析,最后利用知識表達(dá)的方法可以給用戶提供數(shù)據(jù)挖掘技術(shù),讓信息管理達(dá)到數(shù)字化、智能化的標(biāo)準(zhǔn)。

4圖書管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的案例分析——圖書關(guān)聯(lián)規(guī)則方面

4.1關(guān)聯(lián)Apriori算法介紹

Apriori算法是為了找出數(shù)據(jù)中出現(xiàn)次數(shù)頻繁的集合,進(jìn)行數(shù)據(jù)庫掃描處理,形成數(shù)量龐大的頻繁項集,且每一次形成的頻繁項集都會經(jīng)過迭代的方法形成頻繁候選項集,然后再次掃描數(shù)據(jù)庫,保證生成的集合是頻繁項集。Apriori算法的基本思想是:首先通過多次的迭代,找出所有符合支持度標(biāo)準(zhǔn)的且是最大個數(shù)的頻繁項集;其次,根據(jù)上述找見的頻繁項集,輸出得到的強關(guān)聯(lián)規(guī)則。通過上面第一步找出的頻繁項集生成的規(guī)則,只把置信度大于用戶設(shè)置的最小置信度的規(guī)則保留下來,要想讓形成的頻繁項集更加有效,提高挖掘效率,可以使用遞歸的方法,其挖掘步驟如下:產(chǎn)生大量的頻繁項集后,及時把生成的非頻繁項集篩除,減少重新組合頻繁候選項集的時間;在使用Apriori算法前先把一些特殊的事務(wù)刪除掉,這樣生成的頻繁項集,不會再次計算這些特殊事務(wù),減少誤差。

4.2應(yīng)用到圖書間關(guān)聯(lián)規(guī)則

深入分析發(fā)現(xiàn)用戶和圖書的關(guān)聯(lián)規(guī)則,然后可以給客戶推薦圖書和優(yōu)化館藏資源,比如優(yōu)化館藏與提供個性化服務(wù)。根據(jù)系統(tǒng)中用戶的借閱記錄可以直接看出圖書的借閱率,然后就能挖掘出關(guān)聯(lián)性較強的圖書,即為優(yōu)化館藏。同時,可以把關(guān)聯(lián)性強的圖書推薦給選擇過類似圖書的用戶,或者給該用戶推薦與他選擇圖書關(guān)聯(lián)性強的其他書籍。也就是說,按照圖書管理系統(tǒng)的數(shù)據(jù)特性,從借閱記錄中,通過關(guān)聯(lián)分析把用戶與圖書之間的關(guān)系挖掘出來。具體包含下述幾個步驟:(1)數(shù)據(jù)準(zhǔn)備。給用戶推薦圖書時,通常會推薦與該用戶以往選擇圖書關(guān)聯(lián)性強的圖書,例如,用戶在借閱《呼嘯山莊》時,也會借閱《瀕死之眼》。通過利用數(shù)據(jù)挖掘可以發(fā)現(xiàn),圖書之間的關(guān)聯(lián)規(guī)則可以優(yōu)化館藏,并為用戶提供個性化服務(wù)。(2)數(shù)據(jù)預(yù)處理。進(jìn)行挖掘前,要挖掘的數(shù)據(jù)有一些是含有雜質(zhì)的,或者存在信息不完整的情況,所以在實驗環(huán)節(jié)要對該類型數(shù)據(jù)實現(xiàn)預(yù)處理。內(nèi)容如下:①空值處理。數(shù)據(jù)挖掘表內(nèi),不允許有空值屬性的字段存在。如果表中填充空值,例如,在借閱信息表中,挖掘的重要參考字段是分類號,而分類號有空值,那么可能會使表中信息的不確定性更加明顯,使具有確定性的成分變得更難把握,此時就需要根據(jù)副本的相關(guān)信息將此空值進(jìn)行數(shù)據(jù)補齊,使數(shù)據(jù)挖掘表更加完備。②噪聲處理。數(shù)據(jù)挖掘表內(nèi),一些沒有意義的數(shù)據(jù)給數(shù)據(jù)分析影響結(jié)果產(chǎn)生不利影響,因此,應(yīng)該充分開展數(shù)據(jù)挖掘和分析,提高工作質(zhì)量和標(biāo)準(zhǔn)[4]。

5結(jié)語

綜上所述,數(shù)據(jù)挖掘技術(shù)中具有描述性、預(yù)測性的數(shù)據(jù)分析功能為在圖書館管理信息系統(tǒng)中應(yīng)用提供了重要的技術(shù)支持,而數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書館管理系統(tǒng)內(nèi),給系統(tǒng)產(chǎn)生積極的影響,并且發(fā)揮出該技術(shù)在圖書館管理信息系統(tǒng)的作用,可以有效地增強系統(tǒng)功能,使其工作更加便捷。在圖書館信息化建設(shè)中,管理人員自身的現(xiàn)代管理意識提升,才有可能充分認(rèn)識到數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用優(yōu)勢,做好其信息化建設(shè)的具體應(yīng)用內(nèi)容,保證系統(tǒng)中數(shù)據(jù)挖掘應(yīng)用水平的有效提高,進(jìn)一步推動系統(tǒng)的發(fā)展。

【參考文獻(xiàn)】

[1]黃俊.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用[J].信息通信,2020,33(2):254-256.

[2]胡宇輝.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(5):187.

[3]汪敏,朱習(xí)軍.基于改進(jìn)的Apriori算法的關(guān)聯(lián)規(guī)則分析[J].計算機科學(xué)與應(yīng)用,2021,11(6):11.

[4]閆緒鵬.探討軟件工程行業(yè)中數(shù)據(jù)挖掘的應(yīng)用[J].科技資訊,2019,17(2):47-48.

作者:董德生 單位:63810部隊