挖掘技術范文10篇

時間:2024-03-23 23:29:45

導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇挖掘技術范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

挖掘技術

數據挖掘技術的研究

摘要“:互聯(lián)網+”戰(zhàn)略的實施促進了我國信息技術的快速發(fā)展,數據挖掘技術能夠實現對海量信息的統(tǒng)計、分析以及利用等,因此數據挖掘技術在生活實踐中得到了廣泛的應用。因此本文希望通過對數據挖掘技術的分析,分析數據挖掘技術在實踐中具體應用的策略,以此更好的促進數據挖掘技術在實踐中的應用。

關鍵詞:數據挖掘;應用;發(fā)展

1數據挖掘技術的概述

數據挖掘是通過對各種數據信息進行有選擇的統(tǒng)計、歸類以及分析等挖掘隱含的有用的信息,從而為實踐應用提出有用的決策信息的過程。通俗的說數據挖掘就是一種借助于多種數據分析工具在海量的數據信息中挖掘模數據信息和模型之間關系的技術總裁,通過對這種模型進行認識和理解,分析它們的對應關系,以此來指導各行各業(yè)的生產和發(fā)展,提供重大決策上的支持。數據挖掘技術是對海量數據信息的統(tǒng)計、分析等因此數據挖掘技術呈現以下特點:一是數據挖掘技術主要是借助各種其它專業(yè)學科的知識,從而建立挖掘模型,設計相應的模型算法,從而找出其中的潛在規(guī)律等,揭示其中的內在聯(lián)系性;二是數據挖掘主要是處理各行數據庫中的信息,因此這些信息是經過預處理的;三是以構建數據模型的方式服務于實踐應用。當然數據挖掘并不是以發(fā)現數據理論為目的,而是為了在各行各業(yè)的信息中找出有用的數據信息,滿足用戶的需求。

2數據挖掘的功能

結合數據挖掘技術的概述,數據挖掘主要具體以下功能:一是自動預測趨勢和行為。數據挖掘主要是在復雜的數據庫中尋找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通過數據挖掘可以快速的將符合數據本身的數據找出來;二是關聯(lián)分析。關聯(lián)性就是事物之間存在某種的聯(lián)系性,這種事物必須要在兩種以上,數據關聯(lián)是在復雜的數據中存在一類重要的可被發(fā)現的知識;三是概念描述。概念描述分為特征性描述和區(qū)別性描述;四是偏差檢測。

查看全文

電子商務挖掘技術運用

目前隨著電子商務經濟環(huán)境的逐漸發(fā)展完善,企業(yè)從傳統(tǒng)意義上的區(qū)域內銷售,到跨地域限制的全球銷售,從原料選購、產品宣傳、銷售、貨款結算及售后服務一系列環(huán)節(jié)都在網絡上進行。這樣,網站是電子商務中最為重要的介質。網站對用戶的吸引程度直接決定了企業(yè)發(fā)展。為了使企業(yè)不斷壯大,不斷提升企業(yè)競爭力,企業(yè)決策者開始搭建獨具創(chuàng)新的,更具個性化的,更能吸引客戶的一流的信息化網站,其中個性化特征是各企業(yè)追捧的方式之一。如何從眾多數據中抽取出個性化的數據,就運行到了數據挖掘技術。本文將對數據挖掘技術在電子商務中的應用做重點介紹。

1數據挖掘概念

數據挖掘(DataMining)是一種信息轉化的過程,將各種無律的、非完整的、雜亂無章的、隨機的信息中經過各種方式轉化成我們需要的、有用的信息。Web數據挖掘(WebDataMining)是將數據挖掘技術應用到Web網頁中。即從Web各種活動信息中分析提取出有用的隱藏信息,在一定程度上利用數據挖掘技術提取出有用的知識來幫助企業(yè)和用戶更好地從網站中得到各自所需要的信息。

2Web數據挖掘的分類

Web數據挖掘大概可以分為三大類:Web頁面信息挖掘(WebContentMining)、Web用戶記錄挖掘(WebUsageMining)、Web結構挖掘(WebStructureMining)。Web頁面信息挖掘是指從頁面的內容中或者網頁描述中收集有用信息進行挖掘,根據類型不同,可以分為文本挖掘、圖片挖掘和視頻挖掘等。Web用戶記錄挖掘是當用戶訪問頁面時,記錄用戶訪問頁面的信息,根據用戶在頁面的停留時間,訪問的產品等等進行信息挖掘,運用一些數學方法建立用戶興趣和關注模型,不斷的跟蹤用戶完善模型,預計猜測用戶行為,從而可以對用戶進行分類,為不同用戶量身制作自身最感興趣的產品信息,從而對不同用戶動態(tài)更新個性化產品展示和相關廣告,取得利益最大化。Web結構挖掘是指從Web網頁之間的關聯(lián)性進行挖掘,如分析一個網頁鏈接和被鏈接數量來建立Web自身鏈接的結構模式。將相似產品網頁歸類,將關聯(lián)產品進行整合。使得用戶非常容易的找到相關產品,類似產品的信息。

3電子商務中Web數據挖掘的步驟

查看全文

挖掘機維護技術論文

摘要:現代挖掘機一般都采用了機電液一體化控制模式,常見故障為發(fā)動機轉速下降,工作速度變慢,挖掘無力等一些日常使用中的故障。本文簡單介紹了挖掘機在這幾類故障中的故障判斷及維修技術,另外還介紹了挖掘機的日常保養(yǎng)技術,以保障挖掘機的正常工作。

關鍵詞:挖掘機;維修;保養(yǎng)

隨著科技的進步,現代挖掘機一般都采用了機電液一體化控制模式,我們在排除一些故障時,解決的多是發(fā)動機、液壓泵、分配閥、外部負荷的匹配問題。一般在挖掘機作業(yè)中,這幾方面不能匹配,經常會表現為:發(fā)動機轉速下降,工作速度變慢,挖掘無力以及一些常見問題。

一、發(fā)動機轉速下降

首先要測試發(fā)動機本身輸出功率,如果發(fā)動機輸出功率低于額定功率,則產生故障的原因可能是燃油品質差、燃油壓力低、氣門間隙不對、發(fā)動機的某缸不工作、噴油定時有錯、燃油量的調定值不對、進氣系統(tǒng)漏氣、制動器及其操縱桿有毛病和渦輪增壓器積炭。如果發(fā)動機輸出動力正常,就需要查看是否因為液壓泵的流量和發(fā)動機的輸出功率不匹配。

液壓挖掘機在作業(yè)中速度與負載是成反比的,就是流量和泵的輸出壓力乘積是一個不變量,泵的輸出功率恒定或近似恒定。如果泵控制系統(tǒng)出現了故障,就不能實現發(fā)動機、泵及閥在不同工況區(qū)域負荷優(yōu)化匹配狀態(tài),挖掘機從而將不能正常工作。此類故障要先從電器系統(tǒng)入手,再檢查液壓系統(tǒng),最后檢查機械傳動系統(tǒng)。

查看全文

數據挖掘技術分析論文

[摘要]本文主要介紹了數據挖掘的基本概念,以及數據挖掘的方法。

[關鍵詞]數據挖掘數據挖掘方法

隨著信息技術迅速發(fā)展,數據庫的規(guī)模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。

一、數據挖掘的定義

數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發(fā)現隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數據挖掘的過程也叫知識發(fā)現的過程。

二、數據挖掘的方法

查看全文

科研數據挖掘技術論文

一、數據挖掘相關概念

數據挖掘技術是近些年發(fā)展起來的一門新興學科,它涉及到數據庫和人工智能等多個領域。隨著計算機技術的普及數據庫產生大量數據,能夠從這些大量數據中抽取出有價值信息的技術稱之為數據挖掘技術。數據挖掘方法有統(tǒng)計學方法、關聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關聯(lián)規(guī)則是其中最常用的研究方法。關聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數據中挖掘出有價值的能夠揭示實體和數據項間某些隱藏的聯(lián)系的有關知識,其中描述關聯(lián)規(guī)則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯(lián)規(guī)則才是有效的、需要進一步進行分析和應用的規(guī)則。

二、使用Weka進行關聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環(huán)境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。

(一)數據預處理

數據挖掘所需要的所有數據可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數據挖掘計算,在這里我們將以上得分分別確定分類屬性值。

查看全文

計算機數據挖掘技術探討

摘要:信息時代的來臨,使得信息數據化,數據中包含了大量的信息。但同時數據量也越來越多,種類也越來越繁雜,想要從龐大的數據庫中提煉出有用的信息也就變得困難了,傳統(tǒng)的數據挖掘技術也顯得力不從心了。順應時代的發(fā)展,計算機數據挖掘技術的優(yōu)點逐漸凸顯出來,成為焦點,本文將就這一技術進行相關的論述。

關鍵詞:計算機;數據挖掘

一、什么是計算機數據挖掘技術

1.1 計算機數據挖掘技術的概念。信息時代中的數據形形色色,而從這些數據中提煉出那一小部分有用的信息的過程就被稱為數據挖掘[1]。計算機數據挖掘技術是通過計算機整理龐大的數據庫系統(tǒng),并通過科學的分析方式,淘汰掉無利用價值的信息,篩選出有用的數據,通常包括對過去有用的數據記錄和對未來有用的預測價值[2]。

1.2 計算機數據挖掘技術的對象。信息時代的信息量大,更新的速度也很快,這就要求準確快速的處理信息,提取價值。這些數據被應用到社會的方方面面,最為突出的屬金融與醫(yī)學方面。在金融方面,企業(yè)在運營的過程中,歷史的經營成果需要數據記錄,更重要的就是通過大數據對企業(yè)未來的發(fā)展做出分析預測,并根據這些數據做出讓企業(yè)利益最大化的未來目標的決策,這也能夠讓企業(yè)在這個競爭力越來越大的社會中不受威脅,脫穎而出。而這重要的大數據既包括企業(yè)自身的經營狀況,又包括社會的需求情況和競爭企業(yè)的發(fā)展,龐大的信息量需要通過計算機數據挖掘技術準確有效地提取出有效的信息,讓企業(yè)充分有效地利用大數據,實現自身的發(fā)展。

二、計算機數據挖掘技術的操作

查看全文

計算機文本信息挖掘技術論文

我國的經濟社會不斷發(fā)展,科學技術水平不斷提升,在數據時代背景下,信息呈現爆炸增長趨勢,需要對數據信息進行高效處理,不斷提高工作效率。信息技術加快了數據傳播的速度,優(yōu)化了信息交流的方式,但也存在安全隱患問題。為了保障網絡安全,可以應用計算機文本信息挖掘技術。

1計算機文本信息挖掘技術概述

計算機文本信息挖掘技術類屬于數據處理技術的范疇,被應用在數據處理之中,主要面向文本信息。應用計算機文本信息挖掘技術可以從海量文本信息中提取有效信息,并概括這些信息數據的特點等,對這些信息進行分類和識別。計算機文本信息挖掘技術具有復雜性特征,其應用流程如下所示:(1)計算機文本信息挖掘技術會對文本對象進行選取,文本對象大多是來自期刊、網頁和其他數據庫中的文本信息。(2)計算機文本信息挖掘技術對文本對象進行了預處理,包括對文本對象進行去噪處理、分詞處理等等。在預處理過程中,計算機文本信息挖掘技術提取了文本對象的特征,并將文本對象特征表示出來。(3)計算機文本信息挖掘技術對文本信息進行了深入挖掘,對具有統(tǒng)一特征的文本對象進行了分類,并考察了信息數據之間的關聯(lián)性,預測了文本對象的發(fā)展趨勢。以上三步是計算機文本信息挖掘技術應用的重要流程,也是文本挖掘的主要步驟。在應用計算機文本信息挖掘技術時,還需要經常應用鄰近分類算法。鄰近分類算法類屬于文本分類方法的范疇,在應用鄰近分類算法的過程中,需要先制定分類方案,并對數據、分類方案進行比對,看文本屬性最接近哪一個分類方案,可以被歸入到哪一個分類方案之中。為了確保分類的準確性,需要明確分類方案的描述特征,并對文本進行設置。通過計算文本和分類方案的鄰近性,可以對文本進行初步分類。

2計算機文本信息挖掘技術在網絡安全中的應用

2.1應用必要性。當前信息數據越來越多,如何剔除無效數據,保留有效數據,成為各行各業(yè)關注的重點問題。信息技術改變了人們的生活方式,改變了社會的生產方式,人們依靠手機、電腦進行線上交流,通過微博、微信等進行線上互通;社會通過網絡系統(tǒng)進行生產控制,通過信息技術進行運營監(jiān)督。信息技術在一定程度上便捷了人們的生活,推動了社會的發(fā)展,需要進一步推動信息技術創(chuàng)新,擴大信息技術的應用范圍。在發(fā)展的同時,也需要看到信息技術存在的問題。伴隨信息量的不斷增加,網絡中的虛假信息、詐騙信息等越來越多,只有對這些垃圾信息進行有效攔截,才能保證網絡安全,保障用戶的個人權益。計算機文本信息挖掘技術有著重要的應用價值,其可以對海量信息進行有效分類,識別網絡中的真實信息、虛假信息,并對廣告信息等進行剔除。計算機文本信息挖掘技術對信息數據進行有效判斷,能夠保障網絡安全。實際應用條件上,針對網絡化的信息形式,需要對其中的基礎文本信息進行分析,尤其是與系統(tǒng)內容相關聯(lián)的信息內容上,務必要進行必要的調整,并通過相應的技術條件,保證網絡信息內容的安全性。例如,在當前的技術應用條件下,通過手機系統(tǒng)程序,就可以完成對與手機接收信息的文本分析,并在大數據系統(tǒng)的基礎上,通過文本內容的捕捉,確定此類信息的狀態(tài)。由此,定位可能存在的垃圾信息,并在手機使用設定中,將此類信息規(guī)整到統(tǒng)一的存儲格式中,由使用者進行二次確認,并保證信息管理的有效性狀態(tài)。2.2應用路徑。為了發(fā)揮計算機文本信息挖掘技術的作用,應該改進鄰近分類方法。計算機文本信息挖掘技術通過鄰近分類方法對互聯(lián)網信息進行分類,只有優(yōu)化鄰近分類方法,才能提升文本信息分類的準確性。傳統(tǒng)的鄰近分類方法存在弊端,不同分類特征可能存在共線,文本信息分類可能會出現訛誤情況。在技術改進過程中,需要堅持將傳統(tǒng)方法作為依托,并對文本特征進行細化描述。技術人員需要合并共性屬性比較明顯的文本特征,并考察特征向量的維度,對其進行有效壓縮。通過上述方法,文本信息分類將更加高效。為了驗證計算機文本信息挖掘技術的有效性,需要開展實驗,考察計算機文本信息挖掘技術與網絡安全檢測之間的關系。技術人員首先要確定實驗對象,包括文本信息預測庫等,并盡量擴充其中的文本信息,確保其中有正常文本信息、廣告信息、詐騙信息等等。根據語料庫設定原則,需要對文本中的數據信息特征進行有效概括,看哪一種信息類屬于文本信息、哪一種信息類屬于廣告信息和詐騙信息。技術人員也可以對廣告信息、詐騙信息等進行合并,將其命名為危害信息。技術人員需要采用鄰近分類方法,測試計算機文本信息挖掘技術的應用效果。在設置評價參數的過程中,應該采用算法判定方式和專家判定方式。上述實驗將會出現四種可能性:(1)算法、專家判定安全信息;(2)算法、專家判定危害信息;(3)算法判定安全、專家判定危害信息;(4)算法判定危害、專家判定安全信息。技術人員需要對評價精度、評價誤差等進行計算,并設計信息檢測平臺,為計算機文本信息挖掘技術的應用提供支撐。網絡信息檢測平臺應該分成一級功能、二級功能,一級功能應該包括首頁、用戶管理等,而二級功能應該包括分類方法、參數評價等。2.3文本挖掘主要技術方向。文本挖掘技術,是計算機網絡化的應用技術手段,也是具體系統(tǒng)開發(fā)的方向性技術,在與具體產業(yè)進行結合的過程中,可以憑借自身的技術又是條件,適應到多種類型的技術空間中,展示自身科技型價值,適應知識經濟發(fā)展環(huán)境。(1)基于網絡文本分析的技術條件,可以在網絡新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術優(yōu)勢,對構筑安全的網路環(huán)境,貢獻出基礎性技術內容。在網絡化的輿情環(huán)境中,個人信息、商業(yè)機密等內容的傳播,都會造成嚴重損失,威脅到企業(yè)與個人的信息與財產安全。而在這一內容的管理中,需要對客觀的網絡輿情狀態(tài)進行分析,在過濾文內容的同時,過濾具體的信息數據,通過關聯(lián)性分析、網絡溯源、輿情評價等內容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術的完整性與成長性,針對實際工作環(huán)境做出必要的基礎性保證。(2)專利信息的安全管理中,應用文本數據挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關鍵內容,與企業(yè)的經濟收益與市場競爭條件息息相關,需要在技術內容上,形成系統(tǒng)性的防護條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權登記資料、專利所有權挖掘、專利使用權調查等內容,維護整體技術管理體系的建設狀體,實現同步化的專利技術分析。(3)在文本挖掘技術的應用開發(fā)中,表現出了明顯的技術成長性,在多種專業(yè)領域展現技術應用條件的同時,也在綜合性、管理性的內容中,呈現出了明顯的應用價值特征。例如,在醫(yī)療領域,文本分析可以被應用在醫(yī)學健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結等多種信息化內容的安全數據整理,利用各種敏感詞匯與數據,保證了整體信息化系統(tǒng)的建設條件。又如,在企業(yè)的市場管理中,可以憑借這技術應用條件,對市場環(huán)境中的相關信息進行提取與分析。并在綜合相關市場人員掌握數據的同時,結合企業(yè)實際發(fā)展狀態(tài),形成指導性的參考數據材料,保證整體信息系統(tǒng)的建設狀態(tài),并使相應網絡資料為實際運行策略的制定提供參考,維護了發(fā)展信息綜合性分析執(zhí)行效果。

3結論

查看全文

云計算與物聯(lián)網技術數據挖掘探討

摘要:通過云計算與物聯(lián)網技術的有效結合,能夠實現海量數據的有效挖掘與分析,對于數據處理水平的提升也有著重要意義。因此我國相關技術部門還要加強對該方面工作的重視力度,實現云計算技術跟互聯(lián)網技術兩者的有效融合,有助于我國數據挖掘技術的優(yōu)化與升級,本文主要就云計算與物聯(lián)網技術的數據挖掘進行了探究分析。

關鍵詞:云計算;物聯(lián)網技術;數據挖掘

1物聯(lián)網與云計算概述

1.1物聯(lián)網概述

物聯(lián)網作為一種新興的網絡技術,其主要是以萬億節(jié)點作為表達對象,隨后通過不同的傳感器設備、網絡服務器以及超級計算機集群來進行數據的處理與應用,并且包含了計算機技術以及通信技術等多個學科。物聯(lián)網技術手段的應用,能夠在結合物理對象的實際情況進行無縫信息系統(tǒng)的構建,實現對各業(yè)務流程的規(guī)劃化與動態(tài)管理,保障業(yè)務流程的順利開展,從而解決用戶們的不同需求[1]。

1.2云計算技術

查看全文

數據挖掘技術在經濟統(tǒng)計中運用

摘要:新時期背景下,社會經濟發(fā)展速度明顯加快,有關經濟的數據與信息內容不斷累積,在海量數據當中有效地提取價值程度較高的信息,借助數據信息的提取與分析,為經濟發(fā)展提供了有價值的參考依據。其中,數據挖掘技術就可以在數據庫當中找到一定價值的隱藏事件,在人工智能、預測以及統(tǒng)計等諸多科學技術的作用下,能夠為經濟決策奠定堅實基礎。文章將數據挖掘技術作為重點研究對象,闡述其在經濟統(tǒng)計中的具體應用,希望有所幫助。

關鍵詞:數據挖掘技術;經濟統(tǒng)計;應用

經濟數據本身的發(fā)展性以及信息量的龐大性都十分明顯,所以作為統(tǒng)計數據工作人員在使用數據信息的時候,僅被局限在數據數字信息分析以及使用方面,并未對數據信息當中所蘊含的重要統(tǒng)計資料展開深入地挖掘。針對數據挖掘技術而言,其屬于全新統(tǒng)計方法,最明顯的優(yōu)勢就是可以橫向與縱向地開發(fā)信息數據,并且在實踐中實現了研究領域的延伸,能夠進一步挖掘數據信息,并在基礎數據中獲取價值性較高的數據信息,并為社會統(tǒng)計數據工作的開展提供有價值的參考依據。

一、數據挖掘技術概述

(一)基本內涵

通過對數據挖掘技術的應用,可以集中整合并深度處理數據信息,確保深層次開發(fā)項目優(yōu)化更加全面,實現系統(tǒng)升級。而在實踐操作方面,數據挖掘技術即可在相對復雜的數據庫當中對數據信息進行提取,以實現集中整合與分析的目標,并在大量數據信息當中對數據信息實用性展開深入挖掘。近年來,在經濟活動逐漸頻繁的背景下,信息量不斷增加,組成結構更加復雜,以上是原生態(tài)信息最明顯的特征。所以,為了綜合管理信息價值,必須針對其實施精細化研究,以免信息的價值被限制亦或是浪費。如果信息與數據價值得不到發(fā)揮,必然會對牽制數據信息統(tǒng)計工作產生不利的影響。在這種情況下,處理數據的過程中,各部門將數據挖掘技術進入其中,并系統(tǒng)化地分析雜亂原始數據信息,最終整合成具備現實意義的數據形態(tài),全面優(yōu)化數據提取的效果與應用的效果,并對其實施深入加工與綜合處理,進一步升級數據挖掘的水平。

查看全文

數據挖掘技術在管理會計的作用

【摘要】隨著數據科技的飛速發(fā)展,管理會計工作已逐步實現電算化。長期的會計處理過程中會積累大量結構化或非結構化數據,這些數據中蘊藏著巨大的價值。本文基于價值創(chuàng)造視角,闡述了大數據挖掘技術在管理會計中的應用。

【關鍵詞】數據挖掘技術;管理會計;應用

數據挖掘指運用決策樹模型、蟻群算法、神經網絡算法、遺傳算法、關聯(lián)分析算法、序列模式分析算法、聚類分析算法等對海量結構化或非結構化數據集合進行挖掘與分析,依托模型獲取有價值信息或探求某種發(fā)展趨勢,提供有用的數據洞察。數據挖掘結合了統(tǒng)計學、信息管理系統(tǒng)、計算機科學與技術、離散數學、機器學習、數據庫、人工智能、決策理論等多種學科。該項技術可以從繁雜、無規(guī)律的數據環(huán)境中剝離出重要信息供企業(yè)使用,為決策提供參考。

一、大數據挖掘技術概述

(一)大數據挖掘相關技術。1.統(tǒng)計技術。統(tǒng)計分析技術以概率論和統(tǒng)計學主要思想為理論基礎。該技術對數據集合進行挖掘的方式是對給定數據集合假設一個分布或者概率模型(比如正態(tài)分布模型),然后根據模型進行相應挖掘。該技術建立在判別分析、因子分析及回歸分析等模型基礎之上,其優(yōu)勢是對分析結果的描述精確且容易理解,因而應用較為普遍。2.決策樹技術。決策樹技術在數據挖掘的不同操作階段具有不同特點,其遵循的規(guī)則較為直觀,容易理解,其優(yōu)勢是在計算分類時耗費時間較短。決策樹是一種顯示不同條件下會得出哪些數值的規(guī)則算法,這種方法在預測結果以及將結果分類的條件下較為適用。決策樹分析方法一般常用C4.5、C5.0、ID3、CHAID、CART等計算方法。3.關聯(lián)規(guī)則。關聯(lián)規(guī)則在數據挖掘技術中應用最為廣泛,該技術是將海量數據集中起來,將其中的關聯(lián)關系和依賴關系充分挖掘。依托關聯(lián)分析,能從用戶行為中分析出潛在的行為模式,挖掘潛在知識以及人們感興趣的模式,同時將總結的概念應用于更大范圍的用戶群體之中。4.神經網絡技術。神經網絡技術類似于人腦部神經元,其功能也有相近之處。它的重點是結合神經測試規(guī)則進行計算模擬的開發(fā)與設計。在結構上,神經網絡可以劃分為輸入層、隱含層和輸出層三個不同層次。輸入層的不同階段對應著預測變量,輸出層的節(jié)點對應的是目標變量,隱含層位于輸入層和輸出層之間,隱含層的具體層數和不同層內的節(jié)點數決定了神經網絡的整體復雜程度。該項技術具有承受噪聲數據能力較高、可以處理相對復雜問題等優(yōu)勢。5.粗糙集技術。粗糙集技術在數據挖掘中應用較為廣泛。這種技術一般能夠較為清晰地分析出噪聲數據以及不精準數據之間的聯(lián)系。其最大的優(yōu)勢是不需要將初始數據或附加信息包含在內,只需利用一些不完整數據或不確定數據即可建立模型。粗糙集技術大大提高了知識發(fā)現及數據挖掘效率。6.遺傳算法。遺傳算法1975年由美國D.J.Hol⁃land教授提出,它將計算機科學技術與生物學技術完美融合,是一種優(yōu)化類算法。大自然最基本的生存法則為適者生存,生物按照一種合理的機制進行遺傳進化,進而成為最適合的種群。遺傳算法對大自然中的生物進化機制進行模擬,遵循合理原則,對各項數據模型執(zhí)行優(yōu)化操作。遺傳算法相比于其他算法要求的輸入信息較少,因而具有靈活高效的特點。7.差別分析。差別分析的主要目的是發(fā)現數據之中潛藏的異常情況,進而減弱噪音數據干擾,獲取有價值信息。8.概念描述。概念描述主要是對某類對象的特征和內涵進行概括及描述。概念描述具體分為區(qū)別描述和特征性描述。前者用于描述某些對象的區(qū)別,后者描述某類對象的共性。(二)大數據挖掘技術應用流程。1.選擇、取樣。在實施數據挖掘之前,需要針對數據挖掘預期目標對數據庫進行甄選,依托數據表的形式對數據總體進行抽樣。需要注意的是,在數據庫中抽取的數據要有實際意義,抽取數據數量應適當,不宜過多。2.預處理。具體包括消除噪聲數據、重復記錄,合理處置缺失數據,完成數據類型轉換等。3.轉換、探索。在數據樣本抽取結束之后,需要根據實際情況對數據執(zhí)行增加、刪除、修改等操作,進而對數據進行深入探索。結合探索過程,找出海量數據中所隱藏的聯(lián)系或異常,加深對預期挖掘目標的理解和認識。4.調整、數據開采。在進行初步的取樣及探索之后,確定數據開采任務,從而選擇合適的數據開采算法。5.建模。結合決策樹、回歸分析、時間序列分析、神經網絡等分析工具對所甄選數據進行建模,基于數據構建對目標結果的分析預測模型。6.評價。數據挖掘的最終環(huán)節(jié)是建立模型測評體系,對數據挖掘中發(fā)現的有效結果進行實用性和可靠性評價,對不足之處進行修正。上述過程可以表示為圖1。

二、管理會計是業(yè)務及價值的結合體

查看全文