高校檔案管理的實(shí)施與探討
時(shí)間:2022-11-21 03:34:35
導(dǎo)語(yǔ):高校檔案管理的實(shí)施與探討一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1構(gòu)建Hadoop項(xiàng)目的高校分布式檔案管理
Hadoop項(xiàng)目已經(jīng)大量的應(yīng)用于實(shí)際項(xiàng)目之中。淘寶、百度、騰訊、網(wǎng)易等都在使用Hadoop項(xiàng)目,加上很多高校也在研究Hadoop項(xiàng)目,所以本項(xiàng)目使用的Hadoop已經(jīng)是相當(dāng)成熟的技術(shù)。Hadoop平臺(tái)下的高校分布式檔案管理系統(tǒng),主要目的就是利用軟件來(lái)實(shí)現(xiàn)檔案文檔的歸檔、查詢、瀏覽以及下載等一系列流程管理,使工作人員對(duì)文檔的管理工作更加容易,既可以提高工作效率,又可以降低管理的成本。在充分考慮高校檔案工作的各種共性,避免重復(fù)投資、浪費(fèi)人力和物力情況發(fā)生的同時(shí),采用分布式技術(shù)模型來(lái)構(gòu)建—個(gè)檔案管理系統(tǒng)平臺(tái),具有深遠(yuǎn)的意義。
2Had項(xiàng)目管理系統(tǒng)需要解決的問(wèn)題
2.1Had項(xiàng)目管理系統(tǒng)研究?jī)?nèi)容
本項(xiàng)目方案首先是構(gòu)建檔案文件的錄入、存儲(chǔ)、歸檔功能,用以實(shí)現(xiàn)檔案的數(shù)字化,所有的文件信息都構(gòu)建在HDFS系統(tǒng)之上,實(shí)現(xiàn)分布式的文件存儲(chǔ)。其次,完成檔案的檢索和分析功能,實(shí)現(xiàn)用戶對(duì)存入檔案的查詢和數(shù)據(jù)分析,這部分將利用MapReduce(Hive)實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的分析和處理。最后是檔案的瀏覽和下載功能,通過(guò)JSP技術(shù)實(shí)現(xiàn)檔案的頁(yè)面展示和下載。此外,項(xiàng)目還考慮到安全性問(wèn)題,實(shí)現(xiàn)對(duì)檔案的加密,操作人員的身份認(rèn)證等功能。構(gòu)建基于HDFS系統(tǒng)上分布式檔案文件系統(tǒng),從而完成對(duì)大量高校檔案文件的安全存儲(chǔ)。構(gòu)建基于MapReduce(Hive)的檔案數(shù)據(jù)查詢、計(jì)算系統(tǒng),從而完成對(duì)已經(jīng)存儲(chǔ)的檔案數(shù)據(jù)進(jìn)行處理。構(gòu)建基于技術(shù)的檔案管理信息系統(tǒng),通過(guò)簡(jiǎn)潔方便的WEB界面實(shí)現(xiàn)對(duì)整個(gè)檔案系統(tǒng)的操作。設(shè)計(jì)和實(shí)現(xiàn)海量檔案數(shù)據(jù)處理過(guò)程中的MapReduce。在海量數(shù)據(jù)查詢中結(jié)合Hive與MapReduce。
2.2Had項(xiàng)目管理系統(tǒng)研究方法
首先熟悉已有的相關(guān)成果,深入分析其中方法技巧,然后針對(duì)研究問(wèn)題的特點(diǎn)及難點(diǎn),通過(guò)不斷的實(shí)驗(yàn),大量的實(shí)踐來(lái)分析比較各種方法及方案配置的優(yōu)缺點(diǎn),以期解決問(wèn)題。除了進(jìn)行個(gè)人研究以外,還將積極參加相關(guān)學(xué)術(shù)會(huì)議,與同行專家進(jìn)行交流。同時(shí)充分利用現(xiàn)代通訊工具,如網(wǎng)絡(luò)等,即時(shí)了解與本項(xiàng)目有關(guān)的最新文獻(xiàn)、學(xué)術(shù)動(dòng)態(tài),以使研究和應(yīng)用工作更有成效。在技術(shù)上,采用原型化的程序設(shè)計(jì)方法,逐步求精,最后開(kāi)發(fā)出目標(biāo)平臺(tái)。在設(shè)計(jì)時(shí),特別考慮數(shù)據(jù)存儲(chǔ)問(wèn)題,尤其是海量數(shù)據(jù)的存儲(chǔ),同時(shí)考慮基于MapReduce檢索和分析的效率,注重文件存儲(chǔ)的安全性和可靠性。
3實(shí)驗(yàn)方案及可行性分析
本項(xiàng)目的研究是基于linux平臺(tái)進(jìn)行相應(yīng)的技術(shù)研究,所使用的工具基于Windows/Linux,其研究從技術(shù)上是可行的,主要從以下兩個(gè)方面進(jìn)行分析:(1)由于ubuntu具有界面好、操作簡(jiǎn)單以及先進(jìn)的應(yīng)用軟件集成能力,而且價(jià)格適中,擁有廣泛的企業(yè)用戶群,特別適用于提供網(wǎng)絡(luò)服務(wù)。其相關(guān)技術(shù)資料也較為豐富,在研究過(guò)程中如果遇到與平臺(tái)有關(guān)的問(wèn)題可以在短時(shí)間內(nèi)得以解決,保證項(xiàng)目的正常進(jìn)行。(2)Hadoop是Apache下的一個(gè)項(xiàng)目,由HDFS、MapReduce、HBase、Hive等成員組成。其中,HDFS和MapReduce是兩個(gè)最基礎(chǔ)最重要的成員。(3)本項(xiàng)目的創(chuàng)新之處是在技術(shù)上使用了Hadoop項(xiàng)目,通過(guò)Hadoop項(xiàng)目解決檔案文件的存儲(chǔ)、檢索等工作,并且能夠有效的解決海量檔案數(shù)據(jù)的計(jì)算和分析工作。整個(gè)項(xiàng)目組的人員大多從事過(guò)軟件的開(kāi)發(fā)工作,熟悉軟件開(kāi)發(fā)流程,熟悉Hadoop平臺(tái);(4)HDFS是GoogleGFS的開(kāi)源版本,它能夠提供高吞吐量的數(shù)據(jù)訪問(wèn),適合存儲(chǔ)海量(PB級(jí))的大文件(通常超過(guò)64M)MapReduce是大規(guī)模數(shù)據(jù)(TB級(jí))計(jì)算的利器,Map和Reduce是它的主要思想,來(lái)源于函數(shù)式編程語(yǔ)言。Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行聚集,用戶只需要實(shí)現(xiàn)map和reduce兩個(gè)接口,即可完成TB級(jí)數(shù)據(jù)的計(jì)算,常見(jiàn)的應(yīng)用包括:日志分析和數(shù)據(jù)挖掘。基于Apache的Hadoop分布式平臺(tái)已經(jīng)開(kāi)始在各大軟件公司使用,HDFS和MapReduce框架也為分布式存儲(chǔ)和計(jì)算帶來(lái)了新鮮氣息,提高了分布式存儲(chǔ)和計(jì)算在具體應(yīng)用場(chǎng)合的使用。當(dāng)然還存在著Hadoop開(kāi)發(fā)平臺(tái)中計(jì)算機(jī)數(shù)量和存儲(chǔ)數(shù)量較小等問(wèn)題。相信經(jīng)過(guò)開(kāi)發(fā)人員的不懈努力,Hadoop項(xiàng)目的高校分布式檔案管理會(huì)發(fā)揮出其應(yīng)有的作用。
本文作者:蔡勁松工作單位:安徽新聞出版職業(yè)技術(shù)學(xué)院計(jì)算機(jī)中心
- 上一篇:高校重大活動(dòng)檔案管理研究
- 下一篇:檔案管理現(xiàn)代化研究與思考