電子文件存用分離研究和實(shí)現(xiàn)
時(shí)間:2022-06-27 09:15:35
導(dǎo)語:電子文件存用分離研究和實(shí)現(xiàn)一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
信息化是當(dāng)今社會(huì)發(fā)展的一大趨勢(shì),以計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)為核心的現(xiàn)代信息處理技術(shù)正深入到社會(huì)的各個(gè)領(lǐng)域和各個(gè)層次,大量的信息資源以電子文件的形式產(chǎn)生和出現(xiàn)。這些電子資源中,相當(dāng)大一部分具有相當(dāng)高的保存和利用價(jià)值。如何安全、高效和長久的利用好這些電子資源已經(jīng)成為一個(gè)迫切需要解決的問題。
2電子文件存用分離的必要性
伴隨電子政務(wù)和辦公自動(dòng)化在我國的的快速發(fā)展和高度普及,大量具有保存價(jià)值的電子文件不斷產(chǎn)生。但是,目前對(duì)這些電子文件的管理和利用仍然存在著很多問題。
2.1電子文件的安全性堪憂
目前,我國大部分檔案系統(tǒng)中對(duì)電子文件的利用都是基于電子文件原件的利用。對(duì)于這種利用方式,電子文件的真實(shí)性無法得到有效的保障,電子文件的外泄和擴(kuò)散缺乏有效的控制手段,電子文件受到病毒感染和人為破壞的風(fēng)險(xiǎn)性比較高。
2.2電子文件的利用效率比較低
電子文件能否有效利用是衡量一份電子文件存在價(jià)值的一個(gè)重要的指標(biāo)。在我國,目前電子文件的利用效率仍然比較低。產(chǎn)生這種現(xiàn)狀的主要原因是我們?nèi)狈?duì)電子文件進(jìn)行有效利用的手段,對(duì)電子文件進(jìn)行利用的成本比較高。2.3電子文件的管理還缺乏統(tǒng)一的事實(shí)標(biāo)準(zhǔn)和格式自1999年以來,我國相繼了《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)、《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T31-2005)、《公務(wù)電子郵件歸檔與管理規(guī)則》(DA/T32-2005)等電子文件管理的規(guī)范和規(guī)則。但是我們現(xiàn)有的管理系統(tǒng)和與規(guī)范相適應(yīng)的技術(shù)手段仍然有限,我們還缺乏對(duì)規(guī)范實(shí)現(xiàn)的技術(shù)支撐體系。
3電子文件存用分離的設(shè)計(jì)思路
電子文件的存用分離是指對(duì)各種類型格式的電子文件,通過中間件的加工和轉(zhuǎn)換后以一種統(tǒng)一的標(biāo)準(zhǔn)格式進(jìn)行利用的技術(shù)手段。通過存和用的分離,可以保護(hù)原電子文件的安全,提高電子文件的利用效率,并且能夠統(tǒng)一文件的格式以完成對(duì)規(guī)范和標(biāo)準(zhǔn)的支撐。
4電子文件的特點(diǎn)———多樣化和封閉性
實(shí)現(xiàn)電子文件存用分離的瓶頸是電子文件類型和格式的多樣化和相當(dāng)大一部分電子文件格式的封閉性。電子文件格式的多樣化是指當(dāng)前我們所產(chǎn)生的電子文件的類型多樣化和電子文件格式的多樣化。我們所常見的電子文件型和電子文件格式如表1所示。電子文件格式的封閉性是指某種類型或者某種格式的電子文件是某一廠商私有的電子文件格式,他實(shí)現(xiàn)的時(shí)候并沒有遵循某種格式標(biāo)準(zhǔn),實(shí)現(xiàn)之后也沒有將他所使用的格式公開化,也沒有將其格式提交給某一標(biāo)準(zhǔn)組織。要想對(duì)該文件進(jìn)行標(biāo)準(zhǔn)化解析有一定的難度。所幸的是,對(duì)于這種文件格式,廠商一般會(huì)為開發(fā)者提供部分的API來訪問電子文件的部分信息。要實(shí)現(xiàn)電子文件的存用分離,我們必須借助某一種手段,規(guī)避電子文件的多樣化和封閉性的特點(diǎn)。標(biāo)準(zhǔn)化是實(shí)現(xiàn)復(fù)雜問題簡單化的一種有效方式和手段,借助標(biāo)準(zhǔn)化的定義,對(duì)文件的結(jié)構(gòu)進(jìn)行標(biāo)準(zhǔn)化約束和規(guī)范,從而能夠達(dá)到解決問題的目的。圖1描述了實(shí)現(xiàn)電子文件存用分離的系統(tǒng)架構(gòu)圖。文件解析引擎接口實(shí)際上就是定義了一套標(biāo)準(zhǔn)。它包括文件屬性接口API、文件內(nèi)容接口API和文件樣式接口API。
4.1文件屬性解析接口
文件屬性接口API用于規(guī)范提取文件的屬性信息。這些屬性接口API包括的接口方法如表2所示。
4.2文件內(nèi)容解析接口
文件內(nèi)容解析接口主要定義了讀取各種格式文件的文本內(nèi)容的規(guī)范。為了保持文本信息使用過程中的一致性和通用性,應(yīng)該采用一種通用的、標(biāo)準(zhǔn)化的規(guī)范來定義這些文本信息。HTML作為應(yīng)用非常廣泛的規(guī)范和標(biāo)準(zhǔn),我們可以采用這種標(biāo)準(zhǔn)來定義我們的文件內(nèi)容信息。HTML通過標(biāo)記符號(hào)來標(biāo)記要顯示在網(wǎng)頁中的各個(gè)部分。網(wǎng)頁文件本身是一種文本文件,通過在文本文件中添加標(biāo)記符,可以告訴瀏覽器如何顯示其中的內(nèi)容(如:文字如何處理,畫面如何安排,圖片如何顯示等)。
4.3文件樣式解析接口
文件樣式接口API定義了格式化文件內(nèi)容中文本信息的規(guī)范。級(jí)聯(lián)樣式表(CascadingStyleSheet)簡稱“CSS”,通常又稱為“風(fēng)格樣式表(StyleSheet)”,它是用來進(jìn)行網(wǎng)頁風(fēng)格設(shè)計(jì)的。通過設(shè)立樣式表,可以統(tǒng)一地控制HMTL中各標(biāo)志的顯示屬性。級(jí)聯(lián)樣式表可以使人能有效地控制網(wǎng)頁外觀。使用級(jí)聯(lián)樣式表,可以精確指定網(wǎng)頁元素位置,外觀以及創(chuàng)建特殊效果的能力。
5電子文件解析相關(guān)技術(shù)
文件解析仍然是制約電子文件存用分離發(fā)展的瓶頸,選擇合適的技術(shù)平臺(tái)是實(shí)現(xiàn)存用分離的關(guān)鍵。以下將列出對(duì)當(dāng)前比較流行,使用比較廣泛的電子文件進(jìn)行解析的關(guān)鍵技術(shù)和平臺(tái)。
5.1JAVA平臺(tái)
Java是一種可以撰寫跨平臺(tái)應(yīng)用軟件的面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,是由SunMicrosystems公司于1995年5月推出的Java程序設(shè)計(jì)語言和Java平臺(tái)(即JavaSE,JavaEE,Ja-vaME)的總稱。Java技術(shù)具有卓越的通用性、高效性、平臺(tái)移植性和安全性,廣泛應(yīng)用于個(gè)人PC、數(shù)據(jù)中心、游戲控制臺(tái)、科學(xué)超級(jí)計(jì)算機(jī)、移動(dòng)電話和互聯(lián)網(wǎng),同時(shí)擁有全球最大的開發(fā)者專業(yè)社群。在全球云計(jì)算和移動(dòng)互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下,Java更具備了顯著優(yōu)勢(shì)和廣闊前景。
5.2Office文檔解析技術(shù)———POI
ApachePOI是用Java編寫的免費(fèi)開源的跨平臺(tái)的Ja-vaAPI,ApachePOI提供了對(duì)MicrosoftOffice格式文件讀和寫的功能。ApachePOI是創(chuàng)建和維護(hù)操作各種符合OfficeOpenXML(OOXML)標(biāo)準(zhǔn)和微軟的OLE2復(fù)合文檔格式(OLE2)的JavaAPI。ApachePOI可以使用Java讀取、創(chuàng)建和修改MSExcel文件、MSWord和MSPowerPoint文件。ApachePOI主要包括如下模塊。HSSF:提供讀寫MicrosoftExcelXLS格式檔案的功能。XSSF:提供讀寫MicrosoftExcelOOXMLXLSX格式檔案的功能。HWPF:提供讀寫MicrosoftWordDOC格式檔案的功能。HSLF:提供讀寫MicrosoftPowerPoint格式檔案的功能。HDGF:提供讀MicrosoftVisio格式檔案的功能。HPBF:提供讀MicrosoftPublisher格式檔案的功能。HSMF:提供讀MicrosoftOutlook格式檔案的功能。
5.3PDF文檔解析技術(shù)———PDFBox
PDFBox是一個(gè)開源的可以操作PDF文檔的JavaPDF類庫。它可以創(chuàng)建一個(gè)新PDF文檔,操作現(xiàn)有PDF文檔并提取文檔中的內(nèi)容。它具有以下特性:(1)將一個(gè)PDF文檔轉(zhuǎn)換輸出為一個(gè)文本文件。(2)可以從文本文件創(chuàng)建一個(gè)PDF文檔。(3)加密/解密PDF文檔。(4)向已有PDF文檔中追加內(nèi)容。(5)可以從PDF文檔生成一張圖片。(6)可以與JakartaLucene搜索引擎的整合。
5.4圖片文件解析技術(shù)———OCR光學(xué)字符識(shí)別中間件
OCR是英文(OpticalCharacterRecognition)的縮寫,意為光學(xué)字符識(shí)別。通過光學(xué)掃描儀和計(jì)算機(jī)的配合,OCR軟件將圖像數(shù)據(jù)進(jìn)行運(yùn)算分類后,將圖像數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)內(nèi)碼。它可以極大地減輕數(shù)據(jù)錄入工作的強(qiáng)度、提高數(shù)據(jù)錄入的速度。OCR技術(shù)應(yīng)用是信息資源建設(shè)中的最重要階段,OCR技術(shù)同時(shí)是數(shù)據(jù)加工的核心技術(shù)。北京漢王科技有限公司自1985年起就開始從事OCR技術(shù)的研究工作,曾受到國家863計(jì)劃、國家自然科學(xué)基金委員會(huì)、中國科學(xué)院的支持,研究內(nèi)容涉及到中文、英文、日文、韓文的印刷體識(shí)別,中文的手寫體識(shí)別,手寫數(shù)字識(shí)別,表格識(shí)別與還原,版面分析與還原,中文OCR系統(tǒng)。漢王在處理各類資料方面積累了大量的經(jīng)驗(yàn),特別是漢王的錄入工廠廣泛應(yīng)用于包括圖書館,檔案館,國家專利局,各類數(shù)據(jù)加工商如清華同方,萬方數(shù)據(jù)等企、事業(yè)單位。在各行業(yè)中作為他們的有效工具,極大地提高了數(shù)據(jù)的處理效率。目前漢王OCR核心各項(xiàng)關(guān)鍵技術(shù)均位于國際領(lǐng)先水平。
6總結(jié)
實(shí)現(xiàn)電子文件存用分離的關(guān)鍵是標(biāo)準(zhǔn)的定義和推廣,本文提出了一種實(shí)現(xiàn)存用分離的解決思路和解決方案。但真正將存用分離廣泛運(yùn)用到實(shí)際生產(chǎn)中仍然需要廣大廠商的積極參與和推廣。
- 上一篇:全縣環(huán)保體系建立指導(dǎo)意見
- 下一篇:電子文件歸檔范圍綜述