OFD版式標(biāo)準(zhǔn)在電子檔案管理的應(yīng)用
時間:2022-11-10 09:26:07
導(dǎo)語:OFD版式標(biāo)準(zhǔn)在電子檔案管理的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:文章分析ofd格式的技術(shù)特點(diǎn),結(jié)合電子檔案管理中的應(yīng)用需求,提出OFD在電子檔案移交接收中的技術(shù)實(shí)現(xiàn)思路,并分析實(shí)際應(yīng)用情況。
關(guān)鍵詞:OFD;版式文檔;電子檔案;管理;應(yīng)用
OFD作為版式文檔國家標(biāo)準(zhǔn),在電子檔案管理領(lǐng)域有著重要的應(yīng)用價值。電子檔案移交接收,是檔案館確保長期保存的電子檔案來源可靠、程序規(guī)范、要素合規(guī)的重要工作環(huán)節(jié)。天津市檔案館從電子檔案移交接收工作入手,探索OFD在電子檔案管理中的應(yīng)用實(shí)踐,取得了階段性的成果。
1電子檔案版式格式要求與OFD的技術(shù)特點(diǎn)
1.1電子檔案的版式格式要求
版式文檔是版面呈現(xiàn)效果固定的電子文檔格式。其具有電子文檔呈現(xiàn)與設(shè)備無關(guān),在各種設(shè)備上閱讀、打印和印刷時,其版面的呈現(xiàn)結(jié)果都一致的格式特征。這一格式特征,非常適宜電子文件的交換、、存檔。2009年《電子文件管理暫行辦法》提出“應(yīng)采用符合國家標(biāo)準(zhǔn)的文件存儲格式,確保能夠長期有效可讀”;同年國家檔案局頒布《版式電子文件長期保存格式需求》,將版式文件作為電子檔案長期保存和利用的格式,并提出明確的技術(shù)需求;2016年10月國家標(biāo)準(zhǔn)化管理委員會國家標(biāo)準(zhǔn)《電子文件存儲與交換格式版式文檔》(GB/T33190—2016)。至此,我們有了自己的版式文檔格式國家標(biāo)準(zhǔn),這對于促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展、提升我國電子文件管理的安全性和自主性,具有重要意義。
1.2OFD格式的技術(shù)特點(diǎn)
OFD版式文檔格式采用“容器+文檔”的方式描述和存儲數(shù)據(jù)。容器是一個虛擬存儲系統(tǒng),所有數(shù)據(jù)都存放其中,包括文檔、頁面、大綱等文檔模型和圖形、圖像、字體等,容器提供訪問接口和數(shù)據(jù)壓縮方法,文檔模型采用XML,附加的字體、圖像、音頻、視頻等數(shù)字資源采用二進(jìn)制格式,使用ZIP壓縮算法進(jìn)行整體壓縮打包。OFD定義了基于XML和ZIP壓縮的通用版式文檔格式,適用于固定版式電子文件的存儲與交換,在滿足版式文檔核心需求的同時,技術(shù)實(shí)現(xiàn)更加精簡,擴(kuò)展性和可控性更強(qiáng),體現(xiàn)出以下幾個方面的優(yōu)勢。第一,自主產(chǎn)權(quán),安全可控。OFD具有完全自主知識產(chǎn)權(quán),具備自主的核心技術(shù),支持國產(chǎn)加密算法,國家對OFD標(biāo)準(zhǔn)具有完全自主的話語權(quán),可以自主修訂和擴(kuò)展OFD標(biāo)準(zhǔn)。第二,長期可讀,長久保存。OFD使用通用開放壓縮標(biāo)準(zhǔn),其內(nèi)容和配置信息以XML保存,相比PDF、DOC等二進(jìn)制存儲格式更容易讀取和理解,有助于文件的長期可讀可用。第三,擴(kuò)展性強(qiáng),利于推廣。OFD的技術(shù)框架具有很強(qiáng)的可擴(kuò)展性,可以根據(jù)需要擴(kuò)充所包含的資源,支持公文語義等特色的行業(yè)應(yīng)用,有利于在各行業(yè)應(yīng)用和推廣。
1.3OFD在電子檔案管理中相關(guān)技術(shù)的應(yīng)用
OFD的技術(shù)特點(diǎn)使其在電子檔案管理領(lǐng)域有著巨大的應(yīng)用價值。作為國家標(biāo)準(zhǔn)版式文檔格式,OFD對于電子檔案管理尤為重要:提供了國內(nèi)各行業(yè)各領(lǐng)域電子文件歸檔保存所需的統(tǒng)一的版式文檔格式標(biāo)準(zhǔn);OFD不依賴于特定廠商或技術(shù)平臺,標(biāo)準(zhǔn)公開,有助于電子檔案長期可讀可用;OFD作為自主標(biāo)準(zhǔn),支持國產(chǎn)加密算法,有助于實(shí)現(xiàn)自主可控;OFD的多文檔、高壓縮等特性為電子檔案的存儲和利用提供了技術(shù)支撐。OFD可以在電子檔案管理中發(fā)揮如下作用。一是支持電子檔案元數(shù)據(jù)采集和存儲。OFD具有很強(qiáng)的元數(shù)據(jù)描述能力,可以在文件管理各個階段利用OFD的CustomDatas或Extentions來自定義擴(kuò)展文檔元數(shù)據(jù),在檔案管理階段可繼承前面各階段采集的元數(shù)據(jù),并根據(jù)檔案管理的需要對元數(shù)據(jù)進(jìn)行擴(kuò)展和補(bǔ)充。二是支持電子檔案信息包封裝和數(shù)據(jù)交換。在電子檔案的數(shù)據(jù)交換中,為維護(hù)其完整性一般會采用信息包的方式。OFD作為電子文件存儲和交換格式,采用ZIP壓縮打包,支持以數(shù)字簽名的方式對文檔內(nèi)容進(jìn)行真實(shí)性校驗(yàn),可有效支持電子檔案信息包的封裝和數(shù)據(jù)交換。三是支持電子檔案的長期保存。OFD對于檔案行業(yè)標(biāo)準(zhǔn)《版式電子文件長期保存格式需求》中的長期保存格式需求,如格式開放、不綁定軟硬件、文件自包含、格式自描述、顯示一致性、持續(xù)可解釋、穩(wěn)健、利于存儲、支持技術(shù)認(rèn)證機(jī)制、易于利用等要求具有較高的遵從性,是電子檔案長期保存格式的較好選擇。四是支持電子檔案的利用。OFD采用的壓縮打包技術(shù),比同內(nèi)容的DOC、PDF等格式文件體積更小,在線閱讀時加載速度更快,支持客戶端不留存副本等安全要求,可以靈活滿足電子檔案利用中的要求。
2OFD應(yīng)用的相關(guān)技術(shù)路線
新修訂檔案法明確要求“電子檔案應(yīng)當(dāng)來源可靠、程序規(guī)范、要素合規(guī)”。檔案館接收電子檔案進(jìn)館,是電子檔案管理中的一個重要環(huán)節(jié)。在接收環(huán)節(jié),“程序規(guī)范”是確保接收進(jìn)館電子檔案“來源可靠”和“要素合規(guī)”的關(guān)鍵。電子檔案是否以及如何遵守規(guī)范的程序要求,可以通過詳細(xì)的背景元數(shù)據(jù)和過程元數(shù)據(jù)來記錄和審計。本著這一思路,檔案館工作人員和系統(tǒng)技術(shù)開發(fā)人員共同研究分析,基于OFD的技術(shù)特點(diǎn)形成相應(yīng)解決方案。
2.1基于OFD實(shí)現(xiàn)信息封裝
電子檔案移交接收關(guān)系到檔案管理權(quán)責(zé)的轉(zhuǎn)移,為確保電子檔案在移交接收中的完整性和安全性,通常會對電子檔案的數(shù)據(jù)進(jìn)行打包封裝。OFD是一種采用ZIP壓縮的容器型的文件格式,具有數(shù)據(jù)打包封裝的能力。如果將OFD作為檔案信息的封裝格式,則可以充分利用OFD的數(shù)據(jù)打包封裝能力,使電子檔案的元數(shù)據(jù)和數(shù)字對象更緊密地結(jié)合,提升電子檔案在移交接收或長期保存中的完整性和安全性;同時,也會存在OFD封裝的檔案信息包相對復(fù)雜,其訪問和處理性能尚缺乏驗(yàn)證等問題。因此,可以針對不同的應(yīng)用需求,嘗試設(shè)計基于OFD的多種封裝結(jié)構(gòu)。第一種是電子檔案OFD封裝結(jié)構(gòu),以O(shè)FD來封裝單個電子檔案的元數(shù)據(jù)和數(shù)字對象,在“件”一級將電子檔案的元數(shù)據(jù)和多個數(shù)字對象合并成一個電子檔案OFD文件。第二種是接收過程記錄表單的OFD結(jié)構(gòu),除了記錄表單本身的內(nèi)容外,還基于OFD的信息封裝能力將接收的說明信息和校驗(yàn)信息作為附件嵌入OFD文件中。利用這兩種OFD封裝結(jié)構(gòu),確保電子檔案在移交接收中的完整性和安全性。
2.2結(jié)合OFD實(shí)現(xiàn)電子檔案真實(shí)性保障
依據(jù)《黨政機(jī)關(guān)電子公文處理工作辦法》《黨政機(jī)關(guān)電子公文歸檔規(guī)范》等法規(guī)政策及標(biāo)準(zhǔn)規(guī)范的要求,電子公文在歸檔時“應(yīng)當(dāng)去除電子印章的數(shù)字簽名信息,只保留印章圖形”。這樣,歸檔保存的電子公文中原有的基于電子印章的真實(shí)性驗(yàn)證技術(shù)機(jī)制將被去除,需要引入其他適合長期保存的真實(shí)性驗(yàn)證技術(shù)機(jī)制。檔案館在電子檔案移交接收工作中,結(jié)合OFD對上述需求進(jìn)行了技術(shù)實(shí)踐驗(yàn)證。一方面,遵照法規(guī)政策和標(biāo)準(zhǔn)規(guī)范的要求,去除了電子檔案的數(shù)字對象中的電子印章校驗(yàn),使電子印章圖像化。另一方面,系統(tǒng)對原始移交包中每份電子檔案的內(nèi)容文件等數(shù)字對象文件和XML格式的電子檔案元數(shù)據(jù)文件生成校驗(yàn)碼,并將校驗(yàn)碼集中保存到校驗(yàn)文件中,將校驗(yàn)文件作為附件保存在移交接收記錄表單的OFD文件中,并進(jìn)一步封裝進(jìn)入最終形成的移交信息包,移交接收雙方共同保存移交信息包,這樣就為雙方提供了移交接收過程的電子檔案真實(shí)性保障機(jī)制。
2.3移交接收過程電子檔案管理元數(shù)據(jù)的捕獲和保存
電子檔案移交接收過程中產(chǎn)生的元數(shù)據(jù)信息是電子檔案元數(shù)據(jù)的重要組成部分,有必要予以捕獲和進(jìn)行記錄。但是,如果直接將這些元數(shù)據(jù)保存到原始移交包的電子檔案元數(shù)據(jù)XML文件中,則會因?yàn)閄ML文件的內(nèi)容變動而導(dǎo)致該文件的校驗(yàn)信息失效,使電子檔案的真實(shí)性產(chǎn)生瑕疵。可以有效利用OFD的封裝能力,將移交接收過程產(chǎn)生的元數(shù)據(jù)保存在OFD格式的移交接收過程記錄表單中,并進(jìn)一步將該記錄表單保存到移交信息包中。利用OFD的封裝能力,將移交接收環(huán)節(jié)產(chǎn)生的元數(shù)據(jù)完整記錄下來。這樣可以在捕獲和保存移交接收過程產(chǎn)生的元數(shù)據(jù)的同時,不會破壞原始移交包中原有電子檔案元數(shù)據(jù)XML文件校驗(yàn)信息的有效性,從而移交單位提交的電子檔案真實(shí)性校驗(yàn)也得以保留。
2.4結(jié)合OFD實(shí)現(xiàn)文本識別和全文檢索
檔案館在電子檔案移交接收實(shí)際工作中,除了從移交單位接收原生的電子文件之外,也會接收到傳統(tǒng)載體紙質(zhì)檔案的數(shù)字化復(fù)制件。紙質(zhì)檔案的數(shù)字化復(fù)制件通常采用JPG、TIF等光柵圖像格式,也有部分采用由圖像直接生成的單層PDF文件格式。在這些文件格式之中,圖像上的文字內(nèi)容無法直接讀取和檢索??梢越Y(jié)合采用的專業(yè)級OFDConvertor轉(zhuǎn)換引擎,在OFD轉(zhuǎn)換功能中集成OCR文字識別功能,對圖像進(jìn)行OCR識別,將圖像中的文字內(nèi)容識別出來,然后將識別出的文字內(nèi)容嵌入OFD文件中,形成識別文字+掃描圖像的雙層內(nèi)容,再加上檔案元數(shù)據(jù)所形成的元數(shù)據(jù)層內(nèi)容,就形成了檔案的三層OFD文件格式。采用三層OFD文件格式的檔案,可以實(shí)現(xiàn)檔案元數(shù)據(jù)和檔案數(shù)字對象的緊密結(jié)合而有助于檔案的完整保存,可以精確、直觀地展示檔案的視覺內(nèi)容,有助于檔案的可讀可用,還可以結(jié)合全文檢索引擎進(jìn)一步實(shí)現(xiàn)對檔案內(nèi)容文字和檔案元數(shù)據(jù)項(xiàng)的全文檢索,有助于充分挖掘檔案的信息利用價值。
3OFD在電子檔案移交接收環(huán)節(jié)的實(shí)現(xiàn)
天津市檔案館主要通過移交數(shù)據(jù)包交換方式進(jìn)行電子檔案移交接收,先后制定了一系列相關(guān)標(biāo)準(zhǔn)規(guī)范,包括《天津市文書類電子文件元數(shù)據(jù)規(guī)范》《天津市文書類電子文件數(shù)據(jù)存儲結(jié)構(gòu)規(guī)范》《文書檔案目錄數(shù)據(jù)庫結(jié)構(gòu)與數(shù)據(jù)交換格式》等,對電子檔案移交接收中的信息組織方式、存儲結(jié)構(gòu)及其基于XML數(shù)據(jù)體描述的規(guī)則和方法等進(jìn)行了規(guī)定。針對OFD國家標(biāo)準(zhǔn)的應(yīng)用,我們在國家相關(guān)標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上,對移交接收流程進(jìn)行了優(yōu)化設(shè)計,充分利用OFD文檔自身功能,實(shí)現(xiàn)OFD版式格式在電子檔案移交接收流程中的應(yīng)用。
3.1確定了原始移交信息包的組織單元、存儲結(jié)構(gòu)和內(nèi)容組成
為簡化整個移交接收流程,規(guī)定了原始移交包以年度為單位,以文件夾形式存儲。原始移交包中要求包含目錄文件的文檔結(jié)構(gòu)描述文件(schema-list.xsd),用于對原始移交包的目錄文件(List.xml)進(jìn)行校驗(yàn),確保包中的檔案目錄數(shù)據(jù)合規(guī);接收系統(tǒng)在原始移交包信息的基礎(chǔ)上自動生成包說明文件(說明文件.txt),并對原始移交包中檔案文件夾下的所有數(shù)字對象逐個生成校驗(yàn)信息,形成校驗(yàn)碼文件(校驗(yàn)碼.txt),存放到原始移交包內(nèi);由接收系統(tǒng)自動形成《電子檔案移交接收登記表》。
3.2生成結(jié)構(gòu)內(nèi)容豐富的OFD文檔
《電子檔案移交接收登記表》轉(zhuǎn)換成OFD版式文檔的同時,將移交接收過程相關(guān)描述信息(主要是《電子檔案移交接收登記表》中的信息)、“四性檢測”結(jié)果信息,分別轉(zhuǎn)換成XML文檔,存儲到“電子檔案移交接收登記表.OFD”文檔中。該文檔可以達(dá)到不依賴特定系統(tǒng)對該批次電子檔案移交接收過程進(jìn)行自描述的效果。再由電子檔案接收管理系統(tǒng)提供的OFD格式批量轉(zhuǎn)換功能,對每份檔案對應(yīng)的文件夾目錄下的所有數(shù)字對象,包括檔案的辦文單、修改稿、定稿、正文等,全部轉(zhuǎn)換合并成一個OFD文件。同時將這份檔案元數(shù)據(jù)的“文件元數(shù)據(jù).XML”也封裝到同一OFD文檔中,并采用檔號對此OFD文件命名,形成“檔號.OFD”文件。這些數(shù)字對象,在“檔號.OFD”文件里不再是獨(dú)立的組成部分,而是成了OFD文件內(nèi)Pages元素下的各個頁面。在后續(xù)的電子檔案移交接收工作實(shí)踐中,上述OFD封裝結(jié)構(gòu)性能穩(wěn)定,取得了預(yù)期的效果。
3.3形成移交接收雙方認(rèn)可的移交信息包
完成上述OFD格式轉(zhuǎn)換、封裝后,系統(tǒng)將“檔號.OFD文件”、原始移交包的目錄文件、說明文件、“其他”文件夾下的校驗(yàn)文件等打包,生成轉(zhuǎn)換移交包。檔案館把原始移交包、轉(zhuǎn)換移交包和包含移交過程信息的“電子檔案移交接收登記表.OFD”打包,形成移交單位和檔案館雙方認(rèn)可的、包含移交數(shù)據(jù)和移交過程記錄的完整移交信息包(SIP包)。SIP包返還給移交單位并要求保存5年以上。
4OFD后續(xù)研究及應(yīng)用展望
當(dāng)前,適用于長期保存的OFD/A標(biāo)準(zhǔn)正在制定之中,對于OFD在電子檔案管理中的應(yīng)用仍有許多地方需要進(jìn)一步研究和探討。下一步,我們和相關(guān)技術(shù)開發(fā)公司將密切關(guān)注OFD/A格式國家標(biāo)準(zhǔn)的制定和,結(jié)合OFD/A格式的特性,進(jìn)一步探索OFD在電子檔案管理中更多的應(yīng)用場景和更深入的應(yīng)用方式。如,基于OFD/A格式的部分簽名和多版本元數(shù)據(jù)特性,實(shí)現(xiàn)電子檔案移交接收、長期保存等管理過程元數(shù)據(jù)的多次寫入,同時不影響前面階段的數(shù)據(jù)真實(shí)性的驗(yàn)證。又如,基于OFD/A格式的自包含、自描述和校驗(yàn)?zāi)芰?,通過獨(dú)立的OFD文件實(shí)現(xiàn)電子檔案不依賴于特定應(yīng)用系統(tǒng)的長期保存,滿足電子檔案的真實(shí)性、完整性、可用性和安全性要求。
參考文獻(xiàn):
[1]劉越男.新檔案法中電子檔案的法定要求[N].中國檔案報,2020-08-06(1).
[2]高林,李海波,叢培勇,王寒冰.OFD版式文檔國家標(biāo)準(zhǔn)解讀[J].信息技術(shù)與標(biāo)準(zhǔn)化,2016(10):42-44.
作者:仇偉海 王靚 袁嘉新 單位:天津市檔案館 上海信聯(lián)信息發(fā)展股份有限公司