數(shù)字資源保存探討論文

時間:2022-03-15 03:56:00

導(dǎo)語:數(shù)字資源保存探討論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)字資源保存探討論文

1引言

隨著數(shù)字信息的激增、數(shù)字化環(huán)境的形成,廣大用戶日益依賴數(shù)字資源和網(wǎng)絡(luò)化服務(wù)。數(shù)字資源長期保存日益受到重視,是一個新的復(fù)雜的問題。我國在這方面尚處于起步階段,而在歐美、澳大利亞等國家,數(shù)字資源長期戰(zhàn)略保存方面的研究和應(yīng)用已經(jīng)取得長足進展,一些國家已經(jīng)開始應(yīng)用性部署,積累了大量的知識和經(jīng)驗。2004年7月在北京召開的“中歐數(shù)字資源長期保存國際研討會”對于推動我國數(shù)字資源長期保存的研究和應(yīng)用,具有重要意義。

2數(shù)字資源長期保存的關(guān)鍵問題分析

2.1標準問題

數(shù)字信息的長期保存主要涉及到兩個方面,一是防止數(shù)字信息被非法變更與破壞,另一個是維護數(shù)字信息的長期真實可讀。前者,IT界極為重視,國內(nèi)外已開發(fā)了不少技術(shù)產(chǎn)品來防范非法變更與破壞數(shù)字信息,只要技術(shù)措施與管理手段科學(xué)地融合,就有可能在一定程度上解決問題。然而,對于維護數(shù)字信息長期有效讀出,全球范圍都在研究與努力,但至今仍在探索完美的解決方案。因為,它涉及的問題太多,其中最重要的是標準問題。標準是緩解技術(shù)更新與數(shù)字信息讀出矛盾的一劑良方,但在這方面存在一些問題,一是某些標準,特別是行業(yè)標準嚴重滯后;二是完全按照標準操作,目前還有難度。制定標準應(yīng)當廣泛地征求相關(guān)技術(shù)人員與管理人員的意見,但現(xiàn)在有些行業(yè)標準的制定,僅僅是少數(shù)人在撰寫,有些甚至是閉門造車,使指導(dǎo)與規(guī)范大家行為的標準嚴重滯后于國際發(fā)展水平。三是現(xiàn)實工作中存在標準兼容與選擇的問題,如甲軟件與乙軟件都是符合標準的,但甲與乙又各有特點,這個特點就不在標準范圍之內(nèi)了,這為我們提出了一個棘手的問題,我們應(yīng)當以哪個軟件為主。如果以甲軟件為主,則乙軟件形成的非標準數(shù)據(jù),或另類標準特色信息就要向甲軟件形成的平臺上遷移。因此,作為被保存的數(shù)字信息應(yīng)當采用最穩(wěn)定的技術(shù)與通用的標準歸檔,與相關(guān)行業(yè)標準及國際標準相互兼容,這也是我們首先應(yīng)考慮解決的問題。

在數(shù)字資源長期保存中,標準化試圖以某一為公共接受的標準來進行數(shù)字資源的存儲、描述、組織與檢索,其中OAIS參考模型是一項重要內(nèi)容。OAIS是由美國國家航空和航天局與美國太空數(shù)據(jù)系統(tǒng)委員會(CCSDS)聯(lián)合制定的標準,規(guī)定了數(shù)字資源長期保存的術(shù)語、概念和參考框架,確定了一個存檔系統(tǒng)的基本功能,提出了一個管理數(shù)字對象和信息包的信息模型。在一致性方面起了很重要的作用,并逐漸成了眾多存儲項目遵循的標準,被廣泛的用于開發(fā)保存工具和存儲系統(tǒng)。

2.2管理問題

在數(shù)字資源長期保存中,管理是從整體上進行宏觀規(guī)劃、組織和控制,是數(shù)字資源長期保存的基礎(chǔ)與保障。內(nèi)容主要包括:保存政策、責任體系及合作機制、知識產(chǎn)權(quán)等。保存政策是有效實施數(shù)字資源長期保存的管理上的保證,內(nèi)容應(yīng)該涉及技術(shù)、組織、人文、法律、權(quán)益管理等方面,還應(yīng)該包括國際國內(nèi)合作、商業(yè)運作、相關(guān)者培訓(xùn)、質(zhì)量管理和審計策略等內(nèi)容。對于保存目標,許多專家認為基本的選擇標準是首先保存那些容易丟失的、與未來有關(guān)聯(lián)的、有重要價值的數(shù)字資源,保存重要的科學(xué)數(shù)據(jù),特別是“原始數(shù)據(jù)”。數(shù)字資源長期保存不僅僅是圖書館、檔案館、博物館等文獻機構(gòu)的職責,內(nèi)容創(chuàng)造者、出版商等也應(yīng)當承擔相應(yīng)的責任。為了有效實施長期保存,需要數(shù)字對象生產(chǎn)者(如科學(xué)家)、提供者(如圖書館)、傳播者(如出版商、網(wǎng)站)等之間相互合作,需要圖書館之間相互合作,需要國家、國際層面上的合作。另外,數(shù)字資源長期保存中還面臨一些法律問題,在制定數(shù)字資源長期保存策略時不僅要考慮版權(quán)法,而且還要考慮相應(yīng)軟件版權(quán)保護問題。目前數(shù)字資源所有者主要通過許可方式授權(quán)合法用戶使用數(shù)字資源。如果我們希望長期保存這些數(shù)字資源,就應(yīng)當在協(xié)議中增加“永久保存”條款。進行數(shù)字資源的長期保存,如果未獲得版權(quán)所有者的許可,也沒有法律“合理使用”、“法定許可”等條款的支持,就很容易觸犯知識產(chǎn)權(quán)法。如何能有效地解決這些問題,還有待于進一步研究。

一種值得推薦的管理模式是合作管理。其功能主要體現(xiàn)在:首先,有助于從長期保存協(xié)作網(wǎng)整體上協(xié)調(diào)組織,形成數(shù)字資源長期保存布局的合理性。具體來說,在學(xué)科內(nèi)容上,避免出現(xiàn)不必要的重復(fù)保存,避免因信息缺乏造成某些內(nèi)容方面的遺漏;在地理分布上,避免造成服務(wù)提供的死角;在經(jīng)濟和技術(shù)保障力度上,避免長期保存責任者與數(shù)字資源對象組配的失誤等。其次,借鑒以往和他人的相關(guān)經(jīng)驗和教訓(xùn),盡可能使自己在長期保存決策制定和方案實施中避免某些失誤。第三,展示數(shù)字資源發(fā)展現(xiàn)狀與動態(tài)、長期保存發(fā)展現(xiàn)狀與動態(tài),幫助管理協(xié)調(diào)者、具體責任者等進行對策研究和制定等。合作管理的這些功能,主要是通過數(shù)字資源管理流程來實現(xiàn)。

2.3數(shù)字資源存儲介質(zhì)的選擇問題

數(shù)字媒介的倍增性使信息時代的數(shù)據(jù)量成倍增長,而數(shù)字媒介的高創(chuàng)新性卻使信息技術(shù)日新月異,各種大容量的存儲介質(zhì)不斷涌現(xiàn)。這使得數(shù)字信息存儲的熱點將不再是技術(shù)本身,而是如何選擇存儲介質(zhì)高效地對存儲資源進行管理。存儲媒體的好壞是影響數(shù)字信息長期存取的一大因素。因此要保證數(shù)字信息的長期存取,就必然涉及到存儲媒體的選擇問題。

目前,我國僅有一個國家標準《電子文件歸檔與電子檔案管理規(guī)范》對長期歸檔保存的文獻媒體選擇進行了推薦,“本標準推薦采用的媒體,按優(yōu)先順序分別是;只讀式光盤、一次寫入光盤、硬磁盤、可擦式光盤等。禁正使用軟盤作為歸檔電子文件長期保存的媒體”。除這一標準外,國內(nèi)尚無其他有關(guān)數(shù)字存儲媒體選擇的推薦意見。然而,這一標準僅僅只是對長期歸檔保存的數(shù)字對象的媒體選擇進行了推薦,對廣大數(shù)字信息產(chǎn)生部門和文獻保存部門保存各類數(shù)字信息資源的媒體選擇尚無參考意見。而且在現(xiàn)實工作中,存儲媒體種類紛繁、標準不一的現(xiàn)象較為嚴重,存儲媒體的質(zhì)量也難以保證,這勢必影響到數(shù)字信息的保存與有效讀取。

選擇數(shù)字信息存儲媒體時需要考慮多種因素,如相關(guān)的國際、國家標準或推薦意見、數(shù)字信息的生命周期(產(chǎn)生、利用、歸檔、刪除或永久性歸檔保存)、存儲媒體的自身因素(媒體壽命、存儲容量、系統(tǒng)獨立性、成本)、部門的具體情況(如保存目的、效益、經(jīng)濟承受能力)。筆者認為,媒體選擇標準不是絕對的,機構(gòu)在選擇存儲介質(zhì)時,既要考慮到符合標準的數(shù)據(jù)保存要求,也要權(quán)衡自身的經(jīng)濟承受能力?;谝陨峡紤]因素,參照1999年澳大利亞維多利亞洲政府頒布的有關(guān)數(shù)字介質(zhì)選擇的指南,提出如下參考選擇方案:

(1)直接存儲器介質(zhì)直接存儲器介質(zhì)是數(shù)據(jù)產(chǎn)生后直接進行記錄的介質(zhì)。這類介質(zhì)極多,應(yīng)視數(shù)據(jù)重要程度的不同加以選用。對于重要業(yè)務(wù)數(shù)據(jù),5.25英寸的MO光盤,記錄數(shù)據(jù)比較穩(wěn)定,更適于作為這類重要數(shù)據(jù)的存儲介質(zhì)。目前,我國金融、保險、電信與政府部門等廣泛使用MO光盤庫進行重要數(shù)據(jù)的存儲。WORM光盤適于數(shù)據(jù)量不大的記錄的錄入,WORM磁帶適于數(shù)據(jù)量很大的記錄的寫入。對于普通業(yè)務(wù)數(shù)據(jù),硬盤、MO盤都可以作為記錄介質(zhì)。

(2)備份介質(zhì)對于海量數(shù)據(jù)備份介質(zhì),磁帶存儲技術(shù)是一種安全、可靠、易使用和相對投資小的備份方式,其容量大,可以在相對比較短的時間內(nèi)備份大容量的數(shù)據(jù),并可十分簡單地對原有系統(tǒng)進行恢復(fù),因而磁帶是備份大容量數(shù)據(jù)的理想介質(zhì)。對于數(shù)據(jù)量較小的文件備份,自動光盤機、自動光盤庫以及硬盤等存儲設(shè)備都可用來備份數(shù)據(jù)量較小的、訪問頻率較高的文件。與硬盤備份相比較,光盤能提供比較經(jīng)濟的存儲解決方案,并且容量相對較小。備份大容量數(shù)據(jù)時,所需的光盤數(shù)量極大,將增加存儲費用與管理難度?;顒佑脖P作為備份介質(zhì)使用的較多,它比光盤具有更多的有利于活躍數(shù)據(jù)的讀寫的優(yōu)勢,如讀取數(shù)據(jù)更快等。我國軍隊、金融等幾個較大的需要保密的行業(yè),對于重要的核心數(shù)據(jù)均使用可移動硬盤備份??梢苿佑脖P易丟失數(shù)據(jù)的弱點使它不能用作長期存儲數(shù)據(jù)的介質(zhì),只適合于備份當前重要數(shù)據(jù),并短期保存。對于檔案數(shù)據(jù)的備份,可考慮使用WORM磁帶或WORM光盤。對于部門數(shù)據(jù)的歸檔備份介質(zhì),MO光盤、CD-ROH光盤以及可擦寫磁帶都可以考慮。(3)檔案數(shù)據(jù)存儲介質(zhì)WORM盤、WORM磁帶都可以考慮作為檔案數(shù)據(jù)存儲介質(zhì)。

(4)用于數(shù)據(jù)交換的臨時存儲介質(zhì)一般說來,軟盤具有廣泛的通用性和便于攜帶的特點,可作為普通計算機用戶交換數(shù)據(jù)的介質(zhì),但其不穩(wěn)定性,不適于作為重要數(shù)據(jù)的交換介質(zhì)。相對而言,CD-ROM、活動硬盤以及U盤等更合適。

2.4數(shù)字資源長期保存的關(guān)鍵技術(shù)問題

對于數(shù)字資源,必須采取積極的維護和保存措施,否則等到媒體開始老化或技術(shù)已被淘汰再去恢復(fù)將為時已晚,造成的損失也是不可估量的。保證數(shù)字信息的長期讀取涉及到很多方面,既有技術(shù)因素,也有非技術(shù)的,如政策、標準、資金、人員、管理等等。但最重要的還是要有一整套保存數(shù)字信息的關(guān)鍵技術(shù)。目前常用的保存數(shù)字信息的關(guān)鍵技術(shù)方法主要有:

(1)遷移(Migration)遷移是目前實際運行中使用比較成熟和頻繁的方法。為保證當前存儲的數(shù)字信息總能被當前系統(tǒng)讀取,采用數(shù)據(jù)“遷移”的方法,持續(xù)地將數(shù)字信息從舊的軟硬件環(huán)境轉(zhuǎn)換到新的計算機環(huán)境,是一種隨著技術(shù)變化定期改變信息格式的處理過程。例如,把Wordstar文件轉(zhuǎn)移到WordPerfect格式,再依次遷移到Word3.0、word5.0、word97、word2000、word2003格式,這樣隨著軟件版本的新不斷地進行遷移。遷移主要有兩種情況,一是把數(shù)字信息從種類繁多的格式下遷移到當前廣泛使用的幾個標準格式中。二是將數(shù)字信息從穩(wěn)定性低的媒體遷移到穩(wěn)定性更高的媒體上,從對軟硬件環(huán)境依賴強的格式遷移到對軟硬件環(huán)境依賴程度低的格式下。但在遷移中可能會破壞文件的原貌、格式、結(jié)構(gòu)、甚至是內(nèi)容,所以在遷移過程中要格外小心。

(2)仿真(Emulation)仿真與遷移都是為了解決數(shù)字信息的讀取問題,但與遷移不同,它不是著眼于信息的格式,而是關(guān)注讀取信息的應(yīng)用軟件環(huán)境。所謂仿真就是制作一個仿真器,模仿數(shù)字信息產(chǎn)生時的軟硬件環(huán)境,使數(shù)字信息能夠以原始狀態(tài)重現(xiàn),而不管現(xiàn)在的技術(shù)環(huán)境如何。仿真法不僅能使在過時系統(tǒng)上形成的數(shù)字信息以原始面貌(初始格式、版面與內(nèi)容等)顯示出來,其功能性也隨之得到保護。因而仿真引起了人們的重視,它有助于保護、辨認那些極大依賴特殊硬件與軟件而又無法在新、舊技術(shù)平臺間進行遷移的數(shù)字信息等(如超文本、多媒體等復(fù)雜文件)。仿真被視為理想的保存策略,但由于其技術(shù)的復(fù)雜性,仿真還處于研究和試驗階段,沒有真正的可操作的系統(tǒng)能投入使用。

(3)數(shù)據(jù)再造(Resume,數(shù)據(jù)恢復(fù)或數(shù)據(jù)考古)是從原始的字節(jié)流中恢復(fù)數(shù)字資源的原貌,并保證數(shù)據(jù)資源的可讀性和可用性。數(shù)據(jù)恢復(fù)包括數(shù)據(jù)災(zāi)難恢復(fù)、數(shù)據(jù)格式恢復(fù)等。數(shù)據(jù)恢復(fù)是具有技術(shù)挑戰(zhàn)的技術(shù)方法,值得注意的是,如果已經(jīng)無法獲取數(shù)字資源的原貌,就無法評估數(shù)據(jù)恢復(fù)的成果。因此在正常的圖書館數(shù)字資源保存過程中,不贊成使用這種方法作為長期保存的技術(shù)方法,而是采用更為實際的運作方法。該方法僅在其長期保存方法無法發(fā)揮作用時使用??傊?,確定某種方案是否適用,需要充分考慮它的可行性、可持續(xù)性、實用性和合理性。

2.5數(shù)字信息的安全問題

數(shù)字信息日益增多,較易受到干擾和攻擊,給數(shù)字信息長期保存帶來嚴峻的安全問題。具體實施數(shù)字信息安全管理可從以下五個方面著手。

(1)采用社會法律、法規(guī)手段,建立安全管理標準和規(guī)則。(2)加強用戶認證。用戶認證在數(shù)字信息的安全中屬于技術(shù)措施的第一道大門,主要目的是提供訪問控制和不可抵賴的作用。用戶認證方法按其層次不同可以根據(jù)用戶持有的證件、用戶密碼、用戶特有的生物特征三種因素提供認證。(3)授權(quán),這主要為特許用戶提供合適的訪問權(quán)限,并監(jiān)控用戶的活動,使其不越權(quán)使用。(4)加密,加密是信息安全應(yīng)用中最早開展的有效手段之一,數(shù)據(jù)通過加密可以保證在存取與傳送的過程中不被非法查看、篡改、竊取等。(5)審計、監(jiān)控和數(shù)據(jù)備份。保證數(shù)字信息的安全,重要的是國家或部門應(yīng)當制定一個備份機制與規(guī)范,對記錄的備份規(guī)范時間要求、格式要求與份數(shù)要求予以規(guī)范,并給予財力的支持。備份規(guī)范也要考慮不同的工作環(huán)境,例如信息中心就應(yīng)當要求進行時時備份,以防當前數(shù)據(jù)的丟失。對于數(shù)字記錄保存部門,應(yīng)當規(guī)定定期備份。

3結(jié)語

數(shù)字媒介的高滲透性、高倍增性、高創(chuàng)新性與高帶動性具有無比的能量,是促進信息資源管理與時俱進的激活劑。它不斷地向信息資源管理領(lǐng)域提出新問題,刻不容緩地迫使我們思考與變革。數(shù)字資源長期保存就是其中的一個非常重要的問題。我們對其關(guān)鍵問題進行思考,目的在于了解數(shù)字資源長期保存的理論知識、技術(shù)知識以及實踐經(jīng)驗,掌握國際上大量有價值的信息及信息源,促進我國相關(guān)領(lǐng)域數(shù)字資源長期保存意識的提高及數(shù)字資源長期保存工作的開展。