軟件對電子文件格式影響論文

時間:2022-09-13 08:42:00

導(dǎo)語:軟件對電子文件格式影響論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

軟件對電子文件格式影響論文

【內(nèi)容提要】開源軟件運(yùn)動由志愿者發(fā)起,已經(jīng)在計(jì)算機(jī)軟件界形成一種潮流。電子文件格式的源代碼公開,有利于增強(qiáng)文件格式的適用性和可靠性,有利于減少信息丟失風(fēng)險(xiǎn)和降低保存費(fèi)用。本文分析了兩種主流的文件格式PDF和DjVu和國外的其他一些文件格式,在文件流通和文件保存兩個環(huán)節(jié)比較了它們那各自的特點(diǎn)和在開源運(yùn)動中所處的地位。在此基礎(chǔ)上,本文指出支持開源程度將成為今后選用電子文件格式的主要考慮因素。

【關(guān)鍵詞】開源軟件/電子文件/文件格式選用

1.引言

本文所述的電子文件,指在文件管理體系中起到傳送、鑒定和保存作用的以頁面形式顯示的數(shù)字文件。電子文件廣泛應(yīng)用于圖書出版、檔案管理、電子商務(wù)、電子政務(wù)等領(lǐng)域。目前,普遍接受的兩種的電子文件格式是PDF和DiVu。PDF(PortableDocumentFormat,便攜式文檔格式)是由Adobe公司開發(fā)的格式。DjVu格式是由AT&T實(shí)驗(yàn)室開發(fā)的格式。從實(shí)現(xiàn)上來說,PDF和DjVu分別是有代表性的基于圖形的格式和基于圖像的格式。常見的電子文件格式還有微軟的CHM和LIT、華康WDL、方正CEB、超星PDG、書生SEP等。

字處理文件格式有時也起到電子文件的作用,如RTF、微軟DOC、金山WPS等;擴(kuò)展標(biāo)記語言XML經(jīng)常用于信息的共享和交換,在附加樣式單或經(jīng)過轉(zhuǎn)換后也能夠以頁面形式顯示。因?yàn)槭褂盟鼈兊闹饕绞接兴煌?,本文的討論將不涉及這些格式。

開源軟件的歷史不長,但是已經(jīng)形成了一種潮流。開源軟件對電子文件管理產(chǎn)生了顯著的影響。向大眾開放文件格式的源代碼(包括讀寫、轉(zhuǎn)換、加密等),有利于這種格式增強(qiáng)適用性和可靠性,有利于這種文件格式獲得廣泛接收。選用開源的文件格式有助于文件的長期保存,減少信息丟失的風(fēng)險(xiǎn)。

本文以PDF和DjVu為研究對象,對照國外的其他一些格式,從文件流通和文件保存兩個方面比較它們各自的特點(diǎn)和在開源軟件運(yùn)動中所處的地位。本文指出支持開源的程度,將成為今后用戶選用電子文件格式時的考慮的主要因素。

第2節(jié)分析文件格式的開源情況。第3節(jié)和第4節(jié)分別討論開源軟件對文件流通和文件保存環(huán)節(jié)的影響。第5節(jié)是對其他國外格式的一個簡單調(diào)查。第6節(jié)是結(jié)論。

2.開源情況

開源軟件(OpenSourceSoftware),也稱為自由軟件(FreeSoftware),其中的“Free”指自由地使用、學(xué)習(xí)、修改和分享軟件。分享開源軟件的自由意味著人們可以使用和翻譯這些軟件而不用支付任何費(fèi)用。有些可以免費(fèi)使用的軟件,如共享軟件(shareware)和免費(fèi)軟件(freeware),不能被用來研究、修改和分享,所以不是開源軟件。

開源軟件由一些志愿者發(fā)起,已經(jīng)開發(fā)出了OS、GUI以及大量的應(yīng)用程序。Linux是開源軟件的典型代表,在質(zhì)量、外觀和健壯性上都能與私有軟件(如Windows)媲美。著名的開源軟件社區(qū)有SourceForge()等。像IBM和Sun這樣的大型計(jì)算機(jī)公司也支持和開發(fā)開源軟件。

越來越多的歐美地區(qū)的管理部門已經(jīng)制定或正在制定提倡使用開源軟件代替私有系統(tǒng)的政策。這不僅使它們不再依賴于商業(yè)軟件供應(yīng)商,而且也幫助扶持了自己的軟件開發(fā)產(chǎn)業(yè)。由于開源軟件成為潮流,而且質(zhì)量上乘,許多政府選擇開源軟件進(jìn)行本地化,為政府信息化服務(wù)。

PDF是商業(yè)公司開發(fā)的一種文件格式,已經(jīng)有很長的歷史。PDF的規(guī)范是公開的,如最新的PDF1.5規(guī)范可以網(wǎng)上免費(fèi)獲取。Adobe公司的電子文檔閱讀器AcrobatReader是免費(fèi)的。但是,處理PDF文件的主要應(yīng)用軟件Acrobat、Distiller、Designer等是商業(yè)軟件,價格比較昂貴。

由于PDF格式非常復(fù)雜,特別是使用了對象技術(shù),開發(fā)PDF應(yīng)用是一項(xiàng)復(fù)雜的工作。KPDF是Unix/Linux的第三方閱讀器。一些免費(fèi)的PDF庫,如PDFlib和xpdf,是二進(jìn)制的,而且功能不夠完整。這就形成了一個技術(shù)壁壘。國內(nèi)只有很少的商業(yè)公司有能力開發(fā)PDF應(yīng)用軟件。

近年來,隨著開源運(yùn)動的發(fā)展,出現(xiàn)了很多開源的PDF項(xiàng)目。其中,規(guī)模較大的是iText,它是一個由Java編寫的開源的PDF庫,帶有簡單的GUI。同時,這個項(xiàng)目組用C#編寫了iTextSharp,供平臺上的用戶使用。iText對PDF的讀寫提供了全面的支持。

比較而言,DjVu最初是由實(shí)驗(yàn)室開發(fā)的,設(shè)計(jì)的出發(fā)點(diǎn)就支持開源。DjVu的主要資源網(wǎng)站有等。DjVu的參考庫包含了由C++編寫的解碼程序和部分編碼程序,其中解碼程序具有基于Qt技術(shù)的GUI以及NS瀏覽器插件,編碼程序是一些命令行子程序。另外,Windows平臺上開源項(xiàng)目WinDjView是一個小巧的DjVu閱讀器,功能較完善,并提供VisualC++的源代碼。

AT&T實(shí)驗(yàn)室把DjVu的商業(yè)開發(fā)權(quán)利轉(zhuǎn)讓給了LizardTech公司()。LizardTech的主要DjVu產(chǎn)品有免費(fèi)DjVuSolo,收費(fèi)的DocumentExpressEditor和DocumentExpressEnterprise。DjVuSolo支持由圖像制作單個DjVu文件。DocumentExpressEnterprise是一個工作流式的制作工具,目前最新的版本是5.1。它能夠從圖像文件或PDF/PS文件批量制作DjVu文件。另外,它支持中英文的OCR,以及添加數(shù)字水印。

3.文件流通

電子文件的流通,是指電子文件在機(jī)構(gòu)業(yè)務(wù)活動中的發(fā)文、文件流轉(zhuǎn)和收文等過程。在電子文件的生命周期中,文件的流通是很重要的環(huán)節(jié)。在現(xiàn)實(shí)中,各機(jī)構(gòu)使用的平臺和軟件多種對樣。如果發(fā)送方與接收方的軟件不兼容,那么即使文件傳送成功,接收方也未必能讀取信息,為此,需要選擇一種通用的文檔格式,使電子文件能實(shí)現(xiàn)無障礙流通。

PDF文檔由一系列的頁面組成,每幅頁面都包括正文、字形、邊緣、版面、圖形和背景等數(shù)據(jù)。PDF文件能夠在各種軟件中生成,并保留原有文件的內(nèi)容和外觀。PDF文檔顯示風(fēng)格一致,能夠滿足政府、法律、財(cái)經(jīng)和IT等行業(yè)對于文檔或表單的嚴(yán)格規(guī)范要求。

PDF支持動態(tài)表單系統(tǒng),提供加注釋標(biāo)記或數(shù)字簽章的功能,為文件收發(fā)雙方針對電子文件的交互流動提供了可能,適用于機(jī)構(gòu)內(nèi)部公文呈轉(zhuǎn)或在線交易。PDF提供不同級別的安全控制,有利于文件的安全管理。PDF提供比較、鑒定工具,有利于確認(rèn)文件的真實(shí)性、完整性。不過,這些功能只有Adobe的軟件才能很好地支持。

DjVu格式將圖像分為背景層(紋理和圖片)、前景層(文本和線條)和掩碼層(形狀庫)。DjVu用高分辨率來還原文字,從而最大限度地提高可辨性;同時用較低的分辨率來壓縮背景圖片,從而使整個圖像的質(zhì)量得到了保證。DjVu采用分層顯示,而不是等到整幅圖片都被解碼之后才顯示,使得圖片顯示的速度有很大提高。

DjVu具有與PDF類似的超鏈接、注釋、元數(shù)據(jù)功能。DjVu的前景層能夠被OCR識別,識別的結(jié)果被插入到可搜索的隱藏文本層中。目前,OCR引擎沒有包含在DjVu的開源代碼中。由于尚缺乏中文OCR的開源代碼,這將成為DjVu進(jìn)入中文市場的一個不利因素。

DjVu格式能夠與數(shù)字水印系統(tǒng)相結(jié)合,保證數(shù)字文件的真實(shí)性和在網(wǎng)絡(luò)上被合法使用??梢詫⒁粋€標(biāo)識圖像與宿主圖像數(shù)據(jù)進(jìn)行疊加,形成帶可見水印的圖像,或者將一個特定的序列號經(jīng)過加密算法嵌入宿主圖像數(shù)據(jù)得到不可見水印。

開源對文件的流通和使用有下面兩個方面的影響:

(1)適用性。開源軟件能夠按照具體的業(yè)務(wù)需求進(jìn)行定制或進(jìn)行有效的二次開發(fā)。Adobe公司并沒有提供PDF的開源代碼,因此相當(dāng)長時期內(nèi)PDF的定制就顯得非常困難。需要指出的是,DjVu的開源代碼數(shù)學(xué)性很強(qiáng),修改起來并不容易。DjVu代碼的可讀性和可修改性都有提高的必要。

(2)可靠性。源代碼對于理解文件格式的工作原理和修補(bǔ)文件格式的錯誤是很重要的。PDF是一種復(fù)雜的結(jié)構(gòu)化文件格式,有理由對它的安全漏洞和“后門”問題給予更多的關(guān)注,特別是在敏感的應(yīng)用場合。國內(nèi)用戶有時更愿意選擇類似PDF的國產(chǎn)格式,如方正CEB等。

4.文件保存

電子文件格式的選

擇對保證數(shù)字信息的可讀性起到關(guān)鍵的作用。產(chǎn)生電子文件的部門處于不同的領(lǐng)域、有不同的事務(wù)處理需求,在工作中產(chǎn)生了各種各樣格式的文件。軟件開發(fā)商有針對性,很少考慮到文件格式的長期保存能力。為了使各種數(shù)字文件信息能夠在將來繼續(xù)被利用,必須在繁多的文件格式中進(jìn)行選擇,選取有利于長期保存的電子文件格式。

PDF在世界上擁有眾多用戶,有許多第三方公司支持。PDF有可能成為電子出版物的國際標(biāo)準(zhǔn)。廣泛的支持者和眾多的合作者,成為PDF格式長期發(fā)展的基礎(chǔ)。PDF可以從任何支持標(biāo)準(zhǔn)印刷語言PostScript的應(yīng)用系統(tǒng)中產(chǎn)生。AcrobatWriter支持把常見的字處理文件如.txt、rtf和.doc等轉(zhuǎn)換為PDF文件。PDF還可以從掃描文檔中產(chǎn)生,使傳統(tǒng)文件數(shù)字化后得到外觀非常接近于原件的電子文檔。

迄今為止,已公布的PDF規(guī)范的版本都是向下兼容的。不過,由于數(shù)據(jù)遷移的窗口時間較短暫,對PDF文件仍需要合理規(guī)劃以減少數(shù)據(jù)丟失。PDF采用CCITTGroup4無損壓縮算法。由掃描文件制作的PDF文件體積較大,有時需要進(jìn)一步壓縮。

如今DjVu的用戶數(shù)量遠(yuǎn)不如PDF。但是,AT&T開放參考庫的做法為DjVu在開源社區(qū)爭取到了很多支持。已經(jīng)開發(fā)的項(xiàng)目有不同平臺上的瀏覽器、圖像轉(zhuǎn)換器、javascript搜索引擎、在線格式轉(zhuǎn)換服務(wù)器()等。在美國,DjVu已經(jīng)擁有很多政府、企業(yè)以及檔案部門等的客戶。

DjVu對背景層采用小波壓縮算法IW44,壓縮后文件大小非常理想,能夠顯著地節(jié)省存儲空間。對包括文字和圖像的彩色文件來說,DjVu文件在同等質(zhì)量下其大小通常只有JPEG文件的1/5-1/10。對由掃描文件制作的黑白PDF文件來說,DiVu文件只相當(dāng)于它們的1/2-1/4。

文件保存方面與開源有關(guān)的兩個關(guān)鍵問題是:

(1)保存成本。擁有源代碼使用戶可以自主控制應(yīng)用中與文件格式有關(guān)的模塊,而不必受制于格式的開發(fā)者。PDF本身很復(fù)雜,而且功能擴(kuò)充很快,對第三方開源項(xiàng)目的升級來說是一個挑戰(zhàn)。大多數(shù)PDF用戶仍依賴于Adobe的技術(shù)支持。DjVu的發(fā)展時間還不長,已經(jīng)轉(zhuǎn)入了商業(yè)開發(fā)。未來DiVu能夠繼續(xù)保持完全開源的地位,存在一些不易預(yù)測的變數(shù)。

(2)信息耗損。作為一種長期保存的文件格式,要盡量降低格式轉(zhuǎn)換或數(shù)據(jù)壓縮造成的信息損耗。PDF的矢量圖形元素不會耗損,圖像采用無損壓縮也不會耗損。DjVu技術(shù)同時支持無損壓縮和有損壓縮,采用無損壓縮時壓縮性能有較大的下降。需要注意的是,DjVu的開發(fā)者對開源代碼有一定保留,公開的算法并不一定是最優(yōu)的。

5.其他格式

與微軟公司的字處理文件DOC不同,它的電子文件格式并不普及。CHM格式是微軟的基于HTML的幫助文件。CHM支持與HTML相關(guān)的各種技術(shù),并可以通過URL與Internet聯(lián)系在一起。CHM可以直接在Windows系統(tǒng)上打開,制作工具有WinCHM和PowerCHM等。LIT格式是軟件MicrosoftReader的專有格式。MicrosoftReader是一個易用的電子文件閱讀器,但是目前還不支持中文。

此外,國外的電子文件格式還有SWB、EBX、EBK等。SWB格式是軟件WinEbookCompiler的專有格式;EBX格式是軟件GlassbookReader的專有格式;EBK格式是Voyager公司制定的格式。這幾種格式主要用于電子圖書,而且市場份額不大。

6.結(jié)論

開源軟件對電子文件格式及其支持軟件產(chǎn)生了深刻影響。PDF和DjVu是國外的兩種主流電子文件格式。一方面,完整的第三方開源軟件的出現(xiàn),對Adobe的壟斷地位提出了挑戰(zhàn)。另一方面,PDF原先的技術(shù)壁壘降低了,這有利于PDF的進(jìn)一步普及。DjVu作為一種技術(shù)先進(jìn)的開源軟件出現(xiàn),近些年得到快速發(fā)展,已經(jīng)轉(zhuǎn)入大規(guī)模的商業(yè)開發(fā)。

從技術(shù)上看,基于圖形的格式和基于圖像的格式有互補(bǔ)性,分別側(cè)重不同的應(yīng)用場合。同時,文件格式的開發(fā)機(jī)構(gòu)之間存在一定的協(xié)作關(guān)系,主流文件格式之間通常有可轉(zhuǎn)換性。用戶在選用格式時有很大的余地。可以預(yù)見,在國內(nèi)市場上這兩種格式以及其他格式將形成長期競爭的局面。

【參考文獻(xiàn)】

[1]劉家真主編.電子文件管理——理論與實(shí)踐.科學(xué)出版社,2003

[2]馮惠玲主編.電子文件管理教程.中國人民大學(xué)出版社,2001

[3]Adobe,PDFReference(fourthedition),/devnet/pdf/pdfs/PDFReference15_v5.pdf

[4]BottouL,etal.HighQualityDocumentImageCompressionwithDjVu.JournalofElectronicImaging,7(3):410-428,1998

[5]Microsoft,RTFspecification,version1.8,/downloads

[6]W3C,XML1.0(fourthedition),/TR/2006/REC-xml-20060816

[7]RaymondES,theCathedralandtheBazzar,/issues/issue3_3/raymond