漢字識別技術(shù)范文10篇

時(shí)間:2024-02-05 01:36:59

導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗(yàn),為你推薦的十篇漢字識別技術(shù)范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

漢字識別技術(shù)

淺析漢字識別技術(shù)檔案管理

關(guān)鍵字:技術(shù)方式檔案圖像利用信息數(shù)據(jù)文本目錄漢字識別

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

查看全文

漢字識別技術(shù)應(yīng)用研究論文

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

漢字識別技術(shù)在檔案管理工作中應(yīng)用論文

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦模驗(yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

漢字識別研究論文

1主要研究

1.1字形屬性對漢字識別的影響

受西方已有研究理論的影響,長期以來關(guān)于漢字識別的加工單元也有兩種觀點(diǎn):一是認(rèn)為識別漢字要先對筆畫、部件等漢字的字形特征進(jìn)行分析,然后將分析的結(jié)果整合從而識別整字。那么,在漢字識別過程中就會存在筆畫數(shù)效應(yīng)、部件數(shù)效應(yīng)等。二是認(rèn)為識別漢字直接以整字為單元,強(qiáng)調(diào)字形知覺的整體性。到80年代末90年代初,已有許多研究表明在漢字的視覺識別過程中,要經(jīng)過特征分析[1]。近10年以來,漢字識別的特征分析觀點(diǎn)得到了更多的研究結(jié)果的驗(yàn)證:首先是采用不同的方法證實(shí)了筆畫數(shù)效應(yīng)的存在。如喻柏林等[2]采用命名識別法,發(fā)現(xiàn)在2至15畫的范圍內(nèi),漢字的命名反應(yīng)時(shí)隨筆畫數(shù)的增加呈臺階狀上升趨勢;張武田等[3]發(fā)現(xiàn)在高頻字當(dāng)中存在筆畫數(shù)效應(yīng);彭聃齡等[4]采用命名作業(yè)和真假字判斷作業(yè)也發(fā)現(xiàn)有顯著的筆畫數(shù)效應(yīng)。其次是發(fā)現(xiàn)部件因素對漢字識別的影響。有研究發(fā)現(xiàn)了啟動部件對合體漢字識別的影響[5],提示漢字的部件作為單個結(jié)構(gòu)反復(fù)認(rèn)讀,有可能成為漢字識別的加工單元之一,而且比筆畫更符合簡約的原則。張武田等[3]、彭聃齡等[4]的研究結(jié)果進(jìn)一步證實(shí)了部件數(shù)效應(yīng)的存在。

不僅部件的數(shù)量影響漢字識別,研究證明部件頻率(即在合體漢字中出現(xiàn)的次數(shù))也是影響漢字識別的因素之一,但其作用受到整字頻率和結(jié)構(gòu)類型的影響[6]。黎紅等[7]的研究也發(fā)現(xiàn),在速示條件下,部件頻率影響漢字識別的準(zhǔn)確性,而且部件頻率對漢字識別的作用模式與刺激字及其組成部分的空間排列有關(guān)。

在漢字的構(gòu)造部件之間還存在不同的組合以及組合頻率。采用整字識別和整合識別等實(shí)驗(yàn)任務(wù)的研究表明,部件組合與部件有類似的頻率效應(yīng),而且部件組合頻率的作用也受到正字頻率和結(jié)構(gòu)類型的影響[8]。第三是證實(shí)了結(jié)構(gòu)方式效應(yīng)的存在。喻柏林、馮玲等[9]和喻柏林、曹河圻[10]在不限時(shí)呈現(xiàn)整字條件下,分別令被試對雙部件和單部件做命名反應(yīng),結(jié)果一致發(fā)現(xiàn)存在結(jié)構(gòu)方式效應(yīng),命名上下字的反應(yīng)時(shí)要明顯長于左右字的部件。陳傳鋒、黃希庭[11]進(jìn)一步研究發(fā)現(xiàn)了結(jié)構(gòu)對稱性效應(yīng),識別結(jié)構(gòu)對稱性漢字的加工明顯快于非對稱性漢字,而且這種結(jié)構(gòu)對稱性效應(yīng)在低頻字中起作用,而在高頻字當(dāng)中不起顯著作用;在多筆畫字中起作用,在少筆畫字中不起顯著作用。

獨(dú)體字直接由筆畫構(gòu)成,不存在部件這一結(jié)構(gòu)層次,而且許多獨(dú)體字本身就是構(gòu)成合體字的部件。那么在對獨(dú)體字進(jìn)行認(rèn)知加工時(shí),是必須經(jīng)過特征分析還是直接以整字為單元?肖崇好等人[12]將獨(dú)體字中除去點(diǎn)、鉤、提、短的橫豎撇捺以外的其它筆畫作為該漢字的框架筆畫,把每個獨(dú)體字的結(jié)構(gòu)分為框架結(jié)構(gòu)和非框架結(jié)構(gòu)。研究結(jié)果發(fā)現(xiàn),在速示條件下,獨(dú)體漢字的識別從識別筆畫開始,經(jīng)提取框架結(jié)構(gòu)后,才完成識別過程。與“框架結(jié)構(gòu)”的觀點(diǎn)相類似,沈模衛(wèi),朱祖祥[13,14]研究結(jié)果也表明,在含有十或口的獨(dú)體漢字中,十與口是該類漢字的突出視覺特征的理論。這些結(jié)果表明對獨(dú)體字的加工也經(jīng)過特征分析。

查看全文

檔案文本數(shù)據(jù)開發(fā)信息資源應(yīng)用分析論文

編者按:統(tǒng)籌考慮檔案狀況、人員配備、經(jīng)費(fèi)能力、辦公自動化水平、檔案現(xiàn)代化建設(shè)發(fā)展規(guī)劃等方面的因素,本文通過漢字識別技術(shù)的應(yīng)用價(jià)值、漢字識別后生成的文本數(shù)據(jù)的屬性問題以及漢字識別技術(shù)的應(yīng)用方式三個方面來探討切實(shí)提高檔案信息資源開發(fā)利用能力。

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值

漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

查看全文

文本檔案數(shù)據(jù)屬性問題分析論文

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

二、漢字識別后生成的文本數(shù)據(jù)的屬性問題。

原始性是檔案的基本屬性。漢字識別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識別、校對、修改等工序后形成的復(fù)制加工品,因此不具有檔案的原始性。

查看全文

檔案目錄數(shù)據(jù)錄入論文

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

普及漢字識別提高檔案信息資源開發(fā)論文

編者按:本文主要從漢字識別技術(shù)的應(yīng)用價(jià)值;漢字識別后生成的文本數(shù)據(jù)的屬性問題;漢字識別技術(shù)的應(yīng)用方式進(jìn)行論述。其中,主要包括:把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息、精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值、提供了一種新的檔案目錄數(shù)據(jù)的錄入方式、原始性是檔案的基本屬性、知識性是檔案的又一個屬性、漢字識別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息、方便用戶,可減少信息利用過程中的重復(fù)勞動、輸入檔案目錄、掃描、保存圖像并提供利用、建立文本數(shù)據(jù)庫、輸入目錄并保存圖像、保存圖像、建立文本件數(shù)據(jù)等,具體請?jiān)斠姟?/p>

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值

漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦模驗(yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

查看全文

檔案技術(shù)管理論文

漢字識別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識別技術(shù)的應(yīng)用價(jià)值漢字識別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要?dú)v史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

計(jì)算機(jī)人工智能化運(yùn)用探索論文

關(guān)鍵詞:人工智能應(yīng)用計(jì)算機(jī)人類探索

摘要:人工智能是在計(jì)算機(jī)科學(xué)、控制論、信息論、心理學(xué)、語言學(xué)等多種學(xué)科相互滲透的基礎(chǔ)發(fā)展起來的一門新興邊緣學(xué)科,主要研究用用機(jī)器(主要是計(jì)算機(jī))來模仿和實(shí)現(xiàn)人類的智能行為,經(jīng)過幾十年的發(fā)展,人工智能應(yīng)用在不少領(lǐng)域得到發(fā)展,在我們的日常生活和學(xué)習(xí)當(dāng)中也有許多地方得到應(yīng)用本文就符號計(jì)算、模式識別、專家系統(tǒng)、機(jī)器翻譯等方面的應(yīng)用作簡單介紹,籍此使讀者對我們身邊的人工智能應(yīng)用有一個感性的認(rèn)識。

一、符號計(jì)算

計(jì)算機(jī)最主要的用途之一就是科學(xué)計(jì)算,科學(xué)計(jì)算可分為兩類:一類是純數(shù)值的計(jì)算,例如求函數(shù)的值,方程的數(shù)值解,比如天氣預(yù)報(bào)、油藏模擬、航天等領(lǐng)域;另一類是符號計(jì)算,又稱代數(shù)運(yùn)算,這是一種智能化的計(jì)算,處理的是符號符號可以代表整數(shù)、有理數(shù)、實(shí)數(shù)和復(fù)數(shù),也可以代表多項(xiàng)式,函數(shù),集合等長期以來,人們一直盼望有一個可以進(jìn)行符號計(jì)算的計(jì)算機(jī)軟件系統(tǒng)早在50年代末,人們就開始對此研究進(jìn)入80年代后,隨著計(jì)算機(jī)的普及和人工智能的發(fā)展,相繼出現(xiàn)了多種功能齊全的計(jì)算機(jī)代數(shù)系統(tǒng)軟件,其中Mathematica和Maple是它們的代表,由于它們都是用C語言寫成的,所以可以在絕大多數(shù)計(jì)算機(jī)上使用Mathematica是第一個將符號運(yùn)算,數(shù)值計(jì)算和圖形顯示很好地結(jié)合在一起的數(shù)學(xué)軟件,用戶能夠方便地用它進(jìn)行多種形式的數(shù)學(xué)處理。

計(jì)算機(jī)代數(shù)系統(tǒng)的優(yōu)越性主要在于它能夠進(jìn)行大規(guī)模的代數(shù)運(yùn)算通常我們用筆和紙進(jìn)行代數(shù)運(yùn)算只能處理符號較少的算式,當(dāng)算式的符號上升到百位數(shù)后,手工計(jì)算就很困難了,這時(shí)用計(jì)算機(jī)代數(shù)系統(tǒng)進(jìn)行運(yùn)算就可以做到準(zhǔn)確,快捷,有效現(xiàn)在符號計(jì)算軟件有一些共同的特點(diǎn)就是在可以進(jìn)行符號運(yùn)算、數(shù)值計(jì)算和圖形顯示等同時(shí),還具有高效的可編程功能在操作界面上一般都支持交互式處理,人們通過鍵盤輸入命令,計(jì)算機(jī)處理后即顯示結(jié)果并且人機(jī)界面友好,命令輸入方便靈活,很容易尋求幫助。

盡管計(jì)算機(jī)代數(shù)系統(tǒng)在代替人繁瑣的符號運(yùn)算上有著無比的優(yōu)越性,但是,計(jì)算機(jī)畢竟是機(jī)器,它只能執(zhí)行人們給它的指令,有一定的局限性首先,多數(shù)計(jì)算機(jī)代數(shù)系統(tǒng)對計(jì)算機(jī)硬件有較高的要求,在進(jìn)行符號運(yùn)算時(shí),通常需要很大的內(nèi)存和較長的計(jì)算時(shí)間,而精確的代數(shù)運(yùn)算以時(shí)間和空間為代價(jià)的第二個問題是用計(jì)算機(jī)代數(shù)系統(tǒng)進(jìn)行數(shù)值計(jì)算,雖然計(jì)算精度可以到任意位,但由于計(jì)算機(jī)代數(shù)系統(tǒng)是用軟件本身浮點(diǎn)運(yùn)算代替硬件算術(shù)運(yùn)算,所以在速度要比用Fortran語言算同樣的問題慢百倍甚至千倍另外,雖然計(jì)算機(jī)代數(shù)系統(tǒng)包含大量的數(shù)學(xué)知識,但這僅僅是數(shù)學(xué)中的一小部分,目前仍有許多數(shù)學(xué)領(lǐng)域未能被計(jì)算機(jī)代數(shù)系統(tǒng)涉及計(jì)算機(jī)代數(shù)系統(tǒng)仍在不斷地發(fā)展、完善之中。

查看全文