容錯(cuò)技術(shù)分析論文
時(shí)間:2022-01-14 05:11:00
導(dǎo)語:容錯(cuò)技術(shù)分析論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
隨著現(xiàn)代工業(yè)技術(shù)的發(fā)展和計(jì)算機(jī)的普及,工業(yè)設(shè)備運(yùn)行的安全性和可靠性越來越引起人們的重視,為了保證其安全、高效和可靠地運(yùn)行,必須采用與之相適應(yīng)的管理模式,容錯(cuò)技術(shù)為計(jì)算機(jī)系統(tǒng)提供了這樣的能力:當(dāng)計(jì)算機(jī)內(nèi)部出現(xiàn)故障的情況下,計(jì)算機(jī)系統(tǒng)仍能正確工作。計(jì)算機(jī)容錯(cuò)技術(shù)是計(jì)算機(jī)系統(tǒng)可靠性提高的重要手段。
當(dāng)系統(tǒng)內(nèi)部有故障存在時(shí),通過容錯(cuò)技術(shù)消除故障的影響,使系統(tǒng)最終仍能給出正確的結(jié)果。按照時(shí)間劃分,故障可分為以下三種:永久性故障、間歇性故障和偶然性故障。永久故障是永遠(yuǎn)持續(xù)下去直至修復(fù)為止的故障。對硬件來說,永久性故障意味著不可逆的物理變異。對軟件來說,這類故障也就是一個(gè)不可以自動(dòng)恢復(fù)的錯(cuò)誤狀態(tài)。間歇性故障是短暫的,但卻是斷續(xù)的,它既有偶然性,又有不定期的重復(fù)性。如一個(gè)處于臨界狀態(tài)的電路輸出時(shí)好時(shí)壞,而一個(gè)虛焊點(diǎn)就會(huì)引起這樣的故障。偶然性故障出現(xiàn)是短暫的,且可能是非重復(fù)性的。常常由于環(huán)境的變換、電源方面的干擾、元器件性能的波動(dòng)、軟件的隨機(jī)變換、電磁干擾等因素而引起。這樣的故障有可能僅出現(xiàn)一次,或很長時(shí)間出現(xiàn)一次,但卻可能造成數(shù)據(jù)錯(cuò)誤,甚至系統(tǒng)癱瘓。
針對不同故障應(yīng)采取不同的容錯(cuò)方法。容錯(cuò)技術(shù)能自動(dòng)適時(shí)地檢測并診斷出系統(tǒng)的故障,然后采取對故障的控制或處理的對策略。按照系統(tǒng)的失效響應(yīng)階段,可以把各種容錯(cuò)技術(shù)分成三種:故障檢查、靜態(tài)冗余、動(dòng)態(tài)冗余。故障檢測并不提供對故障的容忍,而是發(fā)生故障時(shí)給出一個(gè)警告。故障檢測廣泛應(yīng)用于微型機(jī)和小型機(jī)之類的小系統(tǒng)中,其中一些已體現(xiàn)了簡單的聯(lián)機(jī)檢測機(jī)理。嚴(yán)格地說,故障檢測不是容錯(cuò),它盡管檢測了故障,但是不能容忍這些故障,不給出故障警告。動(dòng)態(tài)冗余用于糾錯(cuò)碼存儲(chǔ)器或具有固定配置(即線路器件之間的邏輯連接保持不變)的多數(shù)表決冗余計(jì)算機(jī)之類的系統(tǒng)中。
根據(jù)不同情況,一個(gè)容錯(cuò)系統(tǒng)可經(jīng)歷以下階段:(1)故障檢測:大多數(shù)失效最終導(dǎo)致產(chǎn)生邏輯故障。有許多方法可用來檢測邏輯故障,如奇偶校驗(yàn)、一致性校驗(yàn)和協(xié)議違章都可以用來檢測故障。故障檢測技術(shù)有兩個(gè)主要的類別,即脫機(jī)檢測和聯(lián)機(jī)檢測,在脫機(jī)檢測情況下,進(jìn)行檢測時(shí)設(shè)備不能進(jìn)行有用的工作;聯(lián)機(jī)檢測提供了實(shí)時(shí)檢測能力,因?yàn)槁?lián)機(jī)檢測與有用的工作同時(shí)執(zhí)行。聯(lián)機(jī)檢測技術(shù)包括奇偶校驗(yàn)和冗余校驗(yàn);(2)故障限制:當(dāng)故障出現(xiàn)時(shí),希望限制其影響范圍。故障限制是把故障效應(yīng)的傳播限制到一個(gè)區(qū)域內(nèi),從而防止污染其他區(qū)域;(3)故障屏蔽:故障屏蔽技術(shù)把失效效應(yīng)掩蓋了起來,從某種意義上說,是冗余信息戰(zhàn)勝了錯(cuò)誤信息,多數(shù)表決冗余設(shè)計(jì)就屬于故障屏蔽;(4)重試:在許多場合,對一個(gè)操作系統(tǒng)的第二次試驗(yàn)可能是成功的,對不引起物理破壞的瞬間故障尤其如此;(5)診斷:對故障檢測技術(shù)沒有提供有關(guān)故障位置、性質(zhì)的信息進(jìn)行診斷;(6)重組:當(dāng)檢測出一個(gè)故障并判明是永久性故障時(shí),重組系統(tǒng)的器件替換失效的器件或把失效的器件與系統(tǒng)的其他部分隔離開來,也可使用冗余系統(tǒng),確保系統(tǒng)能力不降低;(7)恢復(fù):經(jīng)檢測和重組后,必須消除錯(cuò)誤效應(yīng)。通常,系統(tǒng)會(huì)回到故障檢測前處理過程的某一點(diǎn),并從這一點(diǎn)重新開始操作。這種恢復(fù)形式通常要后備文件、校驗(yàn)點(diǎn)和應(yīng)用記錄方法;(8)重啟動(dòng):如果一個(gè)錯(cuò)誤破壞的信息太多,或者系統(tǒng)沒有設(shè)計(jì)恢復(fù)功能,那么恢復(fù)就不可能實(shí)現(xiàn)。僅當(dāng)系統(tǒng)未受任何破壞時(shí),才能進(jìn)行“熱”重啟,并從故障檢測點(diǎn)恢復(fù)所有的操作。“熱”重啟相當(dāng)于系統(tǒng)需要完全重新加載;(9)修復(fù):即把診斷為故障的器件還原下來,修復(fù)也可以是聯(lián)機(jī)進(jìn)行的或者脫機(jī)進(jìn)行的;(10)重構(gòu):對元件進(jìn)行物理替換之后,把修復(fù)的模塊重新加入到該系統(tǒng)中去。對聯(lián)機(jī)修復(fù)來說,實(shí)現(xiàn)重構(gòu)不中斷系統(tǒng)的工作。
隨著計(jì)算機(jī)硬件和網(wǎng)路的快速發(fā)展,容錯(cuò)計(jì)算機(jī)的系統(tǒng)開銷逐漸降低,且糾錯(cuò)速度快。而軟件方法實(shí)現(xiàn)的容錯(cuò),對硬件不會(huì)提過高的要求。同時(shí)系統(tǒng)靈活,資源利用比較合理。更正檢測、診斷將會(huì)采取人工智能的處理途徑,以專家系統(tǒng)的各種智能工具來支持故障檢測和診斷。利用專家的知識,借助推理機(jī)構(gòu),迅速而準(zhǔn)確地提供診斷結(jié)果。系統(tǒng)的動(dòng)態(tài)重構(gòu)、故障恢復(fù)功能及神經(jīng)元芯片等將被用到容錯(cuò)技術(shù)中來,都將在智能化的支持下得以實(shí)現(xiàn)。同時(shí)對電路內(nèi)部的自檢、自重構(gòu)研究,可以解決電路本身及子系統(tǒng)的可靠性問題,將會(huì)出現(xiàn)容錯(cuò)的VLS1芯片及可直接支持系統(tǒng)容錯(cuò)設(shè)計(jì)的可容錯(cuò)設(shè)計(jì)芯片,為系統(tǒng)設(shè)計(jì)者提供一個(gè)具有透明性的容錯(cuò)設(shè)計(jì)元器件。進(jìn)入到芯片內(nèi)部的容錯(cuò)技術(shù)的研究將成為容錯(cuò)研究的一大分支。
隨著網(wǎng)路時(shí)代的到來,對于一個(gè)成功的電子商務(wù)系統(tǒng)來說,必須響應(yīng)在線客戶的需求并遵守服務(wù)的那個(gè)協(xié)議(SLA),同時(shí)保護(hù)客戶的隱私及電子商務(wù)系統(tǒng)安全正常運(yùn)營。對于客戶要求的響應(yīng)程度及安全保護(hù)措施是一個(gè)基于Internet的電子商務(wù)系統(tǒng)成功的必要條件,容錯(cuò)服務(wù)器就成為網(wǎng)絡(luò)時(shí)代電子商務(wù)運(yùn)營商首要選擇。未來的智能化家庭都將擁有一個(gè)家庭數(shù)據(jù)中心,可提供全天候的服務(wù),包括家庭安全、防盜和防煤氣泄漏以及各種家用電器的控制,這個(gè)家庭數(shù)據(jù)中心也只有采用容錯(cuò)計(jì)算機(jī)才能擔(dān)當(dāng)。今后容錯(cuò)技術(shù)將同時(shí)在軟件和硬件上得到發(fā)展,將會(huì)出現(xiàn)初級的容錯(cuò)軟件的設(shè)計(jì)方法,應(yīng)用軟件方面的容錯(cuò)設(shè)計(jì)將會(huì)產(chǎn)生一些實(shí)用的工具,同時(shí)產(chǎn)生一個(gè)通用操作系統(tǒng)和硬件相結(jié)合的容錯(cuò)方法,走軟硬結(jié)合的道路。系統(tǒng)容錯(cuò)設(shè)計(jì)將在分布式系統(tǒng)、CSCW等方面出現(xiàn)新的容錯(cuò)設(shè)計(jì)方法。
[摘要]隨著計(jì)算機(jī)技術(shù)的發(fā)展,容錯(cuò)技術(shù)和容錯(cuò)計(jì)算機(jī)將成為新的研究發(fā)展方向。本文介紹了容錯(cuò)技術(shù)的基本原理及內(nèi)容,介紹了容錯(cuò)系統(tǒng)的經(jīng)歷階段和實(shí)現(xiàn)容錯(cuò)功能的關(guān)鍵技術(shù),總結(jié)了計(jì)算機(jī)容錯(cuò)技術(shù)的現(xiàn)階段的應(yīng)用情況。
[關(guān)鍵詞]容錯(cuò)技術(shù)可靠性容錯(cuò)功能
參考文獻(xiàn):
[1]胡謀.計(jì)算機(jī)容錯(cuò)技術(shù)[M].北京:中國鐵道出版社.
[2]楊孝宗.容錯(cuò)計(jì)算技術(shù)的提出和發(fā)展[J].電子和信息化.
[3]劉云龍,陳俊亮.基于數(shù)據(jù)流分析的軟件容錯(cuò)策略[J].軟件學(xué)報(bào).
[4]FlaviuChristian,UnderstandingFault-TolerantDistributedSystems[J].CommunicantionsofACM.