漫談自由軟件R和在生物統(tǒng)計學學習中的運用

時間:2022-04-12 10:20:00

導語:漫談自由軟件R和在生物統(tǒng)計學學習中的運用一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

漫談自由軟件R和在生物統(tǒng)計學學習中的運用

生物統(tǒng)計學是應用數(shù)理統(tǒng)計的原理和方法處理生物學中的各種數(shù)量資料,從而透過現(xiàn)象揭示生物學本質的一門科學,是科學研究與實踐應用的基礎工具?;谏锝y(tǒng)計學在生產實踐中的廣泛應用及在生命科學研究中的重要作用,國內外大多數(shù)學校的生命科學各專業(yè)都將生物統(tǒng)計學列為專業(yè)基礎課或必修課。但是,作為2003年才開始招生的新辦專業(yè),中國地質大學(武漢)生物科學專業(yè)原來的教學計劃中沒有“生物統(tǒng)計學”的課程,而設置有56學時的“概率論與數(shù)理統(tǒng)計”課程。學生們雖然通過“概率論與數(shù)理統(tǒng)計”的課程掌握了數(shù)理統(tǒng)計的基本原理和分析方法,但卻缺乏數(shù)據(jù)處理與統(tǒng)計分析的必要訓練。從而導致生物科學專業(yè)2003~2005級學生的畢業(yè)論文中缺乏統(tǒng)計分析,在答辯時也沒有試驗設計與假設檢驗的概念。鑒于這一實際情況,2007年生物科學專業(yè)的教學計劃及時作了必要的調整,增開了生物統(tǒng)計學的課程,并且設為專業(yè)必修課。按調整后的新教學計劃,2009年下學期生物科學專業(yè)大三學生在修完56學時的“概率論與數(shù)理統(tǒng)計”課程之后,還將學習32學時的“生物統(tǒng)計學”課程(含16學時的上機實習)。

傳統(tǒng)的生物統(tǒng)計學教學過多強調理論的重要性,學生通過查找書后附表設計試驗與手工計算,忽視了利用計算機軟件進行試驗設計和數(shù)據(jù)統(tǒng)計分析的能力培養(yǎng),不符合越來越重于計算機技術的現(xiàn)代應用生物統(tǒng)計方法的發(fā)展趨勢。在十分有限的32個學時內,為使“生物統(tǒng)計學”的授課內容不與“概率論與數(shù)理統(tǒng)計”發(fā)生重復且更實用,筆者通過對現(xiàn)代應用生物統(tǒng)計方法和統(tǒng)計軟件發(fā)展趨勢的課前調研,發(fā)現(xiàn)R軟件是一款功能全面又易學的統(tǒng)計軟件,含有許多新穎而又實用的統(tǒng)計分析技術與假設檢驗方法,完全可以滿足生物統(tǒng)計學的教學需要,并且沒有版權問題。各種概率分布的計算,以及平衡不完全區(qū)組、拉丁方與正交表等試驗設計,都可以在R軟件中完成,使學生可以徹底擺脫手工查表與計算的煩惱。課后關于生物統(tǒng)計學與R軟件使用的問卷調查發(fā)現(xiàn),88.2%的學生認為在修完“概率論與數(shù)理統(tǒng)計”課程后仍很有必要學習生物統(tǒng)計學和統(tǒng)計軟件,92.8%的學生認為自由軟件R作為生物統(tǒng)計學的教學軟件十分合適,還有86.7%的學生則認為R語言的學習能夠對理解統(tǒng)計原理有所幫助。

1統(tǒng)計軟件R的介紹

R語言是一門比較新的計算機語言,源自S語言(S-Plus軟件中使用)與Scheme語言?;贕NU協(xié)議的自由軟件R提供了一種使用R語言進行統(tǒng)計分析與圖形展示的計算機環(huán)境,整合有許多統(tǒng)計工具包[1]。R語言最初由新西蘭奧克蘭大學統(tǒng)計系教授RossIhaka和RobertGentleman合作編寫,由于這兩位“R之父”的名字都是以R開頭,所以就稱之為R語言。R自1993年誕生以來,深受統(tǒng)計學家和計量愛好者的喜愛,被國外大量學術與科研機構采用,其應用范圍涵蓋了計量經濟學、實證金融學、空間統(tǒng)計學、統(tǒng)計遺傳學和生物信息學等諸多領域,已經成為主流軟件之一。2009年1月7日,《紐約時報》記者AshleeVance題為“DataAnalystsCaptivatedbyR’sPower的文章[2]在科技版發(fā)表之后,引起了統(tǒng)計軟件R與SAS之爭,可見R在統(tǒng)計學界和業(yè)界的影響力。

相對于其它統(tǒng)計軟件,R的主要特色在于:1)R語言具有自由、免費、開放源代碼及統(tǒng)計模塊齊全的特征;2)R語言是徹底面向對象的統(tǒng)計編程語言,R中所有計算結果都可以作為對象保存起來,供進一步統(tǒng)計分析與圖形展示之用;3)R軟件體積小,更新速度快;4)R的擴展性非常強。世界各地的CRAN鏡像網站上有許多志愿者提供的非常豐富的工具包,供下載使用。正如Google首席經濟學家HalVarian所說,R最優(yōu)美的地方是你能夠修改很多前人編寫的工具包的代碼做各種所需的事情,實際你是站在巨人的肩膀上。

據(jù)統(tǒng)計,2008年12月13日~14日“第一屆中國R語言會議”在中國人民大學召開時,共有近70家單位150余人參加;2009年12月召開的第二屆中國R語言會議則在北京和上海設有兩個分會場,共有90多家單位300余人參加。參會的人員主要來自高校和科研機構,包括在校學生、高校老師、科研所研究員等。

2統(tǒng)計教學中R軟件的使用現(xiàn)狀

由于R強大的統(tǒng)計計算與圖形展示功能,以及自由免費與開放源代碼的特點,目前國外許多大學統(tǒng)計相關專業(yè)都將R作為教學軟件。據(jù)筆者調查,國內高校教學中統(tǒng)計軟件的使用現(xiàn)狀比較混亂,多是采用SPSS或SAS軟件,也有使用S-Plus、Matlab、Minitab、Stata、Eviews、Origin、DPS、MSExcel等商業(yè)軟件,仍有部分高校在統(tǒng)計教學中沒有結合與講授統(tǒng)計軟件。國內只有很少一部分高校使用R軟件進行統(tǒng)計教學,但是已有48所(不含重復)國內高校的教師或在校學生參加過R會議。

據(jù)不完全統(tǒng)計,江西農業(yè)大學、清華大學、中國人民大學、華東師范大學、暨南大學、中國地質大學(武漢)等高校已將R語言作為統(tǒng)計相關課程上機實習的計算機軟件。其中江西農業(yè)大學自2005年開始,就在生物工程與生物技術專業(yè)的學生的生物統(tǒng)計學課程中采用自由軟件R作為教學輔助工具,并取得了良好的教學效果[3]。

3生物統(tǒng)計學教學與R使用的調查分析

當前,數(shù)據(jù)分析處理幾乎全是使用計算機統(tǒng)計軟件完成,在統(tǒng)計方法的實際應用過程中,人們往往不會關注理論推導與計算過程,而是注重統(tǒng)計分析結果的解釋。對于非數(shù)理統(tǒng)計專業(yè)的學生,統(tǒng)計教學過程中不應過多強調理論的重要性,從而忽視了統(tǒng)計思想和數(shù)據(jù)處理能力的培養(yǎng)。通過課后關于生物統(tǒng)計學與R軟件使用的問卷調查發(fā)現(xiàn),參與調查的34位學生中有30位學生(88.2%)認為在修完“概率論與數(shù)理統(tǒng)計”課程后仍很有必要學習生物統(tǒng)計學。而沒有開設生物統(tǒng)計學課程的2003~2005級學生的畢業(yè)論文中,嚴重缺乏統(tǒng)計分析與假設檢驗。這充分說明了,純粹的統(tǒng)計方法與理論教學,越來越不符合借重于現(xiàn)代計算機技術的生物統(tǒng)計學發(fā)展趨勢。

問卷調查中發(fā)現(xiàn),有96%的學生認為生物統(tǒng)計學與R語言都非常有用,畢業(yè)后無論是繼續(xù)深造還是參加科研或管理工作都能用得上,同樣有96%的學生在生物統(tǒng)計學的課程結束后會選擇繼續(xù)學習R語言,有80%的學生認為R語言上級實習的16學時不夠用,且有92.8%的學生認為R軟件作為生物統(tǒng)計學的教學軟件十分合適,86.7%的學生認為R語言的學習能夠對學習與理解統(tǒng)計原理有所幫助,67.6%的學生認為C語言的學習基礎對學好R語言有所幫助。江西農業(yè)大學生物科學與工程學院程新等主持的教學研究課題“基于自由軟件平臺的生物統(tǒng)計學實踐教學研究”,對兩個年級共233人分別采用R和SPSS教學效果的比較分析發(fā)現(xiàn),采用R進行教學,激發(fā)了學生的學習積極性,提高了學生掌握統(tǒng)計學知識的能力,教學效果比SPSS有了顯著提高[3]。因此,可以認為使用R軟件作為生物統(tǒng)計學的教學軟件是十分合適的。

此外,本次問卷調查中還發(fā)現(xiàn)76.5%的學生認為R語言的入門很容易且R軟件安裝使用起來非常方便;有63.9%的學生認為R語言的一些統(tǒng)計函數(shù)特別是繪圖函數(shù)的參數(shù)設置比較麻煩,學習有困難;有81.8%的學生認為很有必要組織出版關于R語言與生物統(tǒng)計學的參考書。與市場上隨處可見的關于SPSS或SAS軟件的圖書相比,由于R軟件是一款比較新的統(tǒng)計軟件,且是自由軟件,目前關于R語言或R軟件的圖書非常少。截至到2009年底只能夠在互聯(lián)網上搜索到4本與R語言有關的圖書,分別是孫嘯等著的《R語言及Bioconductor在基因組分析中的應用》(2006年7月,科學出版社出版);王斌會主編的《R語言統(tǒng)計分析軟件教程》(2007年1月,中國教育文化出版社出版);薛毅等著的《統(tǒng)計建模與R軟件》(2007年4月,清華大學出版社出版);湯銀才主編的《R語言與統(tǒng)計分析》(2008年11月,高等教育出版社出版)。這些書籍均以較大的篇幅詳細介紹了R語言的基礎與使用方法,適宜作為關于R語言的工具書。但是由于這4本書中均未涉及到試驗設計與現(xiàn)代應用生物統(tǒng)計方法等方面的內容(實際上,試驗設計的內容在生物統(tǒng)計學中占有十分重要的地位),不宜作為生物統(tǒng)計學的上機實習指導書。而且CRAN網站上有多種關于試驗設計及其統(tǒng)計分析的R工具包,如AlgDesign、crossdes、conf.design、DoE.base、FrF2等可以自由下載使用。因此,基于R軟件在國內愈來愈旺盛的市場需求,筆者認為有關出版社很有必要組織出版關于“現(xiàn)代應用生物統(tǒng)計方法在R語言中的實現(xiàn)”的教參或工具書。

4結論

根據(jù)調查結果與科研工作的經驗,筆者認為統(tǒng)計的思想或意識比統(tǒng)計理論與方法更重要,使用統(tǒng)計軟件R進行生物統(tǒng)計學教學,可使學生不再陷入繁瑣的統(tǒng)計查表與計算過程中,從而增強統(tǒng)計思想和數(shù)據(jù)處理能力的培養(yǎng)。

筆者使用R的最大感受是,不斷發(fā)現(xiàn)其它統(tǒng)計軟件很難實現(xiàn)的統(tǒng)計計算和圖形展示方法,在R中則很容易實現(xiàn),驚喜不斷。R最重要的一點是怎么都不會高估它,它允許統(tǒng)計學家做很多復雜的分析,而不需要懂得很多的計算機知識(引自Google統(tǒng)計專家DarylPregibon)。R的應用領域是如此之廣,R的使用則“無處不在”。

相對而言,由于SPSS軟件比較容易學習掌握,目前,國內還有很多高校在使用SPSS軟件。但是,畢竟受其窗口菜單數(shù)量的限制,SPSS軟件的功能不會很全面。SAS軟件雖然要編程,使用較困難,但由于其經過多年的研制開發(fā),功能較全面,權威性強,國內也有不少高校在統(tǒng)計學教學中采用。但是這些商業(yè)軟件價格昂貴,學生在學習與使用過程中均存在版權問題。而R是沒有版權限制的自由軟件,統(tǒng)計與計算功能更全面,在醫(yī)學、生態(tài)學、統(tǒng)計遺傳學、生物信息學等方面都具有十分豐富的工具包。因此,筆者認為在生物統(tǒng)計學的教學中使用R軟件是非常合適的,值得推廣。畢竟R是開源軟件,使用R的人越多,其可能貢獻的函數(shù)工具包也越多,R的功能也會飛速增長。