水星探索項(xiàng)目中一段Fortran代碼里的逗號(hào)被寫成了點(diǎn)號(hào),影響了運(yùn)算的準(zhǔn)確性,導(dǎo)致太空探測器無法到達(dá)更遠(yuǎn)的軌道。出現(xiàn)這種事情的幾率有多大?一種編程語言的設(shè)計(jì)在多大程度上會(huì)影響程序正確性和導(dǎo)致相似的事件?最近發(fā)表在第四屆International Workshop on Evaluation and Usability of Programming Languages and Tools上的一篇論文中,我展示了一些研究發(fā)現(xiàn):通過往由各種不同語言編寫的類似程序中隨機(jī)的制造一些干擾信息,看編譯器或運(yùn)行系統(tǒng)能否發(fā)現(xiàn)由這些干擾引起的錯(cuò)誤,或者最終導(dǎo)致了程序輸出了錯(cuò)誤的結(jié)果。
在由我和我的同事 Vassilios Karakoidas、Panagiotis Louridas共同指導(dǎo)的這項(xiàng)研究中,我們首先選擇了10中流行的編程語言,以及用它們寫出的一批程序。我們選擇這些語言的條件是基于一篇IEEE Spectrum文章里提供的數(shù)據(jù)(由軟件研究公司TIOBE建立的一個(gè)索引目錄)、出現(xiàn)在Powell’s Books書名中的數(shù)量、IRC在線討論中引用的數(shù)量,以及Craigslist中招聘職位的數(shù)量。在這樣一個(gè)流行語言的大集合中,由于一些可操作性的原因,部分語言被排除在外。根據(jù)流行度索引,這個(gè)集合大概能覆蓋所有語言的71%到86%。
然后我們從Rosetta Code wiki中尋找我們研究的這10種語言寫成的執(zhí)行相同任務(wù)的各種源代碼。用Rosetta Code這個(gè)網(wǎng)站的創(chuàng)辦人自己的話,這個(gè)網(wǎng)站的目的就是搜集用不用的各種語言來完成同一種任務(wù)的代碼,展示它們的相似和不同,幫助那些研究基礎(chǔ)工作的人了解問題的另一種解決方案。
我們的下一步是要制造一個(gè)代碼干擾器:一個(gè)能系統(tǒng)的往代碼里隨機(jī)引入各種隨機(jī)混亂的工具。干擾器能替換標(biāo)志符,把一些數(shù)字加一,隨機(jī)改變字符或把字符串替換成相似的東西或隨機(jī)的串。最后,我們把干擾器應(yīng)用到我們搜集的代碼里,檢查這些被修改后有錯(cuò)誤的代碼是否能被編譯器或運(yùn)行環(huán)境檢測到,或是否導(dǎo)致了錯(cuò)誤的輸出。
理論上,我們?nèi)斯ひ氲倪@些錯(cuò)誤是模擬現(xiàn)實(shí)生活中的很多具體表現(xiàn)。錯(cuò)誤拼寫——“胖手指”——就是一個(gè)很常見的例子。另外的場景包括馬虎大意,自動(dòng)重構(gòu)錯(cuò)誤(特別是在像C和C++這些語言里,自動(dòng)重構(gòu)是很難正確無誤的實(shí)現(xiàn)的),復(fù)雜的編輯器命令導(dǎo)致的意外失誤,或搜索-替換操作造成的錯(cuò)誤,甚至還包括貓踩著鍵盤上產(chǎn)生的后果。
總計(jì)我們一共測試了136個(gè)任務(wù)實(shí)現(xiàn),嘗試了2萬8千種干擾操作,其中成功的有261,667 (93%)個(gè)。被干擾的程序中有90,166 (32%)個(gè)編譯通過或語法上沒有發(fā)現(xiàn)異常。60,126 (67%, 或 總共被干擾的數(shù)量的23%)個(gè)能正常的結(jié)束運(yùn)行。 18,256個(gè)輸出了完全無異的結(jié)果,表明干擾沒有對程序產(chǎn)生任何影響。其余的,41,870 個(gè)程序 (能運(yùn)行的70%, 總數(shù)的16%)編譯和運(yùn)行都沒有問題,但輸出了結(jié)果錯(cuò)誤。
上圖顯示了對各種語言的統(tǒng)計(jì)結(jié)果,是按失敗情況統(tǒng)計(jì):成功的編譯或執(zhí)行,沒有捕獲程序中的錯(cuò)誤,導(dǎo)致輸出了錯(cuò)誤的結(jié)果。上圖驗(yàn)證了我們一些非常直覺的看法。強(qiáng)靜態(tài)類型語言(Java, Haskell, C++)比那些弱的或動(dòng)態(tài)類型語言(Ruby, Python, Perl, PHP, 和 JavaScript)能在編譯器捕獲更多的錯(cuò)誤。稍微有點(diǎn)意外的是,C語言出現(xiàn)在了中間位置,驗(yàn)證了一個(gè)被很多人相信的觀點(diǎn):C語言的類型系統(tǒng)并不像它的眾多追隨者(包括我)認(rèn)為的那樣強(qiáng)。然而,C語言在運(yùn)行期卻拋出了大量的錯(cuò)誤,導(dǎo)致最終它的不正確輸出結(jié)果的比率跟那些強(qiáng)類型語言的相似。
這還有一副類似的統(tǒng)計(jì)圖,統(tǒng)計(jì)的是運(yùn)行時(shí)各種語言的表現(xiàn)。同樣,相比起強(qiáng)類型語言,弱類型語言更傾向于仍能無異常(崩潰或拋出異常)的運(yùn)行。根據(jù)這兩個(gè)統(tǒng)計(jì)表可以看出,弱類型語言在輸出結(jié)果上將會(huì)有更高的錯(cuò)誤率。相比起C++或C#,PHP的錯(cuò)誤率是36%,而C++的是8%,C#是10%,用像PHP這樣語法上不是很嚴(yán)格的語言寫成的應(yīng)用,雖然充分利用了這些弱類型語言帶來的方便性,但不經(jīng)意的拼寫錯(cuò)誤也會(huì)很容易溜進(jìn)產(chǎn)品代碼里。總的看來,動(dòng)態(tài)腳本語言跟強(qiáng)靜態(tài)類型語言比起來差距很大。這可能是我們只在較高層面測試這些腳本語言特征有關(guān)。
我們對這些數(shù)據(jù)做了進(jìn)一步分析,發(fā)現(xiàn)了下面一些事情。
- 這些在靜態(tài)語言和動(dòng)態(tài)語言干擾測試對比結(jié)果在統(tǒng)計(jì)學(xué)上有重要意義。這驗(yàn)證了靜態(tài)語言比動(dòng)態(tài)語言更容易發(fā)現(xiàn)錯(cuò)誤。
- C#的表現(xiàn)更像C和C++,而不是Java,盡管它外觀上跟后者更相似。
- Haskell 的表現(xiàn)跟Java很相似。
- 統(tǒng)計(jì)數(shù)據(jù)顯示在靜態(tài)類型語言間被干擾表現(xiàn)有明顯不同,比如C和C++間,C++和Java間,Haskell和Java間等。然而,動(dòng)態(tài)語言間卻沒有一個(gè)可比較的模式。借用托爾斯泰的一句話,它們看起來各有各不同。
然而,我想我們的研究最重要的成果是,通過對具有可比性的語言進(jìn)行干擾測試,提供了對編程語言的設(shè)計(jì)進(jìn)行評價(jià)的數(shù)據(jù)資料。