分析程序員在代碼編程中的“末行效應(yīng)”
我研究過數(shù)百個(gè)因“拷貝-粘貼”導(dǎo)致的錯(cuò)誤??梢钥隙ǖ氖?,程序員常常會在一大段代碼的***一段里犯錯(cuò)。好像還沒有任何編程書討論過這種現(xiàn)象,因此我決定自己寫點(diǎn)什么。我稱之為“末行效應(yīng)”。
我叫Andrey Karpov,我的工作有點(diǎn)不尋常:我借助靜態(tài)分析工具研究各種應(yīng)用程序代碼,并描述從中找到的錯(cuò)誤或者缺陷。我這么做既有實(shí)際效益也因?yàn)楣ぷ餍枰?。使用的方法正是基于我們公司所推廣的PVS-Studio和CppCat工具的原理。套路很簡單:找bug,然后寫文章分析bug,文章吸引到潛在用戶的注意,接著就是收益。但今天這篇文章不是介紹這些工具的。
在分析各種軟件項(xiàng)目的過程中,我把找到的bug以及相關(guān)代碼存入一個(gè)特殊的數(shù)據(jù)庫。順便說一下,有興趣的話各位可以看一看這個(gè)數(shù)據(jù)庫。我們把它轉(zhuǎn)換成網(wǎng)頁格式并上傳到了公司網(wǎng)站的“Detected errors”欄下。
這個(gè)數(shù)據(jù)庫***!目前它收錄了1500塊問題代碼片,正等著程序員們?nèi)パ芯浚瑥闹锌偨Y(jié)出特定規(guī)律。為將來的研究,手冊和文章奠定一個(gè)基礎(chǔ)。
我還沒認(rèn)真地分析過目前搜集到的材料。但是過程中我發(fā)現(xiàn)有一個(gè)明顯的模式反復(fù)出現(xiàn),決定深入研究一下。你大概看到了,文中我反復(fù)使用短語“注意***一行”。在我看來,這一定有某種規(guī)律。
末行效應(yīng)
編程的時(shí)候,程序員常常需要寫一系列相似的結(jié)構(gòu)。逐行敲鍵盤輸入無聊且低效。這就是為什么他們會使用奧義-“拷貝-粘貼”大法:一段代碼被拷貝粘貼幾次,然后修改。誰都知道這樣做的壞處:你很容易在粘貼后忘記修改某些內(nèi)容***滋生出問題。不幸的是,常常找不到比這更好的方法。
那么我發(fā)現(xiàn)了什么規(guī)律呢?我發(fā)現(xiàn)錯(cuò)誤常常發(fā)生在***的一塊粘貼代碼里。
下面是一個(gè)簡短的例子:
- inline Vector3int32& operator+=(const Vector3int32& other) {
- x += other.x;
- y += other.y;
- z += other.y;
- return *this;
- }
注意這一行:”z += other.y;”。程序員忘記把‘y’替換成‘z’了。
也許你以為這是個(gè)假設(shè)的例子,然后它其實(shí)來自一個(gè)真實(shí)的應(yīng)用程序。接下來,我會讓你相信這是高頻常見的一種錯(cuò)誤。程序員們經(jīng)常在一連串相似操作的結(jié)尾犯這種錯(cuò)誤。
我聽說攀巖者常常在***的幾十米中滑落下來。并不是因?yàn)樗麄兝哿?,而正是由于他們對即將到達(dá)的終點(diǎn)過于興奮,他們想象著成功后的喜悅,變得疏忽大意,***失足。我猜想程序員們也是這樣的。
接下來看一組數(shù)據(jù)。
研究了數(shù)據(jù)庫后,我分離出了84個(gè)代碼段由“拷貝-粘貼”大法生成。其中41段中錯(cuò)誤發(fā)生在中間的某些粘貼塊。比如:
- strncmp(argv[argidx], "CAT=", 4) &&
- strncmp(argv[argidx], "DECOY=", 6) &&
- strncmp(argv[argidx], "THREADS=", 6) &&
- strncmp(argv[argidx], "MINPROB=", 8)) {
“THREADS=”字符串的長度是8個(gè)字符,而非6。
另外的43段代碼中,錯(cuò)誤發(fā)生在***的粘貼塊。
當(dāng)然,43比41大不了多少。但是請注意,一段程序中,可能有很多類似的代碼塊,因此錯(cuò)誤可能發(fā)生在***,第二,第五甚至第十塊中。因此在其他代碼塊中我們有一個(gè)相對均勻的分布,而***一塊卻存在一個(gè)峰值。
平均而言,相似代碼塊總數(shù)為5。
于是前面4個(gè)代碼塊中均勻分布了41處錯(cuò)誤,平均每塊代碼有10個(gè)錯(cuò)誤。
然而***一塊代碼中有43個(gè)錯(cuò)誤!
下面的分布概圖凸顯出這個(gè)現(xiàn)象:
圖1. 五塊類似代碼段中的錯(cuò)誤分布概圖
因此我們可以總結(jié)出一個(gè)規(guī)律:
在最末的粘貼代碼塊中出錯(cuò)的概率是其他代碼塊的4倍。
這個(gè)規(guī)律可能并沒有普適性。它只是個(gè)有趣的發(fā)現(xiàn),其實(shí)際效用在于:提醒在你寫***一塊的時(shí)候保持警覺。
實(shí)例:
下面我要證明這并不是我的胡思亂想而是有真實(shí)的趨勢的。請看下面的實(shí)例。
當(dāng)然,我不會列出所有例子,僅列舉簡單而有代表性的。
Source Engine SDK
- inline void Init( float ix=0, float iy=0,
- float iz=0, float iw = 0 )
- {
- SetX( ix );
- SetY( iy );
- SetZ( iz );
- SetZ( iw );
- }
***一行應(yīng)該是SetW()。
Chromium
- if (access & FILE_WRITE_ATTRIBUTES)
- output.append(ASCIIToUTF16("\tFILE_WRITE_ATTRIBUTES\n"));
- if (access & FILE_WRITE_DATA)
- output.append(ASCIIToUTF16("\tFILE_WRITE_DATA\n"));
- if (access & FILE_WRITE_EA)
- output.append(ASCIIToUTF16("\tFILE_WRITE_EA\n"));
- if (access & FILE_WRITE_EA)
- output.append(ASCIIToUTF16("\tFILE_WRITE_EA\n"));
- break;
***兩行相同。
ReactOS
- if (*ScanString == L'\"' ||
- *ScanString == L'^' ||
- *ScanString == L'\"')
Multi Theft Auto
- class CWaterPolySAInterface
- {
- public:
- WORD m_wVertexIDs[3];
- };
- CWaterPoly* CWaterManagerSA::CreateQuad (....)
- {
- ....
- pInterface->m_wVertexIDs [ 0 ] = pV1->GetID ();
- pInterface->m_wVertexIDs [ 1 ] = pV2->GetID ();
- pInterface->m_wVertexIDs [ 2 ] = pV3->GetID ();
- pInterface->m_wVertexIDs [ 3 ] = pV4->GetID ();
- ....
- }
***一行冗余代碼來自于慣性粘貼。數(shù)組的大小是3。
Source Engine SDK
- intens.x=OrSIMD(AndSIMD(BackgroundColor.x,no_hit_mask),
- AndNotSIMD(no_hit_mask,intens.x));
- intens.y=OrSIMD(AndSIMD(BackgroundColor.y,no_hit_mask),
- AndNotSIMD(no_hit_mask,intens.y));
- intens.z=OrSIMD(AndSIMD(BackgroundColor.y,no_hit_mask),
- AndNotSIMD(no_hit_mask,intens.z));
程序員忘記把***一行的中的“BackgroundColor.y”改成“BackgroundColor.z”。
#p#
Trans-Proteomic Pipeline
- void setPepMaxProb(....)
- {
- ....
- double max4 = 0.0;
- double max5 = 0.0;
- double max6 = 0.0;
- double max7 = 0.0;
- ....
- if ( pep3 ) { ... if ( use_joint_probs && prob > max3 ) ... }
- ....
- if ( pep4 ) { ... if ( use_joint_probs && prob > max4 ) ... }
- ....
- if ( pep5 ) { ... if ( use_joint_probs && prob > max5 ) ... }
- ....
- if ( pep6 ) { ... if ( use_joint_probs && prob > max6 ) ... }
- ....
- if ( pep7 ) { ... if ( use_joint_probs && prob > max6 ) ... }
- ....
- }
程序員忘記把***一個(gè)判斷中的“prob > max6”改為“prob > max7”。
SeqAn
- inline typename Value<Pipe>::Type const & operator*() {
- tmp.i1 = *in.in1;
- tmp.i2 = *in.in2;
- tmp.i3 = *in.in2;
- return tmp;
- }
SlimDX
- for( int i = 0; i < 2; i++ )
- {
- sliders[i] = joystate.rglSlider[i];
- asliders[i] = joystate.rglASlider[i];
- vsliders[i] = joystate.rglVSlider[i];
- fsliders[i] = joystate.rglVSlider[i];
- }
***一行應(yīng)該用rglFSlider。
Qt
- if (repetition == QStringLiteral("repeat") ||
- repetition.isEmpty()) {
- pattern->patternRepeatX = true;
- pattern->patternRepeatY = true;
- } else if (repetition == QStringLiteral("repeat-x")) {
- pattern->patternRepeatX = true;
- } else if (repetition == QStringLiteral("repeat-y")) {
- pattern->patternRepeatY = true;
- } else if (repetition == QStringLiteral("no-repeat")) {
- pattern->patternRepeatY = false;
- pattern->patternRepeatY = false;
- } else {
- //TODO: exception: SYNTAX_ERR
- }
***一塊少了‘patternRepeatX’。正確的代碼應(yīng)該是:
- pattern->patternRepeatX = false;
- pattern->patternRepeatY = false;
ReactOS
- const int istride = sizeof(tmp[0]) / sizeof(tmp[0][0][0]);
- const int jstride = sizeof(tmp[0][0]) / sizeof(tmp[0][0][0]);
- const int mistride = sizeof(mag[0]) / sizeof(mag[0][0]);
- const int mjstride = sizeof(mag[0][0]) / sizeof(mag[0][0]);
‘mjstride’永遠(yuǎn)等于1。***一行應(yīng)該是:
- const int mjstride = sizeof(mag[0][0]) / sizeof(mag[0][0][0]);
Mozilla Firefox
- if (protocol.EqualsIgnoreCase("http") ||
- protocol.EqualsIgnoreCase("https") ||
- protocol.EqualsIgnoreCase("news") ||
- protocol.EqualsIgnoreCase("ftp") || <<<---
- protocol.EqualsIgnoreCase("file") ||
- protocol.EqualsIgnoreCase("javascript") ||
- protocol.EqualsIgnoreCase("ftp")) { <<<---
***的“ftp”很可疑,它之前已經(jīng)被比較過了。
Quake-III-Arena
- if (fabs(dir[0]) > test->radius ||
- fabs(dir[1]) > test->radius ||
- fabs(dir[1]) > test->radius)
dir[2]的值忘記檢查了。
Clang
- return (ContainerBegLine <= ContaineeBegLine &&
- ContainerEndLine <= ContaineeEndLine &&
- (ContainerBegLine != ContaineeBegLine ||
- SM.getExpansionColumnNumber(ContainerRBeg) <=
- SM.getExpansionColumnNumber(ContaineeRBeg)) &&
- (ContainerEndLine != ContaineeEndLine ||
- SM.getExpansionColumnNumber(ContainerREnd) >=
- SM.getExpansionColumnNumber(ContainerREnd)));
***一塊,“SM.getExpansionColumnNumber(ContainerREnd)”表達(dá)式在跟自己比較大小。
MongoDB
- bool operator==(const MemberCfg& r) const {
- ....
- return _id==r._id && votes == r.votes &&
- h == r.h && priority == r.priority &&
- arbiterOnly == r.arbiterOnly &&
- slaveDelay == r.slaveDelay &&
- hidden == r.hidden &&
- buildIndexes == buildIndexes;
- }
程序員把***一行的“r”忘記了。
Unreal Engine 4
- static bool PositionIsInside(....)
- {
- return
- Position.X >= Control.Center.X - BoxSize.X * 0.5f &&
- Position.X <= Control.Center.X + BoxSize.X * 0.5f &&
- Position.Y >= Control.Center.Y - BoxSize.Y * 0.5f &&
- Position.Y >= Control.Center.Y - BoxSize.Y * 0.5f;
- }
***一行中,程序員忘記了兩個(gè)地方。首先,“>=”應(yīng)改為“<=”,其次,減號應(yīng)改為加號。
Qt
- qreal x = ctx->callData->args[0].toNumber();
- qreal y = ctx->callData->args[1].toNumber();
- qreal w = ctx->callData->args[2].toNumber();
- qreal h = ctx->callData->args[3].toNumber();
- if (!qIsFinite(x) || !qIsFinite(y) ||
- !qIsFinite(w) || !qIsFinite(w))
***一個(gè)qlsFinite中,傳入?yún)?shù)應(yīng)該是‘h’。
OpenSSL
- if (!strncmp(vstart, "ASCII", 5))
- arg->format = ASN1_GEN_FORMAT_ASCII;
- else if (!strncmp(vstart, "UTF8", 4))
- arg->format = ASN1_GEN_FORMAT_UTF8;
- else if (!strncmp(vstart, "HEX", 3))
- arg->format = ASN1_GEN_FORMAT_HEX;
- else if (!strncmp(vstart, "BITLIST", 3))
- arg->format = ASN1_GEN_FORMAT_BITLIST;
字符串“BITLIST”長度為7,而非3。
就此打住吧。我舉的例子已經(jīng)夠說明問題了吧?
結(jié)論
本文告訴你“拷貝-粘貼”大法在***一個(gè)粘貼代碼塊中出錯(cuò)的概率很可能是其他塊的4倍。
這跟人類的心理學(xué)有關(guān),與技術(shù)水平無關(guān)。文中說明了即便是像Clang或者Qt項(xiàng)目中的編程高手也會犯這種錯(cuò)誤。
我希望這個(gè)現(xiàn)象的發(fā)現(xiàn)對于程序員們有所幫助,也許可以促使他們?nèi)パ芯课覀兊腷ug數(shù)據(jù)庫。相信如此有助于在這些錯(cuò)誤中發(fā)現(xiàn)新的規(guī)律并總結(jié)出新的編程建議。