在C/C++算法設(shè)計中使用任意位寬
開發(fā)定點(fixed-point)算法時,通常需要在設(shè)計功能性、數(shù)字精度建模、及驗證(仿真)速度之間取得一個平衡。現(xiàn)在,一種新的數(shù)據(jù)類可使此過程簡單化,由此得到更簡單精確的建模精度、更好的數(shù)字求精、及更快的驗證周期,而ANSI C/C++正是開發(fā)這種數(shù)字求精算法的最佳語言。
某此算法天生就適用于操作整數(shù),或那些理想中的實數(shù)(如數(shù)字濾波器的系數(shù)),它們也可能會使用浮點或定點類型。一般而言,在算法開發(fā)的早期階段,會經(jīng)常用到C語言的float或double浮點類型,因為它們可提供一個非常大的動態(tài)數(shù)據(jù)范圍,且對大多數(shù)程序來說都是適用的。
使用C內(nèi)置的float類型來建模一個FIR濾波器
算法可進(jìn)行數(shù)字求精,以便使用定點算術(shù)來降低最終硬件或軟件實現(xiàn)的復(fù)雜性。在硬件方面,將整數(shù)或定點算術(shù)限制為最小位寬,可在本質(zhì)上滿足性能、空間、能耗的需要;如果實現(xiàn)中用到了DSP處理器,那么把算法限制為整數(shù)或定點算術(shù),就可為特定程序使用盡可能便宜的處理器。
定點算術(shù)的建模可通過C語言內(nèi)置的浮點或整數(shù)類型來完成,這做的話,需要顯式編碼并受限于C中浮點數(shù)及整數(shù)可表示的最大數(shù):64位整數(shù)或53位尾數(shù);這些都會給操作數(shù)的位寬帶來更多的限制,例如,2個33位的數(shù)相乘,會超過64位C整數(shù)可表示的范圍。圖2演示了一個FIR濾波器的例子,但temp變量限制為15位的定點精度,其中10位用于整數(shù)位。在這個實現(xiàn)中,LSB的右部位被舍棄(量化模型的截斷),而MSB的左部位也被舍棄(包裝的溢出模型),應(yīng)該意識到,使用float(或double)的模型在精度上是受限的,且不能再次合成(synthesis)。同樣,由于有取整模型的嚴(yán)格位精度定義有先,又由于內(nèi)置浮點類型的取整將會先被應(yīng)用,所以對除法這樣的操作來說,就非常難實現(xiàn)了。
使用float建模定點行為
當(dāng)許多算法都能依賴本地C數(shù)據(jù)類型的精度來編寫時,對支持任意長度的整數(shù)及定點算法,大家就會抱有極大的期望,而硬件描述語言(HDL)如VHDL,走的也是同一條路。隨著C/C++越來越多地被用于高級合成與驗證工具(High-Level Synthesis and Verification tools),也證明了這種語言本質(zhì)上有一個足以滿足當(dāng)前及未來程序需要的數(shù)據(jù)類型庫。任意長度類型的支持,也可使數(shù)據(jù)類型的行為有一個統(tǒng)一的定義,而統(tǒng)一的語義則避免了人工實現(xiàn)上的一些限制。
算法C數(shù)據(jù)類型
算法C數(shù)據(jù)類型是一種基于類的C++庫,其實現(xiàn)了任意長度的整數(shù)及定點類型,而這些可自由訪問的類型有一系列好處,包括統(tǒng)一及良好定義的語義,還有媲美C/C++內(nèi)置數(shù)據(jù)類型的運行時速度,對比SystemC中相應(yīng)的類型,其運行速度也超過10倍以上。這些數(shù)據(jù)類型能用于任何符合C++或SystemC規(guī)范標(biāo)準(zhǔn)的程序中,并擁有高度可合成的語義。
語義
語義的統(tǒng)一性與一致性是避免在算法中,發(fā)生功能性錯誤的關(guān)鍵,以下的例子,也說明了這點:
眾所周知,變量ActLength的范圍為1至255,萬一編譯器的合成不知道其范圍,就不能進(jìn)行相應(yīng)的優(yōu)化,它的聲明就會從int變?yōu)楦鼑?yán)格的sc_uint<8>類型;雖然合成會得到更好的結(jié)果,但設(shè)計就仿真得不正確了。在經(jīng)過一番調(diào)試之后,找到了問題的源頭:在比較表達(dá)式k >= ActLength中,兩個操作數(shù)變成了一個signed int與一個unsigned long long(為64位無符號整數(shù),其是sc_uint類型的基類型)之間的比較。對此的解釋是:C/C++整數(shù)提升規(guī)則指定了在進(jìn)行比較之前,會把操作數(shù)int提升為一個unsigned long long,例如,如果k的值為 -1,在提升為unsigned long long之后,它會變成2^64 – 1。
像這樣語義中的問題一般會非常難以察覺,且是與位寬相關(guān)的,例如,可能有人想擴(kuò)大某個現(xiàn)有算法的位寬,只有看到結(jié)果時,才知道是行不通的;這個問題也可能是與特定平臺相關(guān)的,例如,對1 << 32(兩個操作數(shù)都是int類型,結(jié)果也是int類型)大家期望返回0,但在大多數(shù)平臺(或編譯器)上,它都會返回1(沒有移位,只因為第二個操作數(shù)較低的五位被計算進(jìn)來了);當(dāng)?shù)谝粋€操作數(shù)是一個64位整數(shù)時,平臺依賴性會表現(xiàn)得更加明顯及頻繁。主要的問題是C/C++標(biāo)準(zhǔn)沒有指定在32位整數(shù)情況下移位值(第二個操作數(shù))超出0至31范圍、或在64位整數(shù)情況下移位值超出0至63范圍時的行為。不幸的是,像sc_int、sc_uint這樣的數(shù)據(jù)類型也不能為用戶避免這類平臺依賴性的問題。
算法C數(shù)據(jù)類型被設(shè)計用于提供統(tǒng)一且一致的語義,因此,它們是可預(yù)測的,例如,對有符號數(shù)混用一個無符號操作數(shù)仍會產(chǎn)生期望的結(jié)果;這些類型的長度不受限制,所以就不存在所謂的精度問題。所有的操作——包括移位和除法——都有完整且一致性的定義,混合不同的類型也能得到期望的結(jié)果,如,當(dāng)x為一個C內(nèi)置類型,而y是一個算法C類型時,表達(dá)式x+y和y+x均能返回相同的結(jié)果。
運行時間
我們的目的是為了在支持任意長度類型及避免用戶碰到前述語義問題的前提下,得到使用內(nèi)置類型(位寬不超過64位)手工C/C++編碼優(yōu)化過的運行時間。算法C類型是為快速執(zhí)行及易于合成的語義而設(shè)計及實現(xiàn)的,所有操作的位寬由C++編譯器靜態(tài)確定,這就避免了動態(tài)內(nèi)存分配,減少了運行時間,也使得語義更加易于合成。另外,實現(xiàn)也為速度進(jìn)行了優(yōu)化,因此可能會調(diào)用更多的專用及高效代碼,充分利用了當(dāng)今編譯器的優(yōu)化特性。
表1:規(guī)格化為ac_fixed的運行時間比較
表1是當(dāng)定點算術(shù)用算法C定點類型ac_fixed來建模時,各種不同的運行時比較;float的實現(xiàn)在圖2中,sc_fixed_fast為SystemC中精度受限的定點數(shù)據(jù)類型,sc_fixed為任意精度的定點類型。實際中對FIR濾波器進(jìn)行10^8次調(diào)用,TRN/WRAP的運行時間為6.5秒,RND/SAT為29秒。其他類型的運行時間也能從這張表中依次推出,如sc_fixed TRN/WRAP將花費6.5s × 227 = 1476s(將近25分鐘)。作為參考,圖1中的算法(使用無定點建模的float)花費時間為3.5s(比起使用定點建模的ac_fixed,慢了近兩倍)。
上述的運行時間數(shù)據(jù),均由GCC 4.1.1測量得來,而在之前版本的GCC或Visual C++ 2005中得到的數(shù)據(jù)大致接近。
另外,運行時間也能通過整型數(shù)據(jù)類型或位操作進(jìn)一步縮短。表2為一個DCT算法的相應(yīng)結(jié)果,它由一個每次讀寫2位的移位操作得來,與此對比的運行時間為SystemC精度受限的sc_int與任意長度的sc_bigint。
結(jié)論
基于通用標(biāo)準(zhǔn)ANSI C++,這種新的整數(shù)與定點算法C類型允許算法及系統(tǒng)設(shè)計者指定任意位寬,從而提供比傳統(tǒng)數(shù)據(jù)類型高200倍的仿真效率。這些新數(shù)據(jù)類型可成為C-to-RTL設(shè)計鏈中非常有價值的一環(huán),及在整個實現(xiàn)流程中保證了任意位寬的精度。
【編輯推薦】