硬件強悍,算法是否已經不再重要?
本文翻譯自程序員的問答社區 stackexchange.com 上的一個問題。
提問:追求算法(特別是普遍高效的)已經不再重要。
因為現在計算機硬件的成本,比起以前已經很便宜,是否意味著算法和改進算法的技能已經不那么重要了?大部分時候,只要別寫出一個死循環就行了。但當你擁有了強悍的硬件,是不是意味著爛代碼也不是什么大問題?
Pavel Zaichenkov 11 票
我特別喜歡《算法導論(Introduction to Algorithms)》一書中的一個例子,以摧枯拉朽地方法說明了算法性能的重要性:
我們來比較兩種排序算法:「插入排序」 和 「歸并排序」 。他們的算法復雜度分別是 O(n2)=c1n2 和 O(nlogn)=c2n lg n。一般情況下,歸并排序算法有一個更大的常數因子,所以我們假設 c1 < c 2。
為了回答你的問題,我們在一臺時髦的高速電腦 A 上跑「插入排序」算法,和一臺跑「歸并排序」算法的老土電腦 B 做對比。
我們假設:
- 輸入的問題數據量為 1,000萬個數字:n=107;
- 電腦 A 一秒鐘可以執行 1010 次運算指令 ( ~ 10GHz );
- 電腦 B 一秒鐘只能執行 107 次運算指令 ( ~ 10MHz );
- 常數系數 C1 = 2 (有點夸張),C2 = 50 (比現實中稍微小了一點)
于是在以上假設下,我們得到如下結果:
電腦 A :
2⋅(107)2 次運算1010 次運算/秒=2⋅104 秒
電腦 B :
50⋅107lg107 次運算107 次運算/秒≈1163 秒
所以你看,那部慢了1000倍的電腦,干活速度是快的那臺的17倍。而且在現實中,歸并算法有更高的效率,特別是隨計算量增加的而更加明顯。我希望這個答案能回答你的問題。
然而,這還不光是算法復雜程度的問題。在今天,單單想通過提高CPU主頻來獲得很明顯的性能提升是不可能的。我們需要改良算法在多核CPU架構下的 表現。而且這是個不太好對付的問題,因為隨著內核數量的增加,其他方面的開銷正在成為性能的障礙(比如內存訪問調度控制)。所以,堆硬件很難獲得線性的性 能增長。
總而言之,當下對于算法的改進和以前一樣重要,因為再多的CPU內核和再高的主頻都無法給你帶來和算法改進一樣的回報。
Yuval Filmus 11票
正相反,隨著硬件越來越便宜,新的運算需求正在增加。
首先,我們現在所需要面對和處理的數據正海量增加。這就要談到「準線性算法(quasilinear time algorithms)」和大數據研究的話題。比如想想搜索引擎的算法設計 —— 它們必須要處理巨量的請求,在茫茫數據中,快速地找到,返回結果,算法的效率比以前更加重要。
其次,「機器學習(machine learning)」的勢頭正猛,這就是一個算法的世界(可能和你大學本科學的不太一樣)。這個領域充滿荊棘,但也正是新的算法誕生的地方。
再者,「分布式計算」已經變得非常重要,現在我們在CPU主頻提升上已經遇到了瓶頸。如今計算機性能只能通過并行計算來獲得提升,這也是算法發揮力量的地方。
最后,為了平衡 CPU/GPU 性能的突飛猛進,大量虛擬機技術被用來抵御安全漏洞的威脅,操作系統花費更多的時間和精力來處理安全威脅和警報,余下的CPU時間才能真正用來做正經事, 這讓你的程序性能表現有所下降。特別是還有很耗費CPU資源的視頻壓縮/解壓縮計算,雖然計算機硬件性能與日俱增,但使用效率并沒有同樣提高。
總結一下,對于大數據處理、人工智能領域、分布式計算來說,算法的改進是不可或缺的;CPU 的運算能力在脫韁野馬一般增長的需求面前,因為各種原因沒有得到有效的利用,算法的重要性離死還遠著呢。
譯文鏈接:http://junius.lofianima.com/post/algorithms-is-important