48歲的C語言,你知道它背后的歷史嗎?
C語言作為一個人盡皆知的語言,甚至沒有學過編程語言的人也知道它的大名。經歷滄桑歲月的它,已經陪伴我們走過了48個年頭。回望當年,C語言還在襁褓之中……
貝爾實驗室特別人員獎、美國計算機協會(ACM)的圖靈獎、漢明勛章、計算機先驅獎、計算機歷史博物館研究員、哈羅德 · 潘德獎……這些成就全都出自一人,那就是編程界無人能超越的傳奇人物也是C語言的創造者——丹尼斯·里奇。
C語言之父:丹尼斯·里奇
計算機歷史學家Paul E.Ceruzzi說:里奇不被人們之道。他的名字一點都不家喻戶曉,但是如果你有一臺顯微鏡,能在電腦里看到他的作品,你會發現處處都是他的作品。
克尼漢也曾如此評價:“牛頓說他是站在巨人的肩膀上,如今,我們都站在里奇的肩膀上。”
01 C語言的輝煌歷史
1941年,丹尼斯 · 里奇出生在紐約布朗克斯區,父親是是貝爾實驗室的交換系統工程師。里奇從小成績優異,大學順利進入了哈佛,在受父親的影響下,丹尼斯也走上了科學研究之路。
在哈佛讀書期間,一次偶然的機會改變了里奇的一生。里奇參加了哈佛計算機系統相關的講座,從此他開始對計算機瘋狂著迷,不僅專門學了一期課程。
當時的里奇是一個主修物理的學生,因為對計算機處理的理論和實際問題十分著迷,他在畢業論文中大部分和計算機理論有關(遞歸函數的層次),這還遠遠不夠,里奇開始花更多的精力在實踐上面。
在那個時代,大部分計算機體積十分龐大,占用了整個房間并且還只能進行有限的撥入訪問,因此攻克小型臺式計算機是當時的工程師們的目標,可是這些計算機沒有易于使用的操作系統,于是里奇決定自己做一個。
這一決定立即得到了麻省理工學院Honeywell和General Electric的支持。里奇負責多道處理機BCPL語言和GE650的編譯器,它們都是屬于GECOS系統的。同時,他還寫了ALTRAN語言的代數編譯器,那視符號計算機的一種語言和系統。
經過這個項目后,里奇毅然決然的放棄了本專業物理學,并決定將計算機作為他的事業。1967年,他加入了貝爾實驗室(Bell Labs)。
在加入貝爾實驗室后,里奇開始和實驗室的一位名為Ken Thompson(肯·湯普森)的成員合作。這位Ken Thompson也是對Ritchie 職業生涯影響很大的人。
Thompson和Ritchie
20世紀70年代,湯普森和里奇在研究如何讓早期小型機變得越來越受歡迎。他們認為,所需要的是各種計算機之間更簡單,更可行的交互。因為老型計算機要求用戶使用操作系統來復制,刪除,編輯和打印數據文件,將數據從磁盤移動到屏幕到打印機并返回磁盤進行存儲。除了少數專家之外,一旦沒有了操作系統,任何人都無法訪問計算機。
為此,他們花了幾個月的時間來提出解決方案,他們完成這個解決方案時已經編寫好了影響他們一生的Unix操作系統。
里奇在1999年的一次采訪中表示:“我覺得Linux發展的現象令人高興,雖然工作站和大型計算機廠商也在提供不同種類的BSD系統,但是在Unix的直接派生品中,Linux應該是最健全的了。”
C++的開發者和設計師比雅尼 · 斯特勞斯普曾說:“假如里奇決定那十年將他的精力花費在稀奇古怪的數學上,那么Unix將胎死腹中。”
事實上,里奇加入貝爾實驗室后,發展了C語言和Unix系統,這在電腦工業史上都占據重要的席位。C語言在發展軟件和操作系統時是一個非常常用的電腦語言,而現在的編程語言比如C++、C#、Obijective-C、Java和JavaScript擁有極大的影響。
Univac I
為了在PDP-11電腦上運行的Unix系統,1972年,美國貝爾實驗室的丹尼斯·麥卡利斯泰爾·里奇(Dennis MacAlistair Ritchie)在B語言的基礎上的設計了C語言。
C語言最初嘗試通過向B語言中增加數據類型的想法來處理那些不同類型的數據。和大多數編程語言一樣,在C語言中,每個對象都有一個類型以及一個值;類型決定了可用于值的操作的含義,以及對象占用的存儲空間大小。
1973年,肯·湯普遜(Ken Thompson)和里奇合作把Unix的90%以上用C語言改寫,即Unix第五版。這是C語言第一次應用在操作系統的核心編寫上。隨著Unix的日益廣泛使用,C語言也迅速得到推廣。
Unix最開始是用匯編語言編寫的,里奇和湯普森重寫了之后于1974年在ACM上發表,正式向外界披露Unix系統。
隨著Unix的發展,C語言也得到了不斷地完善。C語言是一門面向過程地、抽象化的編程語言,廣泛應用于底層開發。C語言能用簡易的方式編譯、處理低級存儲器。如此簡單,簡潔,幾乎每個計算機制造商都轉向了它,且效果顯著。
為了利于C語言的全面推廣,很多專家學者和硬件產商聯合組成了C語言標準委員會。于是在1989年,第一個完備的C標準誕生了,簡稱“C89”,截至目前,最新的C語言標準為2017年發布的“C17”。
盡管C語言已經如日朝天,但里奇的職業生涯并沒沒有因此而結束,他于1990年成為朗訊科技計算技術研究部門的領導者。在該職位上,他編寫了應用程序并管理已發布的操作系統的增長。
1975年,C語言開始移植到其他機器上使用。史蒂芬·強生(Stephen C.Johnson)實現了一套“可移植編譯器”,這套編譯器修改起來相對容易,并且可以為不同的機器生成代碼。從那時起,C語言在大多數計算機上被使用,從最小的微型計算機到CRAY-2超級計算機。C語言很規范,即使沒有一份正式的標準,也可以寫出C程序,這些程序無需修改就可以運行在任何支持C語言的最小運行時環境的計算機上。
1978年,丹尼斯·里奇和布萊恩·柯林漢(Brian Wilson Kernighan)合作出版了《C程序設計語言》的第一版。書中介紹的C語言標準也被C語言程序員稱作“K&R C”(柯里C),第二版的書中也包含了一些ANSI C的標準。即使在后來ANSI C標準被提出的許多年后,K&R C仍然是許多編譯器的最低標準要求,許多老舊的編譯仍然運行K&R C的標準。
1978年以后,C語言先后移植到大,中,小和微型計算機上。C語言便很快風靡全球,成為世界上應用最為廣泛的程序設計高級語言。
C最初在小型機器上實現,并且繼承了一系列小語種編程語言的特點;與功能相比,C的設計者更傾向于簡單和優雅。此外,從一開始,C語言就是為系統級編程而設計,程序的運行效率至關重要,因此,C語言與真實機器能力的良好匹配也就不足為奇。例如,C語言為典型硬件所直接支持的對象:字符,整數(也許有多種大小),以及浮點數(同樣可能有多種大小)提供了相應的基本數據類型。
1983年,因為發展了通用操作系統理論并實現了UNIX操作系統,里奇和湯普森二人一起獲得了圖靈獎。里奇的圖靈獎論文題目為《對軟件研究的反思》。
1989年,C語言被美國國家標準協會(ANSI)標準化,編號為ANSI X3.159-1989。這個版本又稱為C89。標準化的一個目的是擴展K&R C,增加了一些新特性。
1990年,國際標準化組織(ISO)成立 ISO/IEC JTC1/SC22/WG14 工作組,來規定國際標準的C語言,通過對ANSI標準的少量修改,最終制定了 ISO 9899:1990,又稱為C90。隨后,ANSI亦接受國際標準C,并不再發展新的C標準。
在ANSI的標準確立后,C語言的規范在一段時間內沒有大的變動,然而C++在自己的標準化創建過程中繼續發展壯大。《標準修正案一》在1994年為C語言創建了一個新標準,但是只修正了一些C89標準中的細節和增加更多更廣的國際字符集支持。不過,這個標準引出了1999年ISO 9899:1999的發表。它通常被稱為C99。C99被ANSI于2000年3月采用。
1990年,童年,二人因“創造UNIX操作系統和C程序設計語言”而獲得了IEEE頒發的IEEE漢明獎,1997年獲計算機歷史博物館研究員獎,2005年,美國工業研究院授予里奇 IRI成就獎,以表彰他對計算機科學技術做出的貢獻,以及UNIX操作系統對社會的廣泛影響。2011年,里奇和湯普森二人共同獲得了日本國際獎。
但在2011年10月12日,里奇離開了這個世界,離開了他付出一生的C語言和Unix世界,享年70歲,去往另一個地方開始了他的另一場旅行……
2011年12月8日,ISO正式發布了新的C語言的新標準C11,之前被稱為C1X,官方名稱為ISO/IEC 9899:2011。新的標準提高了對C++的兼容性,并增加了一些新的特性。這些新特性包括泛型宏、多線程、帶邊界檢查的函數、匿名結構等。
C18(以前稱為C17)最新標準的C語言編程,發表在2018年六月代替C11。C18在沒有引入新語言功能的情況下解決了C11中的缺陷。
由于C具有語言簡潔,緊湊,使用方便靈活。運算符,數據類型豐富;具有結構化的控制語句,語法限制不太嚴格,程序設計自由度大;C語言允許直接訪問物理地址,能進行位操作,能實現匯編語言的大部分功能,可以直接對硬件進行操作;生成目標代碼質量高。執行效率高,等特點。所以,盡管C語言發布至今過去很多年,但現在C語言仍然在一些領域流行。
當前,C語言編譯器普遍存在于各種不同的操作系統中,例如Microsoft Windows、macOS、Linux、Unix等。C語言的設計影響了眾多后來的編程語言,例如C++、Objective-C、Java、C#等。
02 C語言到底能做什么
從計算機發展以來,編程語言也是層出不窮,但是無論多少“新人”翻涌而出,都無法改變C語言在編程界中德高望重的地位。
C語言到底能做了多少事情?大家經常說的Linux操作系統的內核都是C語言寫的,對應的很多嵌入式內核驅動也跑不出C語言范疇,包括大家常用的手機,機頂盒,電視機底層硬件驅動基本上都是C語言完成。
可以毫不夸張的說,如果沒有C語言,就沒有微軟的Windows 10 和 Surface Book,也沒有安卓智能手機,更沒有喬布斯創造的蘋果帝國各種產品MAC、iPad。
C語言最牛的地方,幾乎現在所有的上層語言的底層語言絕大部分都是C語言大哥做嫁衣給鋪墊完成。深刻理解上層語言底層實現,離不開C語言。而且很多大學的計算機專業都會把C語言作為學生入門編程的第一步。因此,很多程序員都把學習C語言當成程序生涯中最基本的事。
而C語言為什么能成為最重要、最流行的編程語言之一,具體來說因為以下原因:
設計特性
C語言融合了計算機科學理論和實踐的控制特性。C 語言的設計理念讓用戶能輕松地完成自頂向下的規劃、結構化編程和模塊化設計。因此,用 C 語言編寫的程序更易懂、更可靠。
高效性
在設計上,它充分利用了當前計算機的優勢,因此 C 程序相對更緊湊,而且運行速度很快
可移植性
C 是可移植的語言。這意味著,在一種系統中編寫的 C 程序稍作修改或不修改就能在其他系統運行。如需修改,也只需簡單更改主程序頭文件中的少許項即可。
強大而靈活
C 語言功能強大且靈活。功能強大且靈活的 UNIX 操作系統,大部分是用 C 語言寫的。C 程序還可以用于解決物理學和工程學的問題,甚至可用于制作電影的動畫特效。
面向程序員
C 語言是為了滿足程序員的需求而設計的,程序員利用 C 可以訪問硬件、操控內存中的位。C 語言有豐富的運算符,能讓程序員簡潔地表達自己的意圖。
03 C語言是怎么來的
C語言是很低級的語言,很多方面都近似于匯編語言,在《Intel 32位匯編語言程序設計》一書中,甚至介紹了手工把簡單的C語言翻譯成匯編的方法。對于編譯器這種系統軟件,用C語言來編寫是很自然不過的,即使是像Python這樣的高級語言依然在底層依賴于C語言(舉Python的例子是因為Intel的黑客正在嘗試讓
Python不需要操作系統就能運行——實際上是免去了BIOS上的一次性C代碼)。現在的學生,學過編譯原理后,只要有點編程能力的都可以實現一個功能簡單的類C語言編譯器。
可是問題來了,不知道你有沒有想過,大家都用C語言或基于C語言的語言來寫編譯器,那么世界上第一個C語言編譯器又是怎么編寫的呢?這不是一個“雞和蛋”的問題……
上文也有提到第一個C語言編譯器的原型完全可能是用B語言或者混合B語言與PDP匯編語言編寫的。
早期的C語言編譯器采取了一個取巧的辦法:先用匯編語言編寫一個C語言的一個子集的編譯器,再通過這個子集去遞推完成完整的C語言編譯器。詳細的過程如下:
先創造一個只有C語言最基本功能的子集,記作C0語言,C0語言已經足夠簡單了,可以直接用匯編語言編寫出C0的編譯器。依靠C0已有的功能,設計比C0復雜,但仍然不完整的C語言的又一個子集C1語言,其中C0屬于C1,C1屬于C,用C0開發出C1語言的編譯器。在C1的基礎上設計C語言的又一個子集C2語言,C2語言比C1復雜,但是仍然不是完整的C語言,開發出C2語言的編譯器……如此直到CN,CN已經足夠強大了,這時候就足夠開發出完整的C語言編譯器的實現了。至于這里的N是多少,這取決于你的目標語言(這里是C語言)的復雜程度和程序員的編程能力——簡單地說,如果到了某個子集階段,可以很方便地利用現有功能實現C語言時,那么你就找到N了。下面的圖說明了這個抽象過程:

那么這種大膽的子集簡化的方法,是怎么實現的,又有什么理論依據呢?
先介紹一個概念,“自編譯”Self-Compile,也就是對于某些具有明顯自舉性質的強類型(所謂強類型就是程序中的每個變量必須聲明類型后才能使用,比如C語言,相反有些腳本語言則根本沒有類型這一說法)編程語言,可以借助它們的一個有限小子集,通過有限次數的遞推來實現對它們自身的表述,這樣的語言有C、Pascal、Ada等等,至于為什么可以自編譯,可以參見清華大學出版社的《編譯原理》,書中實現了一個Pascal的子集的編譯器。
總之,已經有計算機科學家證明了,C語言理論上是可以通過上面說的CVM的方法實現完整的編譯器的,那么實際上是怎樣做到簡化的呢?
這張圖是不是有點熟悉?對了就是在講虛擬機的時候見到過,不過這里是CVM(C Language Virtual Machine),每種語言都是在每個虛擬層上可以獨立實現編譯的,并且除了C語言外,每一層的輸出都將作為下一層的輸入(最后一層的輸出就是應用程序了),這和滾雪球是一個道理。用手(匯編語言)把一小把雪結合在一起,一點點地滾下去就形成了一個大雪球,這大概就是所謂的0生1,1生C,C生萬物吧?
下面是C99的關鍵字:
- autoenum restrict unsigned
- breakexternreturnvoid
- casefloatshortvolatile
- charforsignedwhile
- constgotosizeof_Bool
- continueifstatic_Complex
- defaultinlinestruct_Imaginary
- dointswitch
- doublelongtypedef
- elseregisterunion
- //共37個
仔細看看,其實其中有很多關鍵字是為了幫助編譯器進行優化的,還有一些是用來限定變量、函數的作用域、鏈接性或者生存周期(函數沒有)的,這些在編譯器實現的早期根本不必加上,于是可以去掉auto, restrict, extern, volatile, const, sizeof, static, inline, register, typedef,這樣就形成了C的子集,C3語言,C3語言的關鍵字如下:
- enumunsigned
- breakreturnvoid
- casefloatshort
- charforsignedwhile
- goto_Bool
- continueif_Complex
- defaultstruct_Imaginary
- dointswitch
- doublelong
- elseunion
- //共27個
再想一想,發現C3中其實有很多類型和類型修飾符是沒有必要一次性都加上去的,比如三種整型,只要實現int就行了,因此進一步去掉這些關鍵詞,它們是:unsigned, float, short, char(char 是 int), signed, _Bool, _Complex, _Imaginary, long,這樣就形成了我們的C2語言,C2語言關鍵字如下:
- enum
- breakreturnvoid
- case
- forwhile
- goto
- continueif
- defaultstruct
- dointswitch
- double
- elseunion
- //共18個
繼續思考,即使是只有18個關鍵字的C2語言,依然有很多高級的地方,比如基于基本數據類型的復合數據結構,另外我們的關鍵字表中是沒有寫運算符的,在C語言中的復合賦值運算符->、運算符的++、– 等過于靈活的表達方式此時也可以完全刪除掉,因此可以去掉的關鍵字有:enum, struct, union,這樣我們可以得到C1語言的關鍵字:
- breakreturnvoid
- case
- forwhile
- goto
- continueif
- default
- dointswitch
- double
- else
- //共15個
接近完美了,不過最后一步手筆自然要大一點。這個時候數組和指針也要去掉了,另外C1語言其實仍然有很大的冗雜度,比如控制循環和分支的都有多種表述方法,其實都可簡化成一種,具體的來說,循環語句有while循環,do…while循環和for循環,只需要保留while循環就夠了;分支語句又有if…{}, if…{}…else, if…{}…else if…, switch,這四種形式,它們都可以通過兩個以上的if…{}來實現,因此只需要保留if,…{}就夠了。可是再一想,所謂的分支和循環不過是條件跳轉語句罷了,函數調用語句也不過是一個壓棧和跳轉語句罷了,因此只需要goto(未限制的goto)。因此大膽去掉所有結構化關鍵字,連函數也沒有,得到的C0語言關鍵字如下:
- breakvoid
- goto
- int
- double
- //共5個
這已經是簡約的極致了。
只有5個關鍵字,已經完全可以用匯編語言快速的實現了。通過逆向分析我們還原了第一個C語言編譯器的編寫過程,也感受到了前輩科學家們的智慧和勤勞!我們都不過是巨人肩膀上的灰塵罷了!0生1,1生C,C生萬物,實在巧妙!