幾百行代碼實現(xiàn)一個腳本解釋器
前言
最近又在重新學(xué)習(xí)編譯原理了,其實兩年前也復(fù)習(xí)過,當(dāng)初是為了能實現(xiàn)通過 MySQL 的 DDL 生成 Python 中 sqlalchemy 的 model。
雖然完成了相關(guān)功能,但現(xiàn)在看來其實實現(xiàn)的比較糙的,而且也只運用到了詞法分析;所以這次我的目的是可以通過詞法分析->語法分析->語義分析 最終能實現(xiàn)一個功能完善的腳本"語言"。
效果
現(xiàn)在也有了一些階段性的成果,如下圖所示:
目前具備以下基本功能:
- 變量聲明與賦值(只支持 int)。
- 二次運算(優(yōu)先級支持)。
- 語法檢查。
- debug 模式,可以打印 AST。
感興趣的朋友可以在這里查看源碼: https://github.com/crossoverJie/gscript。
本地有 go 環(huán)境的話也可以安裝運行。
go get github.com/crossoverJie/gscript
gscript -h
或者直接下載二進(jìn)制文件運行:https://github.com/crossoverJie/gscript/releases。
實現(xiàn)
當(dāng)前版本是使用 go 編寫的,確實也如標(biāo)題所說,核心代碼還不到 1k 行代碼,當(dāng)然這也和目前功能簡陋有關(guān)。
不過麻雀雖小五臟俱全,從當(dāng)前版本還是運用到了編譯原理中的部分知識:詞法、語法分析。
基本實現(xiàn)流程如上圖:
- 通過詞法分析器將源碼中解析出 token。
- 再通過對 token 推導(dǎo)生成出抽象語法樹(AST) 如果語法語法出現(xiàn)錯誤,這一步驟便會拋出編譯失敗,比如 2*(1+少了一個括號。
因為沒有使用類似于 ANTLR 這樣工具來輔助生成代碼(不然功能也不會只有這么點),所以其中的詞法、語法分析都是手寫的,代碼量并不大,對于想要調(diào)試的朋友可以直接查看源碼。
詞法分析器:token/token.go:39 語法分析器:syntax/syntax.go。
其中會涉及到一些概念,比如有限狀態(tài)機、遞歸下降算法等知識點就沒在本文討論了,后續(xù)這個項目功能更加完善后也會重頭整理。
規(guī)劃
最后是畫餅階段了,不出意外后續(xù)會繼續(xù)新增如下功能:
- 更多的基礎(chǔ)類型,string/long 之類的。
- 變量作用域、函數(shù)。
- 甚至是閉包。
- OOP 肯定也少不了。
這些特性都實現(xiàn)后那也算是一個"現(xiàn)代"的腳本語言了,后續(xù)我也會繼續(xù)更新學(xué)習(xí)和實現(xiàn)過程中的有趣內(nèi)容。
源碼地址: https://github.com/crossoverJie/gscript。