用AI實現C++、Java、Python代碼互譯，運行成功率最高達80.9%

作者：曉查 2020-06-09 14:44:18

新聞人工智能

Facebook最近提出了TransCoder，一個翻譯編程語言的AI，現在可以在C++、Java、Python語言之間互譯。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

還記得美國前一陣要招聘60歲的老程序員嗎？都怪編程語言發展太快！

因為新冠疫情的緣故，美國一些地區的失業救濟系統不堪重負，而這些系統都是上古語言COBOL寫的。

然而，現在早已經是C/C++、Java、Python的天下了，把COBOL程序換成Python，何其難也。

遠的不說，Python 2剛剛淘汰，過去的老程序手工轉成Python 3也是個很大的工程。

既然AI能翻譯自然語言，那也應該能翻譯編程語言。

Facebook也是這么想的，所以他們最近提出了TransCoder，一個翻譯編程語言的AI，現在可以在C++、Java、Python語言之間互譯。

經翻譯后的程序，成功運行的通過率最高可以達到80.9%。

而且TransCoder是一種無監督學習算法，意味著不需要大量成對的、標記的編程代碼數據集進行訓練。

如果這項技術達到實用化程度，對廣大程序員來說真是巨大福音啊！

難怪論文作者之一Guillaume Lample在Twitter上宣布了這篇論文后很快引起了熱議。

翻譯編程語言，什么原理？

TransCoder充分利用了編程語言的特點，比如像for、while、if這些關鍵詞以及通用的數學運算符。

下圖展示了C++、Java和Python關鍵字的嵌入。在相似的上下文中使用的不同編程語言的關鍵字在嵌入空間中非常接近。

例如，Python中的except和Java、C++中的catch都用于獲取異常，它們被映射到非常相似的嵌入空間位置。

對于映射的實現（map和dict）、用于將字符串轉換為字符數組（c_str和toCharArray）以及類似的變量類型(例如long、int和Integer)，也可以觀察到相同的現象。

那么以上這些關鍵詞的嵌入是如何獲得的？

Facebook提出了實現無監督編程語言機器翻譯的三個原則。

首先，通過跨語言掩碼語言模型（MLM）預處理來初始化模型，這有些類似于自然語言的填空題。結果是表達相同指令的代碼片段被映射到與編程語言無關的相同表示。

其次是去噪自動編碼，它能訓練解碼器始終生成有效序列，即使在輸入有噪聲的數據時也是如此，提高了編碼器對輸入噪聲的魯棒性。

最后是反向翻譯，它允許模型生成可用于訓練的并行數據。每當Python轉C++模型變得更好時，它就會為C++轉Python模型生成更精確的數據，反之亦然。

通過以上步驟，TransCoder在訓練后獲得了之前提到的跨語言嵌入。

我們觀察到，TransCoder成功地理解了每種語言特有的語法、數據結構、函數庫和方法。

在上面的圖中，展示了Java和C++獨有的三元運算符X ? A : B，翻譯到Python中就變成了if X then A else B。

以下是一個從Python翻譯到C++的實例。TransCoder推斷變量和函數返回值的類型，將Python的deque()容器映射到C++中類似的實現deque<>，并使用C++的front、back、pop_back和push_back方法來檢索和插入deque中的元素，而不是使用Python方括號、pop和append方法。