NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%從業者認同寒冬正來臨
自然語言理解(NLP)素有人工智能皇冠上的明珠的盛譽,在大規模語言模型的加持下,人類也終于有了讓計算機理解語言的能力。
但這個「理解」還是得打個引號,按目前NLP模型的效果來看,雖然在部分領域模型可以為人類提供輔助,例如寫作、文本分類等,但離真正達到人類水平的語言智能還有很遠的距離。
今年5月-6月,華盛頓大學、紐約大學、約翰霍普金斯大學的11位研究人員在NLP研究社區中發起了一份調查問卷,對NLP領域的爭議性問題廣泛征求意見,包括行業在該領域的影響力、行業規模、通用人工智能(AGI)的風險的擔憂、語言模型是否理解語言、未來的研究方向以及道德問題等。
調查主頁:https://nlpsurvey.net/
報告地址:https://nlpsurvey.net/nlp-metasurvey-results.pdf
問題形式諸如:
語言模型能理解語言嗎?未來可以做到嗎?
傳統的模型基準范式是否仍然可用?
構建和發布哪種預測類模型對于研究者來說符合道德標準?
下一個最有影響力的進步會來自工業界還是學術界?
從調查結果來看,受訪者對于這些問題的看法幾乎都是對半開。 除了回答問題外,研究者還會要求受訪者預測該問題的答案分布情況,以發現社區預測與現實不匹配的錯誤社會學信念(false sociological beliefs),實驗結果也是不出所料:NLP從業者的想法和整個領域的現狀之間產生了巨大的分歧。 在其他結果中還可以看到,社區對benchmark的用處和NLP模型解決現實世界問題的能力大大高估了,而低估了對語言結構、歸納偏見和跨學科科學的重要性。 總共有480人完成了調查問卷,其中327人(68%)在2019-2022年間至少與人合著了2篇ACL出版物,屬于該調查的目標人群。根據ACL Anthology提供的數據來看,有6323人滿足條件,也就是說有約有5%的資深NLP從業者都參與了調研。
以地理位置進行劃分的話,58%來自美國(超過ACL統計值35%),23%來自歐洲,8%來自亞洲(遠小于ACL統計值26%)。其中,來自中國的 NLP 研究者占3%(ACL統計值為9%)。
領域現狀
該部分包括六個問題,用戶需要回答「認同」、「稍微認同」、「不太認同」、「不認同」。
1、私營公司的影響力過大?
77%的受訪者認同。
2、工業界將會產出最被廣泛引用的研究成果?
86%受訪者認同未來十年被廣泛引用的論文更有可能來自工業界而非學術界。
不過很多受訪者都認為一項工作的被引用次數并不能很好地代表其價值或重要性,而且工業界對該領域的持續主導地位將產生負面影響,比如在基礎系統方面如GPT-3和PaLM的絕對領導地位。
而且在學術界的受訪者中,認為工業界的影響力過大的人大約占82%,而工業界的受訪者僅有58%的人認同。
3、NLP會在十年內進入寒冬?
僅有30%的受訪者認同,屆時NLP R&D的投資和工作機會將比高峰期至少減少50%。
盡管 30 %不是一個大數字,但這也反映了這一部分NLP研究者認為該領域將在不久的將來發生重大變化,至少投資資金會減少。至于悲觀的原因可能有很多,比如由于工業界影響力過大而導致的創新停滯,工業界將憑借少量資源充足的實驗室來壟斷行業,NLP 和其他 AI 子領域之間的界限將消失等等。
4、NLP會在三十年內進入寒冬?
62%的受訪者認同,長期來看,NLP領域可能會「退燒」甚至變冷。
5、大部分NLP領域發表的相關工作在科學價值上都值得懷疑(dubious)?
67%的受訪者認同。
6、作者匿名評審很重要?
63%的受訪者認同。評審期間作者的匿名是有價值的,足以證明對正在評審的研究的傳播的限制。
規?;?、歸納偏差和相關領域
該部分包含四個問題。
1、規?;梢越鉀Q幾乎所有的關鍵問題?
僅有17%的受訪者認同,如果用上21世紀內所有的計算資源和數據資源,用現有技術的規?;瘜嵤⒆阋詫嶋H解決任何重要的現實世界問題或NLP的應用。
2、引入語言學結構是必要的?
50%的受訪者認同以語言學理論為基礎的語言結構的離散的通用表征(例如,涉及詞義、句法或語義圖)對于實際解決NLP中的一些重要的現實世界的問題或應用是必要的。
3、專家的歸納偏見是必要的?
51%的受訪者認同,專家設計的強歸納偏見(如通用語法、符號系統或認知啟發的計算基元)對于實際解決NLP中一些重要的現實世界問題或應用是必要的。
4、 Ling/CogSci將對引用最多的模型作出貢獻?
61%的受訪者認同2030年被引用最多的五個系統中,很可能至少有一個會從過去50年的語言學或認知科學研究中的具體的、非微不足道的成果中獲得明確的靈感。
AGI和主要風險
1、AGI是一個重要的關注點?
58%的受訪者認同,了解人工通用智能(AGI)的潛在發展以及與之相關的利益/風險,應該是NLP研究人員的一個重要優先事項。
2、最近的進展正在使我們走向AGI?
57%的受訪者認同,大規模ML建模的最新發展(如語言建模和強化學習)是朝著AGI發展的重要步驟。
3、人工智能可能很快導致革命性的社會變革?
73%的受訪者認同,在本世紀,由人工智能/ML的進步引起的勞動自動化可能會導致經濟重組和社會變革,其規模至少是工業革命時期的規模。
4、人工智能的決策可能導致核彈級別的災難?
36%受訪者認同,人工智能或機器學習系統做出的決策可能會在本世紀造成至少與全面核戰爭一樣嚴重的災難。
語言理解
1、語言模型能理解(understand)語言?
51%的受訪者認同。一些只對文本進行訓練的生成模型,如果有足夠的數據和計算資源,就可以在某種意義上理解自然語言
2、多模態模型能理解語言?
67%的受訪者認同。對于多模態生成模型而言,比如一個經過訓練可以訪問圖像、傳感器和驅動器actuator數據等的模型,只要有足夠的數據和計算資源,就可以理解自然語言。
3、純文本評價可以衡量模型的語言理解能力?
36%的受訪者認同。原則上,我們可以通過跟蹤一個模型在純文本分類或語言生成基準上的表現來評估其理解自然語言的程度。
NLP未來的研究方向
1、從業者太過于關注語言模型的規模?
72%受訪者認同。目前,該領域過多地關注機器學習模型的大規?;?。
2、過于關注基準數據集?
88%的受訪者認同目前NLP模型過多地關注在基準上優化性能。
3、「模型架構」走錯了方向?
37%受訪者認同。過去5年發表的大部分關于模型架構的研究都走在了錯誤的道路上。
4、「語言生成」走錯了方向?
41%受訪者認同,過去5年中發表的關于開放式語言生成任務的大部分研究都走在了錯誤的道路上。
5、「可解釋模型的研究」走錯了方向?
50%的受訪者認同,過去5年中發表的大多數關于建立可解釋模型的研究都走在了錯誤的道路上。
6、「黑盒的可解釋性」走錯了方向?
42%的受訪者認同過去5年中發表的關于解釋黑箱模型的大部分研究都走在了錯誤的道路上。
7、我們應該做更多的工作來吸收跨學科的見解?
82%的受訪者認同,與目前的狀況相比,NLP研究人員應該更優先考慮納入相關領域科學(如社會語言學、認知科學、人機交互)的見解和方法。
AI道德規范
1、 NLP過去產生的影響是正向的?
89%受訪者認同,總的來說,NLP研究對世界產生了積極的影響。
2、NLP的未來產生的影響會是正向的?
87%的受訪者認同,總的來說,NLP的研究在未來會對世界產生積極的影響。
3、構建一個容易被濫用的系統是不道德的?
59%的受訪者認同。
4、倫理和科學可能發生沖突?
74%的受訪者認同,在NLP研究的背景下,倫理方面的考慮有時會與科學的進步相抵觸。
5、倫理方面的問題大多歸咎于數據質量和模型準確性方面?
25%的受訪者認同,目前的機器學習系統所帶來的主要倫理問題原則上可以通過提高數據質量/覆蓋率和模型精度來解決。
6、預測心理特征是不道德的?
48%的受訪者認同,開發機器學習系統來預測人們的內部心理特征(如情緒、性別認同、性取向)本身就是不道德的。
7、碳足跡是一個重要的考量嗎?
60%的受訪者認同,訓練大型模型產生的碳足跡應該是NLP研究人員的一個主要關注點。
8、NLP應該受到監管嗎?
41%的受訪者認同,NLP系統的開發和部署應該由政府監管。