陶哲軒:2026年GPT幫我合著數學論文!提前試用「完全版」GPT-4,大受震撼
3個月前,OpenAI的GPT-4在萬眾矚目中登場,多模態功能震驚了人類,在各大考試中取得高分,號稱史上最先進AI系統。
直至今日,在各大測評榜單中,GPT-4依舊時常位居榜首。
今日陶哲軒忽然發文稱,其實今年早在GPT-4發布前,微軟首席科學家Eric Horvitz就曾邀請自己試用過GPT-4模型。
試用完后,陶哲軒將自己的體驗和思考寫成了一篇文章。
陶哲軒表示,還不到半年,再重新看這篇文章,就會發現AI技術的發展有多快。而這個回望的過程,也是很有趣的。
陶哲軒的GPT-4初體驗
在過去的幾十年里,人類一直在被信息技術規訓,慢慢習慣了一些情況。比如:
- 硬件和軟件將以摩爾定律的速度改進(在性能、用戶體驗和可靠性等指標上),然后再過渡到更多的漸進式改進。
- 個別軟件工具可以可靠地產生高質量的輸出,但輸入數據必須是最高質量的,而且格式上需要按照工具要求的特定方式來認真準備。
- 工具越先進,規范和特殊情況就越復雜。除非有精心設計的標準,否則工具之間(特別是不同供應商之間)的可交互性就會成為重大的技術挑戰。
- 人類將做出所有關鍵的執行決策;軟件工具則通過它執行人類指令的成功或失敗的結果來影響人類的決策過程。
隨著 GPT-4 等生成式人工智能工具的出現,所有這些習慣即使不能被完全放棄,也需要重新調整。
這些工具在處理措辭模糊(且略有錯誤)的自然語言提示,或處理從網頁或 PDF 中抓取的嘈雜數據時表現非常出色。
我向 GPT-4 提供最近一份數學預印本的前幾頁 PDF,它可以生成幾個質量還不錯的學術問題。
我使用類似提示詞的變體來準備我以后的演講或閱讀技術層面比較復雜的論文。
起初,我根據編程或腳本語言的經驗,努力使自己寫的提示詞盡可能準確。
最終,當我只是簡單地向 AI 扔了很多原始文本,并沒有小心翼翼地寫提示詞時,最好的結果卻出現了。
如此高的容錯性能使人工智能工具能與傳統軟件工具配合工作,或者讓AI工具相互集成協同工作,或者與沒有處理過的個人數據和個人偏好結合起來工作。
這種AI工具和現有的軟件工具,原始數據協同配合工作,或者讓AI工具相互配合工作的方式,將徹底改變人們的工作流程,而不僅僅是像現在一樣孤立地給人類行為提供一些建議。
由于這些AI工具能夠理解各種模態的輸入,我們仍在試驗如何充分利用它們的,開發它們的潛力。
我現在經常使用 GPT-4 來回答隨意和措辭含糊的問題,而以前我會要花很多精力去搜索引擎里尋找這些問題的答案。
我已經讓來它來幫我起草一些復雜文件的初稿了。
我認識的其他人已經使用這些工具的卓越人工情緒智能來獲得心理上的支持、舒適感和安全感。
我的一位同事的親戚最近被診斷出重病,但這位同事后來被一封 GPT-4 生成的安慰信感動流淚了。
在和人類的對話交流中,GPT-4 可以充當富有同情心的傾聽者、熱情的回應者、創意女神、翻譯或老師,或者魔鬼代言人。
它們可以幫助我們在任何方面都快速而持續地成長。
當前的大語言模型(LLM)通常可以令人信服地模仿某個知識領域(例如我自己的研究數學)中專家的正確回答。
但眾所周知,如果你仔細檢查他們的答復,回應中經常會有胡說八道的內容。
人類和人工智能都需要培養分析這種「新型文本」的技能。
我傳統上用來「探測」某些離譜的錯誤數學論證的文體信號,對 LLM 生成的數學文本沒有多大用處。
只有逐行認真地閱讀才能辨別出是否有任何實質內容。
奇怪的是,即使是無意義的 LLM 生成的無意義的數學內容也經常引用相關概念。
只要花些功夫,人類專家可以將不可行的想法修改為正確而且是原創的觀點。
2023年的AI已經可以生成對于數學家有用的提示和線索,從而在數學家的決策和思考過程中發揮作用。
當與形式證明驗證器、互聯網搜索和符號數學包等工具集成到一起配合工作時,我預測,只要使用得當,2026 年的人工智能將成為數學研究中值得信賴的合著者,在許多其他領域也應該如此。
之后會如何發展?這不僅僅取決于技術,還取決于現有的人類制度和機制如何適應。
現在AI 指導下的研究生可以在不到一天的時間內生成一篇入門級的數學論文,而且未來 AI 工具的準確性還要高得多。
面對這種情況研究期刊將如何改變他們的發表和引用政策?
我們的研究生教育方法將如何改變?
我們會積極鼓勵和培訓我們的學生使用這些工具嗎?
我們還沒有準備好回答這些問題。
將AI工具納入我們的專業構架后,取得的AI輔助下的成就和勇敢的嘗試都會很令人震驚。
但同時也會伴隨令人尷尬的錯誤、爭議、痛苦的破壞、激烈的辯論和草率的決定。
我們現有的技術范例無法作為探索這些未知領域的指南。
也許最大的挑戰將是如何盡可能安全、明智和公平地過渡到一個由人工智能輔助的新世界。