CMU教授、機器學習系主任空降OpenAI董事會,曾用一句話攻破ChatGPT
OpenAI最近人事變動不斷,本周三名高層領導人離開了OpenAI,其中包括聯合創始人John Schulman和Greg Brockman。
今天,OpenAI正式宣布董事會新增了一位董事:卡內基梅隆大學計算機科學教授、機器學習系主任Zico Kolter。
人才流失不斷、痛失左膀右臂后,OpenAI終于迎來一員大將,奧特曼火速在評論區表示熱烈歡迎。
大牛Karpathy也送上祝賀:
OpenAI研究科學家、CMU校友Noam Brown也在X上贊揚了他的前導師,寫道, 「Kolter是我經常向他尋求研究和職業建議的人。」
「他深受學生的喜愛,是機器學習領域的世界專家。我很高興他能加入我們!」
Kolter還將與董事Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman 和Sam Altman以及OpenAI技術專家一起加入董事會安全委員會。該委員會負責對所有OpenAI項目的關鍵安全決策提出建議。
人工智能安全一直是OpenAI的一個大問題。幾位專注于安全的OpenAI知名高管和員工(包括聯合創始人Ilya Sutskever)紛紛離開公司,超級對齊團隊就地解散。
Kolter可謂臨危受命,作為OpenAI董事會中唯一的人工智能研究員,Kolter的任命會在一定程度上平衡人們對OpenAI安全委員會主要由內部員工組成的批評。
董事會主席Bret Taylor在歡迎Kolter加入董事會時表示,「Zico的到來,增加了對人工智能安全性的深刻技術理解,這將有助于我們確保通用人工智能造福全人類。」
Brown在接受采訪時表示,作為一名研究人員和教育家,Kolter先生很快就能適應新的工作范式。
并且,Kolter專業的技術知識將有助于他了解人工智能系統面臨的安全漏洞。
Zico Kolter何許人也?
Zico Kolter什么來頭?怎樣級別的大神一來OpenAI就是董事會席位?
Kolter于2010年在斯坦福大學獲得計算機科學博士學位,隨后在2012年在麻省理工學院完成博士后研究。
Kolter在卡內基梅隆大學工作了12年,目前是計算機科學教授兼機器學習系主任,也是軟件與社會系統系、機器人研究所、CyLab安全與隱私研究所以及工程學院電氣與計算機工程系的成員。
學術斐然
Kolter在機器學習領域做出了重要貢獻,不僅在NeurIPS、ICML(榮譽提名)、AISTATS(時間檢驗獎)、IJCAI、KDD和PESGM上獲得過最佳論文獎,而且也是DARPA青年教師獎和斯隆研究獎的獲得者。
他的研究涵蓋機器學習和優化的多個主題,包括AI安全性和穩健性、大語言模型安全性、數據對模型的影響、隱式模型等。
其研究小組的大部分工作集中在如何讓深度學習算法更為穩健和安全,并理解數據如何影響模型的功能,和OpenAI安全工作完全匹配。
Kolter的研究中最重要的包括開發了第一種具有魯棒性保證的深度學習模型的方法,開創了使用神經網絡層中的經典優化將硬約束嵌入人工智能模型的技術。
最近,2023年,他的團隊開發了自動評估大型語言模型安全性的創新方法,展示了通過自動優化技術繞過現有模型保護措施的潛力。
行業活躍
除了學術追求之外,Zico在整個職業生涯中還與AI行業內密切合作。
他曾擔任C3.ai的首席數據科學家,C3.ai是唯一為企業構建的一站式AI軟件集合平臺,它建立在經過安全驗證的AI解決方案之上,這些解決方案能夠幫助企業處理數十種復雜的業務工作。
目前,Kolter還擔任博世的首席專家,以及專門從事人工智能安全和安保的初創公司Gray Swan的首席技術顧問。
挑戰ChatGPT安全漏洞
在加入OpenAI之前,Zico Kolter和Matt Frederickson就挑戰過ChatGPT的安全問題,或許是此舉吸吸引了OpenAI的注意力。
CMU團隊使用一串以眨眼表情開頭的簡單代碼,展示了繞過ChatGPT現有安全機制是多么容易。
一旦解鎖,聊天機器人就會很高興地答應任何數量的不良請求,例如炸彈配方和種族主義笑話。
并且,該代碼也適用于其他聊天機器人,例如Google的Bard和Anthropic的Claude。
在發布研究結果之前,研究人員就已經向OpenAI、谷歌和Anthropic通報了該漏洞利用的相關情況。
這三家公司都引入了阻止論文所述漏洞利用的限制措施,但尚未找到阻止對抗性攻擊的通用方法。
Kolter向科技媒體《連線》雜志展示了幾個對ChatGPT和Bard都有效的字符串。他表示,「這種字符串我們有成千上萬個。」
「不僅如此,這些模型有時會給你不真實的信息,或者在某些情況下甚至可能故意欺騙你,這是一個長期的安全風險。」CMU團隊的Andy Zhou說。
Frederickson也表示,人們已經在「手動越獄」ChatGPT,這意味著他們會繞過其安全機制,持續挑戰人工智能。
「人們是否可以操縱數據來造成嚴重破壞并引發問題?這就是我們想要了解的。」
OpenAI也想了解它的安全漏洞,去年,它聘請了一組專家,試圖在GPT-4公開發布之前對其進行破解。谷歌雇傭了一支「red team」來保護Bard免受越獄和其他攻擊。
Kolter先生對此表示,「這項工作令人鼓舞,但并不能取代獨立研究。畢竟,你不能依賴公司自己進行所有的安全審計。」