O'Reilly AI峰會紐約站“游記” AI應用加速落地,強化學習更受關注
2019年4月15-18日,O’Reilly AI Conference在紐約舉行,整個大會為期4天,在會上,參會嘉賓討論了人工智能學術現狀、公司在部署AI中遇到的問題,以及在業界的應用情況。
作為機器學習和數據科學領域最有影響力的全球峰會之一,本次大會據了解有超過2000人參加。大數據文摘作為特約合作媒體,也是整場會議唯一的中國媒體受邀參會,在現場度過了收獲滿滿的4天。
除了現場論壇,還從各種細節安排上感受到了O’Reilly這一國際頂級AI行業論壇的誠意,所以今天的稿子與其說是干貨,不如說是一次現場“游記”。
那么,請各位跟著文摘菌一起出發吧!
學術成果正加速落地
本次大會主論壇最讓文摘菌印象深刻的演講來自O’Reilly Media的首席數據科學家Ben Lorica,他介紹了現在行業的現狀和發展方向。
Ben Lorica提到,2010年AI學術論文和patent and invention的轉化率由的8:1到2016的3:1,種種數據都表明現在AI已經加速進入了落地實施階段。
在所有的學術論文轉化中,計算機視覺方面的專利申請最多,比2011年增長24%,排在第二位和第三位的分別是自然語言處理以及語音處理。
在自然語言處理方面,涌現出現了很多開源的模型例如 ELMo, BERT, MT-DNN 和GPT-2。另外,根據O’Reilly的問卷調查,Tensorflow 和Pytorch變得十分常見,其他工具例如Nauta,Keras等等也在幫助公司進一步優化資源、流程以及建模自動化方面發揮著越來越重要的作用。
強化學習也得到越來越多的關注。O’Reilly在一項對1300個公司的問卷調查中發現,大約有1/5的公司開始著手準備或已經在使用RL強化學習。原因之一是許多的開源工具及公司開發的專有軟件proprietary tools的涌現還有云服務的發展。
Ben Lorica還表示,不同企業的AI發展有不同的挑戰,對于剛開始采用AI或還在評測考慮的企業,他們最大的瓶頸是:公司文化沒有認識到AI的需求以及難以確定適當的AI業務案例。而對于AI應用和使用方面比較成熟的公司來說,他們認為缺乏足夠的數據進行分析或者數據質量方面的問題與缺乏合適的人才是當前最大的瓶頸。另外,對大多數公司來說,對數據工程師和計算機基礎架構人才的需求同等重要。
總的來說,公司應該更加關注:公平和公正、安全和可靠、隱私、安全漏洞、模型的可解釋性。如果對他們排序的話,重要程度從高到低分別是:模型的可解釋性以及透明度、公平以及偏見、隱私、安全和可靠性、安全漏洞。
分論壇演講:Intel和Netflix
除了主論壇,每天下午都有5個時間段的40分鐘的分論壇,第一個從午飯后開始,每場有9個可以選擇,對你沒有看錯,會議議題就是這么的豐富!
Intel的AI產品組的副總裁Gadi Singer也在大會發表了演講。他認為深度學習正在改變著計算,并且改變了計算帶給人們和公司的價值。
越來越多的深度學習和機器學習被運用到企業里面,當前企業面對的AI應用三個常見的問題分別是:如何應用規模部署、如何推動績效但保持管理成本以及如何應對未來所需的不確定性和變化。另外他還提到,現階段的deep learning和AI應用是可以用CPU實現完成的。
在CPU上實現AI模型,3年時間經歷了3個階段的變化。
接下來Gadi分別聊到intel是如何幫助四家公司在圖像識別、推薦系統、NLP等領域基于CPU應用人工智能和深度學習優化企業解決方案。
Philips在醫療領域的圖像識別應用案例
Taboola在內容推薦系統的應用
科大訊飛的NLP應用
令文摘菌印象比較深刻的還有Netflix機器學習總監Tony Jebara介紹的Netflix如何用推薦系統給用戶提供個性化的服務:除了眾所周知的推薦節目,到標題的展示,到搜索功能等等。
Tony Jebara重點介紹了推薦系統是如何給用戶提供個性化封面圖片。什么意思呢?比如對于stranger things這部劇,如果用戶對青少年題材感興趣,那么推薦系統就會使用帶有主角的處境的圖片來推薦。而對恐怖題材感興趣的用戶就會見到留鼻血的這張圖片作為推薦的圖片。
接下來Tony進一步指出,傳統機器學習batch machine learning和A/B test 的問題,還介紹了Netflix如何應用online learning來實現數據收集和學習相輔相成,并優化推薦系統。
他指出,傳統的監督學習和contextual bandits的不同以及netflix的圖片推薦系統是如何利用online learning在更短時間內找到點擊率最高的圖片。
來自Alibaba硅谷研發中心的人工智能專家陳三鑒博士和常劍博士介紹了時間序列模型的特點以及AI技術在時序預測中產生的巨大效果提升,受到了現場聽眾的熱烈反響。陳三鑒博士在做完演講之后,在現場被提問者團團圍住。
現場花絮
最近火到爆炸的BERT模型創始人之一Chang-Ming Wei也受邀來到現場介紹BERT模型。
Dr. Chang-Ming Wei 先簡單介紹了現階段的幾種比較受歡迎的NLP模型包括Word embeddings, ELMO等,指出現階段模型的不足之處。接著詳細講解了BERT 這種雙向編碼器連接(transformer blocks)是如何打破了前幾個模型的紀錄。并著重介紹pretraining 和 fine-tuning兩個BERT的訓練步驟,他指出這兩者的區別在于pretraining是用大量的沒有標簽的數據(unlabel)完成的,而后者是用少量的針對特定任務的標簽數據(task-specific label data)完成的。如果小伙伴對BERT感興趣可以參見我們前兩天發的另外一篇科普文哦。
大會從第三天開始,也開啟了現場展位。各個booth前都熱鬧非常,企業和各公司都很想借助這個機會更多了解不同的service provider和不同類型的服務,以及如何借力AI使公司進一步發展。
H20.ai的現場展位👇熟悉kaggle競賽的小伙伴應該都知道H2Oai有好幾位grandmaster的加持,并且他們的xx產品是號稱“brings you the intelligence of a Kaggle Grandmaster in a box(擁有xx產品你就擁有了世界頂級的數據科學家)。”
文摘菌在參會過程中也和參會者們聊了聊,基本都是來自業內頂級公司的技術從業者。各大公司當然也不會放棄這么好的招人機會,現場黑板留言區滿滿的招聘信息。
大會現場文摘菌還偶遇了不少大咖,包括Deep Learning Cookbook一書的作者Douwe Osinga,并且請他為大數據文摘的讀者們簽了個名。
最后,這次峰會的部分精彩演講已經被主辦方放上官網啦,對keynote感興趣的小伙伴可以通過下面的網址注冊會員觀看!
https://learning.oreilly.com/home/
另外,O’Reilly AI Conference在今年6月份也要來北京啦,不用飛到紐約就能直接體驗這個超棒的會議,學習先進的行業知識與頂尖的AI科技公司0距離接觸哦。
今年的北京站嘉賓也絕對是重量級的。包括加州大學伯克利分校 EECS教授Ion Stoica,Google Brain團隊中移動和嵌入式 TensorFlow Group的技術主管Pete Warden ,以及剛剛加入阿里巴巴達摩院的大神賈揚清。
搶票參會:
本屆AI Conference 2019北京站早鳥票價本周五結束(5月10日),搜索AI大會或人工智能大會,進入官網查看詳情。