真實與炒作,發展與失望并存的一年:大咖共同回首數據科學與分析的2018和展望2019
大數據文摘出品
編譯:楊威、周家旭、張南星、Aileen
2018即將收尾,2019即將開啟,我們將帶大家縱覽專家們對AI的分析和預測。我們向專家們提了個問題:你認為2018年數據科學與分析的主要進展是什么?2019年會怎樣發展?
雖然我們討論的是數據科學和數據分析,但在大多數答案中AI都是主要內容。這些專家所提到的內容包括人工智能的進步(真實情況和炒作參半);數據科學和數據分析的民主化,例如自助分析;以及“萬事皆自動化”,例如數據科學,GDPR,AI風險,實時分析等等。
專家組名單如下:Meta Brown,Tom Davenport,Carla Gentry,Bob E Hayes,Cassie Kozyrkov,Doug Laney,Bill Schmarzo,Kate Strachnyi,Ronald van Loon,Favio Vazquez和Jen Underwood。以下是他們的簡介,推特ID以及對這個問題的解答。
“2018年數據科學和數據分析的主要進展和2019年發展趨勢”問答詞云。
Meta Brown(@ metabrown312),《Data Mining for Dummies》(數據挖掘入門指南)的作者,A4A Brown.Inc公司總裁,該公司致力于加強管理層和技術人員之間的溝通。
2018年的熱門分析話題非人工智能(AI)莫屬。印象中,人工智能比其他分析學應用技術引起了更多的討論。但令人遺憾的是,大部分討論并未產生多大價值。
計算機科學的先驅阿蘭·圖靈(Alan Turing)曾展望過,計算機智能將匹敵人類智能,即人們無法區分是在和計算機對話,還是在和人類對話。
想想我們與現在人工智能應用的交互過程。諸如Siri或Alexa的個人助理雖然挺有用,但和它們溝通的感覺,遠遠無法達到與真人溝通的效果。而在線自助聊天機器人則更令人失望,如果嘗試問一個現實生活中的問題,你將意識到它背后并沒有真正的“大腦”。
按照圖靈的定義,人工智能尚不存在。紐約大學心理學和神經科學教授加里·馬庫斯(Gary Marcus)說,人們對人工智能的最大誤解就是“我們離人工智能不遠了”。
的確,我們現實生活中已經應用了計算機來進行邏輯運算。雖然它們并不像人一樣思考,但它們足夠快、且連續性足夠強,這些都是極具價值的優勢。這些應用賦能機器完成實際工作,例如標記潛在欺詐交易,操作汽車等。
盡管AI技術的局限顯而易見,但大眾,甚至是科技界都充斥著對人工智能不切實際的主張和期望。這些扭曲的觀點在人群中引發了恐懼,同時也讓一些人的期望落空,而我們所見之現實則更令人失望。
湯姆·達文波特(@tdav),巴布森學院總統信息技術和管理部門的特聘教授,國際分析研究所聯合創始人,MIT數字經濟研究所的研究員和Deloitte Analytics公司的高級指導顧問。
我們在國際分析研究所對技術年度發展趨勢進行了預測分析,下面是我提出的一些觀點:
- 組織機構對模型部署率關注度不斷上升-根據雷克斯數據科學(Rexer Data Science Survey)調查顯示,只有10%-15%的公司部署率為“幾乎總是”,另外50%的公司僅“經常”部署,剩下35% - 40%的公司成功部署分析模型的幾率只有“偶爾或很少”。我曾遇到過一些組織機構表示他們的成功部署率低于10%。當然,未部署的分析模型沒有任何經濟價值。企業需要在2019年評估和提高部署率。
- 民間數據科學家和商業分析師會一直存在,且越來越多。可視化和基于搜索分析的興起,以及數據科學前端的機器學習愈加自動化,意味著業余愛好者將產出大量的分析結果。對抗這種趨勢將失敗無疑,所以不如轉向賦能,助力其發展。這也意味著從事量化工作的專業人員能夠集中注意力于復雜困難的建模任務,或者轉向理解業務,解決組織性變革問題。
Carla Gentry(@ dat_nerd),咨詢數據科學家和Analytical-Solution所有者。
2018年是數據分析和數據科學輝煌發展的一年,但我們也看到了人工智能、神經網絡和機器學習的爆發,而并不是所有的主張都有相應的人才和經驗支撐。我們也看到了人工智能在醫療領域和治安領域的應用增長,但同樣的,其背后也許并沒有充分考慮偏見所帶來的風險,以及人才和經驗的支撐,同時我認為可能有些人忘掉了一個大原則:在這些情境下,依托著可穿戴設備和物聯網(Google Home,Alexa等),數據就是一切,并且這樣的趨勢將持續不斷。
2019年,業界將繼續討論這些流行詞匯,公司將開始落實它們利用神經網絡從數以萬計甚至億計的實例中學到的成果,更糟糕的是,每當你想要神經網絡識別新物體時,你必須從頭開始(至少時間的消耗是必須的)-而人才是另一個問題。除了 Geoffrey Hinton,Yejin Choi或 Yann LeCun,你真的不是一個神經網絡的專家,所以不要指望著一個人才池的存在。
數據科學重點在于網羅各種數據并從中獲取洞察,并且在一些情況下,希望自身能夠成為AL、機器學習或者神經網絡的專家是不正確的,也沒有這個必要,因此我們必須細心研究差異,并且新入者將不得不重新學習新技術,以在新技術領域具有一些競爭力。我擔心的是,如果沒有真正理解機器如何學習、如何正確應用人工智能,一些公司/算法/企業的弱點將持續暴露出來。
讓我們歡天喜地地享用這些新技術吧,但要明白,如果你搞砸了就會有嚴重后果!
Bob E. Hayes(@ bobehayes),研究員、作家兼顧問,Business over Broadway的出版人,擁有工業組織心理學博士學位。
數據科學和數據分析領域經歷了機器學習相關所有內容的熱潮,包括強化學習、聊天機器人及社會影響研究。
在2019年,我預計人們會越來越關注人工智能的道德倫理,包括隱私和安全問題。人們越來越強調對算法制定特定決策過程的理解;我們不僅需要知道機器學習有助于我們做出決策,而且也需要知道它是如何工作的(它是如何做出決策的)。此外,美國公司將重點關注如何使用消費者的個人數據。加利福尼亞州通過了“加利福尼亞州消費者隱私法”(將于2020年1月生效),我期待并且希望其他州能緊隨其后。
但同時,我也擔心人工智能/機器學將導致假新聞創造和傳播的增加。Deep fakes(人工智能的深度換臉技術)表明,人們能夠捏造視頻內容,來展示他們從未說過或做過的事情,并且毫無愧疚之意。正如馬克斯·泰格馬克(Max Tegmark)所說,充分認識到人工智能的潛在威脅不在于涅佐,而僅僅是“安全工程”。
現在數據從業者有許多渠道可以學習數據科學,諸如集訓營、MOOC以及大學課程,但我也希望非數據專從業者(例如,經理和一線員工)能夠更多地嘗試學習數據分析課程。
Cassie Kozyrkov(@ quaesita),Google Cloud首席決策工程師。統計學狂熱者,人工智能,數據,雙關語,藝術,科幻,戲劇,決策科學。
2018年的主要發展之一是數據科學的民主化。利用云技術,人們無需實現建設Kubeflow等工具來構建數據中心,就可以為資源密集型大數據和AI應用程序提供源源不斷的動力,從而為沒有架構專業知識的人提供可擴展數據科學。這種賦能大眾、讓所有人都能獲取數據科學工具的發展趨勢將在2019年加速發酵。
Doug Laney(@ Doug_Laney),Gartner公司副總裁、杰出分析師和首席數據官研究員,也是《Infonomics》一書的作者。
Gartner公司剛剛發布2019年數據和分析戰略預測報告。其中提到了一個觀點:企業戰略中明確表示信息是企業的重要資產,而分析是必不可少的能力。不僅IT戰略提到了這一點,企業戰略和計劃也提到了類似的內容。
此外,我們期望數據掃盲計劃將變得成為常態,以幫助業務人員和數據分析專業人員更好地溝通,尤其是在當下數據分析需求愈加復雜的背景之下。隨著信息經濟學中的原則和實踐得到廣泛傳播,我們期望首席數據官能夠更頻繁地與首席財務官們合作,以正式評估組織的信息資產。這樣做可以為許多客戶帶來重要的信息管理和商業的好處。但分析和數字倫理仍然是一個問題,我們相信組織將開始為他們的數據科學團隊引入專業行為準則。
此外,我們預計在未來3-5年內,大多數新業務系統將通過充分利用實時環境數據以實現持續智能的應用;量子計算的POC項目(概念驗證項目)將會使計算機的分析能力大大超過現狀;智能強化和自動化的內部分析洞察將取代絕大多數的預測報告;位置分析的使用率將增長近10倍;機器學習也將緩解對數據科學家的人才爭奪。
Gregory Piatetsky,@kdnuggets,KDnuggets總裁,數據科學家,KDD會議和SIGKDD的聯合創始人,LinkedIn 2018數據科學與分析領域頂級發聲者排名首位。
2018年的主要發展我認為有:
- 通用數據保護條例(GDPR)于2018年5月生效,不僅僅在歐洲,在美國乃至其他地區都是數據科學界一個重要的里程碑,在其影響下許多公司都更新了其隱私政策。但同時,新條例下的消費者隱私權益保護是否真的能得到改善,或者在新的保護政策下,是否還能像往常一樣使用消費者隱私數據以創造價值,還有待觀察。
- 數據科學民主化:隨著訪問工具和途徑的增長,數據科學的民主化仍在繼續。AWS reinvent發布的新工具就是其中之一。
- 人工智能風險:自動駕汽車的第一次致人死亡的事故原因在于機器未能分辨推著自行車行走的行人。這一事件吸引了社會對于人工智能不可避免風險的關注。與此同時人們需要注意,以零誤差作為評價自動駕駛(和自動化AI)的標準是不現實的,正確看待的方式是其使駕駛風險相對現在大大降低。例如,人類駕駛的事故率就非常高,僅在2017年,美國就有37000人喪生于此。
2019年的主要趨勢:
- 數據科學自動化將會加速發展,但至少在近幾年內,數據科學家的工作還不會被完全的自動化取代。
- 人工智能的進步和炒作:盡管人工智能的發展是真實的,但人工智能的炒作增長更為迅速。
- 中國已經成為人工智能的主要參與者,許多中國公司正開始進行自主創新研發,而不僅僅是從美國復制。
- 強化學習將在人工智能進步中發揮越來越重要的作用。例如,強化學習算法在為解決Montezuma's Revenge Atari game時,取得了驚人的進展,達到了前所未有的100級,超越此前人類或計算所能達到的最好記錄。
Bill Schmarzo, @schmarzo, Hitachi Vantara 物聯網與分析首席技術官
2018年大數據、數據科學與分析的主要發展情況:
- 通過越來越多成功案例的發布,利益相關者者對機器學習及深度學習的應用潛力有了更深刻的認識。
- 數據湖仍然存在投資誤區。太多機構將數據湖視為驅逐昂貴的數據倉庫及縮減ETL成本的一種方式,卻尚未充分理解其作為價值創造平臺的潛力,以供利益相關者和數據科學團隊獲取及商業價值驅動。
2019年主要趨勢:
- 對于行業領跑企業而言,發展大數據和數據科學的主要動因應當是來自于業務端,而非IT端。龍頭企業將通過識別,驗證,審查,評估和優化業務成果,使大數據,物聯網和數據科學(機器學習,深度學習,人工智能)驅動業務發展。
- 除使用數據科學優化關鍵業務和運營流程(仍然是開始獲得誘人的投資回報率的好地方)以外,龍頭企業將意識到,隱藏在數據中的客戶、產品和運營的洞察將是未來機會變現的驅動因素。
Kate Strachnyi(@ StorybyData),數據可視化專家,《破壞者:數據科學領導者》和《如何成為數據科學家》的作者;人類數據科學視頻播客。
2018年數據科學和分析的主要發展:
- 通用數據保護條例(GDPR):2018年5月生效的歐盟法規為,為歐盟公民提供了一套個人數據保護規章制度。這一實踐推動了類似標準在其他地方的設置。例如,美國加利福尼亞州通過了自己的數字隱私法案;,這一法案使消費者了解到相關機構正在收集哪方面的信息,為什么他們要收集這些數據以及他們與誰共享數據。
- 自助式商業智能(BI)工具:商業智能分析工具將在數據分析師和商業分析師中變得更加普遍。但是,這些工具的使用者們是否真的了解這些分析場景的真實含義,我們尚不清晰。在人們學習使用拖拽工具、制作圖表的速度,與人們對真實業務場景的理解之間,尚存在一定差距。
2019年的主要趨勢:
- 數據道德與隱私:在每個數據科學的環節上,使用數據的道德和隱私問題將愈發得到重視。與數據起舞的人,需要對他們所擁有的強大權力與他們工作可能帶來的廣泛影響有清晰的認知。隨著全世界數字化進程的推進,這些問題應當從個人,公司及政府層面都得到重視。
- 流程自動化:公司將繼續推進流程自動化,以降低成本并提高效率。這種自動化還可能導致相應自動化流程的個人面臨失業問題。因此在未來,人們需要專注于不斷學習新技能,以便適應瞬息萬變的環境。
Ronald van Loon(@ Ronald_vanLoon),Adversitement(一家幫助數據驅動型公司取得成功的公司)總監,大數據、數據科學、物聯網、人工智能十大影響人物之一。
2018年,端到端數據管理增長的同時,公司一邊提高分析能力的成熟度,一邊充分挖掘所有數據資源,來獲取值得信賴的洞見,以及建立適應于當前數字化經濟的基礎設施及商業模型。機器學習被大眾廣泛接受,軟件供應商在其解決特定問題的產品應用中,大量引用了機器學習技術。
2019年,為支持更加復雜、級別更高的深度學習應用,將會出現更多的集成硬件、軟件框架,以促進更廣泛的創新。深度學習應用需要全面優化的硬件和軟件堆棧,以推進全新現代的AI架構。我們將會看到各行各業供應商開始使用者這種全棧方案,以滿足深度學習最佳性能和功能的需求。
隨著物聯網設備的增長,實時邊緣分析將呈指數級增長,這使得使實時分析變得更加容易,也將有助于基于實時洞見獲取即時的反饋。
Favio Vazquez(@ FavioVaz),數據科學家。物理學家兼計算工程師,Ciencia y Datos創始人
2018年是數據科學(DS)令人驚嘆的一年,無論是在理論方面還是實踐方面。業界提出了數據科學的幾種研究方法,可以幫助將數據科學轉換為實際科學。我參與其中的討論已經一年多了,也在最近看到了更多的人參與討論。相對與機器學習,自動化機器學習的內容十分繁雜,其中也包括自動化深度學習。
2019年的主要趨勢:
- AutoX:我們將看到越來越多的公司在它們的堆疊技術以及函數庫中使用自動化機器學習和深度學習的相關技術。這里的X意味著將這個自動工具將擴展到數據攝取,數據集成,數據清理,探索和部署等各個方面。自動化將存在于此。
- 語義技術:今年我最有趣的發現是數據科學和語義之間的關聯性。它不是數據世界中的新領域,但我發現越來越多的人對語義、本體、知識圖及其與數據科學和機器學習的關聯性表現出興趣。
- 編程化繁為簡:這是一件很難定義的事情,但是隨著數據分析的每一個流程實現自動化,我們的日常編程工作將越來越少。我們將擁有用于創建代碼的工具,這些工具將理解我們對自然語言處理的需求,然后將其轉換為查詢、命令和完整程序。我認為編程仍然是非常重要的學習內容,但它很快就會變得更簡潔容易。
- 數字化教育:數字化教育每年都在增長,但明年我們將看到比以往更多的人參與到MOOC、數字課程或在線課程之中。有人將其稱之為“教育民主化”,我在很大程度上同意這種說法,但我想對所有人說:注意你的學習內容和方式,在投入時間和金錢之前對所學課程進行調查研究,好的課程將改變你的生活,相反的,它也非常危險。
Jen Underwood(@ idigdata),DataRobot高級總監,Impact Analytix.LLC創始人。
人工智能炒作和轉型影響在2018年無處不在。幾年前,大數據風靡一時,然后是云技術,現在機器學習則占據了主導地位。人工智能在手機應用,機器人和商業智能解決方案方面被吹得過了頭。在今天,即便是啤酒,也是人工智能驅動。
今年,我們也看到了自動化市場的急速擴張。如今,許多機器學習解決方案都在推動人工引導的、自動化的數據分析向整個全生命周期自動化機器學習轉化。從簡單的拖拽、點擊按鈕以創建基本模型,到復雜的特征工程、模型檢索、參數調整、部署、模型的管理和監控,自動化機器學習的應用范圍十分廣泛-結果也參差不齊。
在2019年,對數據科學的公共管理,隱私,偏見,道德問題和更深層次的虛假問題將挑戰我們對人工智能的信心。區塊鏈等創新技術將開始改變我們存儲、共享和跟蹤數據的方式。我還期待人工智能將變得更加公平、更加透明,并且更加負責,使得非數據科學家也能理解、解釋并信任人工智能。目前,在將數據科學術語轉化為普通人可以理解的語言間還存在巨大的差距。許多組織在我們這個不完美的世界中應用人工智能技術,同時為民間數據科學家的產生提供了溫床,更多的人需要成為數據專家,以保證AI方向沒有走偏。
相關報道:https://www.kdnuggets.com/2018/12/predictions-data-science-analytics-2019.htm
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】