數據科學的現在與未來
數據科學是截至近年來技術領域中很具熱度的方向之一。如果您擁有數據科學或者相關專業的工作經驗及學位,那么只要大筆一揮、簡歷一發,一份薪酬可觀的職位就會應手而得。但是,數據科學家能成為AI領域的長青樹嗎?或者說,幾年之后圍繞數據科學出現的這股熱流終將消退?
在日前的AI播客中,Dun & Bradstreet公司高級副總裁兼首席數據科學家Anthony Scriffignano分享了自己作為數據科學從業者的工作狀態,以及人工智能如何改變金融行業的前景、經歷與見解。
數據科學的當前定位
在Dun & Bradstreet公司,Scriffgnano主要負責技術創新與開發工作,同時也管理著“世界上規模最大的同類商業數據庫”項目。Scriffignano解釋道,這套前所未有的數據庫持續從全球各個國家(除朝鮮與古巴之外)收集大量數據,日均攝取達數百萬次。
這套數據庫融合了每一種語言與寫入系統,而且由七套不同的集成化數據庫共同組成。這一綜合性數據系統在跟蹤企業數據的同時,亦會對總體風險及發展機遇做出全球性觀察分析。以此為基礎,該數據庫得以實現大規模數據分析,進而檢測供應鏈異常以及客戶購買行為中發生的變化。毫無疑問,要從如此龐大的信息庫當中提取價值,數據科學將成為我們不可或缺的關鍵武器。
對于像Dun & Bradstreet這樣的組織來說,最大的挑戰之一在于如何尋找經驗豐富的數據科學家,保證這些既擁有從業背景、又頗具實踐經驗的人才處理如此巨大的研究數據集。遺憾的是,目前的人才市場還無法滿足他們對于數據科學技能的需求。
Scriffignano表示,他相信AI技術正在快速發展,并必將在未來逐漸取代熟練的數據科學家,進而實現技術本身的普遍化與大眾化。在Scriffignano看來,成為一名成熟數據科學家所需要的技能,在范圍與深度方面都要遠遠超過機器學習模型開發者。從本質上講,真正的數據科學家需要專注于立足更廣泛的問題從數據中提取價值;相比之下,目前很多自稱數據科學家的從業者實際上更像是機器學習工程師,也更多關注機器學習模型開發方面的工作。
Scriffignano認為,我們需要更多關注數據科學家概念中的“科學家”部分。在他看來,數據科學家必須有能力從觀察到的數據中提出新的問題或者理論,對這一理論進行實驗設計與具體測試,而后得出結論并分享相關結果。Scriffignano注意到,大多數組織只要求數據科學家給出可重復使用的模型,他強調只有將數據科學家視為改進與創新工作中的關鍵,才能幫助組織邁向成功。他還指出,正是由于不愿放權讓數據科學家們接觸單純模型開發之外的新領域,才導致眾多組織長期無法真正在數據科學與AI技術領域取得進展。
挑戰:治理與倫理
除了從大數據集中獲取價值的問題之外,Scriffignano認為,人工智能與數據科學還面臨著來自治理與倫理層面的諸多挑戰。這一點在涉及個人信息時體現得尤其明顯。在建立大型數據庫并使用私人信息建立智能模型時,我們該如何保證以負責任的方式使用這些私人信息?
目前世界各國之所以開始以愈發嚴格的態度審查機器學習模型,一部分原因就是這類模型往往涉及大量隱私性與安全性因素。無論模型關注哪些具體特征,隱私與安全都已經成為無法回避的現實問題。Scriffignano提出一個有趣的觀點,認為AI法規終將陷入為了滿足需求而努力迎合所有人、又為了迎合所有人而產生更多需求的怪圈或者說泥潭。人們希望進一步提升模型的自定義空間與開發開放式,但又不愿意在隱私權方面做出妥協。
一部分企業與個人將從使用大量數據的模型當中受益,這些模型需要龐大的數據基礎以做出更精確的預測,但這同時也將以獲取大量私人信息為代價。有些人可能不希望自己的數據被囊括在這些模型當中,而這又反過來導致模型的精度有所下降。結果就是,面對機器學習模型的發展與所需數據量的擴展,總會有人對現狀感到不滿。
Scriffignano堅信,政府監管機構如果希望在保障國家安全的同時回避與隱私相關的問題,那么最好的辦法是對技術發展抱有開放的態度。在世界上的不同地區,法律與法規的制定與細則總會存在很大差異,不同司法管轄區間對于道德倫理的認識同樣可能不太一致。這種現象目前已經體現得相當明確:歐洲在道德倫理方面約束得最為嚴格,中國對隱私保護的關注度不高,而美國則處于二者之間。某些國家更希望強調隱私保護,而另一些國家則更重視國家安全或者經濟發展。
正如Scriffignano所提到,其中的核心問題是,機器學習本身并不存在地理界限。在某個區域內完全不可接受的實踐,在另一個地區則可能并無不妥。因此,模型的構建位置與使用位置也可以據此有所區分。畢竟模型的傳播往往很難控制,所以這種低隱私要求區域生產、高隱私要求區域消費的作法很可能成為未來的通行方案。
在本次播客節目中,Scriffignano還表達了自己對于擬人化AI的厭惡之情。他更愿意選擇較為務實的思路,這不禁讓我們想起由算法與流程驅動的目前這波AI技術變革。Scriffignano以人工通用智能(AGI)為例,提出了自己的具體觀點。他認為,如果我們無法以所掌握的大量數據為基礎提出正確的問題,那么人工智能的真正突破永遠無法到來。
他還預見出一種未來,認為專業人士將與AI攜手并進。只要我們保持警惕,就不必擔心徹底被機器或者機器人所取代。為了實現這樣的美好未來,我們當然需要保持審慎的心態并高度重視數據倫理與治理問題。只有這樣,AI才能真正成為通往全新時代的橋梁。