為大數據與人工智能而生新職業:算法師
大家應該還記得《黑客帝國》里面Leo躲避槍林彈雨的高難度動作,這部電影,充滿了大數據與人工智能的色彩。算法師通過對數據庫的標記、對數據庫的檢測、編排,甚至對敵人發出攻擊,當時看起來相當科幻的鏡頭,如今已經是被廣泛運用的技術。
所謂大數據,即是在從各種各樣類型的數據中,快速獲得有價值信息的能力。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
從亞馬遜的比價推薦,Nefilix公司對《紙牌屋》受捧的成功策劃、微軟紐約研究院的經濟學家David Rothschild對奧巴馬到奧斯卡到NBA數據的精準預測,已經充分證明了這不是一項噱頭技術。
大數據有四個明顯的優勢:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。
人工智能是一個非常復雜的方向,也是一個跨學界的計算機學科,涉及到其他方面的知識,主要內容在于計算機學習人類的自然語言處理。我們無需去遐想如智能終結者這樣科幻的畫面,那是科學家的要研究的事。現實生活中,我們已經看到越來越多的大數據與人工智能結合的產品,如蘋果的Siri,它包含語音識別(Speech Recognition),是自然語言處理(Natural Language Processing)的一部分。在實際的應用中,起到了不少作用,包括智能手機上的服務調配,能解決用戶日常的需求。

那么這是否大數據與人工智能的結合的切合點?我們來看看簡單原理:
在《大數據:改變我們生活、工作、思考的革命》一書中,作者維克多•梅耶提到,現在的電腦系統是根據編寫程序時明確要求它們遵循的規則來進行運算的。因此,當一個結果偶爾無可避免地出錯的時候,我們可以回過頭Recode。無論電腦代碼如何復雜,任何代碼都是可以追中并理解運算的基礎。
但大數據的追蹤變得困難許多。首先算法預言的基礎可能會復雜得讓常人難以理解。谷歌翻譯在判斷一個單詞的翻譯方法卻動用了數十億頁的翻譯資料。 這種基于海量數據大量的統計運算,使得人們幾乎不可能追蹤算法具體的因素。同時,由于大數據的規模體量,其運作的規模也超乎我們的想象。谷歌分辨幾個搜尋關鍵詞和流感的關聯是測試四億五千萬個數學模型的結果。
如果要說服客戶使用這套技術,便需要算法師來幫助調整,從事這個職業的人,都需要哪些要求?
首先,這些專業人士是計算機科學、數學和統計學方面的專家。日常工作中,他們會檢查大數據的分析和預報。他們會評價數據源,分析預報,作出底層的算法模型,當人們需要檢測算法的原理,他們會調出算法的結果、統計方法及數據庫。簡單說,算法師擔當的是一個篩選數據的職能。
計算機發展至今,積累的龐大數據庫需要有人對其進行編排組織,給以針對性地利用。在這里算法師又分為外部算法師與內部算法師。外部算法師可以在政府需要的時候,比如法庭發出命令或頒布規章,以中立審計師的身份檢查大數據預報的準確性或合理性。算法師可以為大數據公司提供服務,給予專業的審計服務。
內部算法師在機構的內部監察大數據活動。他們不僅關注企業的利益,還關注被企業的大數據分析影響到的人的利益。他們監督大數據操作,任何人覺得自己被該機構的大數據預告傷害到的時候,內部算法師是他們第一個聯絡的人。他們在數據公布前檢查分析的完整性和準確性。要完成頭兩個任務,算法師必須在他們供職的企業內享有一定程度的自由和中立性。總而言之,內部算法師是企業為了維持公眾信任而生的職業。
對于算法師這份職業需求,最直接的原因是,大數據的領域還未能建立起新的規范準則約束企業。算法師通過設計一套系統,為社會解析對個人數據等安全上的擔憂設立保障,對于這份打開黑匣子的職業,有人感興趣嗎?