"機"智過人與"技"不如人 觀察及思考
9 月 21 日,中央電視一臺"機智過人"節目播出關于杭州靈隱寺每天入園游客人數預測的人工智能與人工智慧的競賽。競賽的一方為"智慧大腦"的人工智能計算,另一方為靈隱寺管理人員的經驗判斷。結果是:1)按時間段(上午10點和下午 3點),人工智能的計算誤差太大,超過30%,而經驗判斷的誤差為 3%左右,因此被部分評委認為是"技不如人";2)按一天(至下午6點閉園),人工智能的計算誤差小于5%,勝出(被評為"機智過人" )。
據介紹,該人工智能的計算算法是經過交叉檢驗,其方法是在三年的入園游客的統計中,隨機去掉一天,并以計算數據插入,對比誤差應小于 5%。而對于在競賽中時間段上所出現的計算大誤差現象則被解釋為,是由于即時獲取入園游客的數據與計算算法在時間上存在偏差,屬于人為錯誤。
然而,事實上,在對"人工智能"的研究和應用中,類似于"'機'智過人"之命題正是目前普遍存在的一個挑戰(或態勢與感知)。觀察及思考如下:
1)數據及其相關的關聯性
以靈隱寺的"機智過人"算法為例,其基礎數據來源于三年的每天入園游客數量統計,應是極為精準。但是,數據的主要來源單一(門票銷售量),而每天入園游客數量必然受到當時客觀條件和環境的影響,例如,天氣、突發事件或活動、周一到周日的出行習慣等等。因此,門票銷售數量僅僅是個基準線(且可以近似為線性連續),而在三年間每天出現的客觀因素則是動態的、離散的,且缺少參考數據以及可量化的分析,亦即數據分析一旦缺失對多維數據的關聯,該算法是"脆弱"的,以至于難以避免計算結果出現(必然的)較大隨機誤差。
2)數據的預處理與檢驗
一般而言,"人工智能"由三個部分組成:1)輸入,2)計算,3)輸出。其中,"計算"包括建模和算法;輸入的是量化數據;輸出的是計算結果。
通常,任何算法都需要通過對輸入數據的循環學習,不斷地深度優化,力求所輸出結果的精準或達到預期的參考效果。
因此,對輸入數據的預處理對算法存在直接影響;而對計算算法的檢驗、判定計算算法輸出的置信度,也與輸入數據直接相關,不可或缺。
顯然,對輸入數據的預處理至關重要,其要素包括(但不限于):
(1)數據來源的場景(環境)以及數據采集的方式(模式);
(2)數據的分類、標識以及定性和量化的表征;
(3)數據的常規、常態、涌現、隨機的特點特性特征的差分;
(4)數據的時序,以及相應的回歸、歸納、溯源、甄別;
(5)數據的多元多源的相關性和關聯性。
因而,計算模型和算法應提供其輸入數據特征及屬性調整和變化的接口,既保證算法復雜性的可收斂(如輸入數據的降維),又必須具備魯棒性和彈性。
3)數據預處理的問題及挑戰
在大數據的環境中,必然存在著"已知"、"已知的未知"、"未知的未知"。例如,對靈隱寺的"機智過人"算法,已知三年中每天入園游客數;已知的未知是三年中每天曾發生過什么客觀事件(外部的環境因素);未知的未知是這些客觀事件對入園游客數的影響程度、概率及其關聯性。
因而,挑戰是:如何發現"已知的未知";困難是:如何應對"未知的未知";尤其是,當預測預判未來,如何假設"已知的未知"和"未知的未知"。
對此,深度的研究必須依賴于理論基礎,當且僅當理論與具體實踐相結合,"人工智能"(或"智慧大腦")才能得以持續發展,緩解"慣性"使然。
"人工智能"是數字現代化的發展必然和應用趨勢,而且是一個通用的術語。但是,必須注意到,"人工智能"在不同的應用場景具有不同的內涵和目標目的、方式方法、模式形式,以及不同的問題和挑戰。例如:
谷歌的阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智能機器人,其主要工作原理是"深度學習"(從16萬場人類對弈的圍棋比賽中學習數百萬棋譜),且至少存在三個顯著的特點:
(1)邊界明確,即對弈的規則。雖然只有兩個非常簡單的規則,而其復雜性卻是難以想象的,一共有 10170(10 的 170 次方)種可能性,沒有辦法窮舉出圍棋所有的可能結果。(觀點:規則作為邊界,規則越簡單,狀態復雜性越高。)
(2)沒有噪音。對弈的范圍清晰,棋盤上有縱橫各 19 條直線將棋盤分成 361 個交叉點;黑白二色圓形棋子,勝者沒有直接明確的目標,完全是憑直覺。(觀點:確定的和不確定的環境因素,都將直接影響目標定位的復雜性。)
(3)贏在全局。幾乎沒有一個合適的評價函數來定義誰是贏家,圍棋作為建設性的游戲,開始的時候,棋盤是空的,慢慢的下棋雙方把棋盤填滿,每一個棋子都對棋局有著"牽一發而動全身"的影響,而且必須評估未來可能會發生什么才能評估當前局勢。(觀點:事前是通過數值網絡的預測;事后是通過決策網絡的歸納;事中是預測和歸納的綜合)。
由此可見,對于"人工智能":人工智慧是充分條件(即算法是由人設計和操控,且理論是基礎),應用場景是必要條件(即數據的采集、分類及其關聯)。