了解機器學習 只需了解“三大法寶”
從綜藝節目《危險邊緣》(Jeopardy)的贏家和圍棋大師,再到不光彩的、與廣告有關的種族定性,我們似乎進入了一個人工智能發展飛速加快的時代。但是,要創造出這樣一個完全有感知能力的人——他的電子“大腦”能夠利用公平的道德判斷來完全參與復雜的認知任務,目前我們的能力還不能做到。
不幸的是,目前的事態發展讓人們普遍擔心人工智能未來可能會變成什么。它在最近流行文化中的表現表明,我們對這項技術的態度是多么謹慎和悲觀。恐懼的問題在于,它可能會造成嚴重的后果,有時還會助長無知。
了解人工智能的內部運作是解決這些憂慮的一劑良藥。而且,這種認真可以促成負責任的和令人放心的參與。
人工智能的核心基礎是機器學習,這是一種優雅而又廣泛使用的工具。但要理解機器學習的意義,我們首先需要研究它的潛力是如何絕對超過它的壞處的。
數據是關鍵
簡單地說,機器學習指的是教計算機如何通過算法來分析數據從而解決特定任務。例如,對于手寫識別,可以通過分類算法,從而分辨出不同人所寫的字母。另一方面,住房數據集利用回歸算法,以可量化的方式來評估某一財產的售價。
那么,機器學習最終歸結為數據。幾乎每一個企業都會以這樣或那樣的方式產生數據: 請想想市場研究、社交媒體、學校調查和自動化系統。機器學習應用程序試圖在大數據集的混亂中找出隱藏的模式和相關性,從而開發能夠預測行為的模型。
數據有兩個關鍵要素——樣本和特征。前者表示組中的單個元素;后者則表示它們所共有的特征。
以社交媒體為例:用戶是樣本,他們的使用可以被翻譯為特征。例如,facebook將“贊”活動的不同方面(用戶之間不盡相同)作為用于定向投放廣告的一個重要特征。
Facebook好友也可以作為樣本使用,而他們與他人的聯系也可以作為特征,建立一個可以研究信息傳播的網絡。
我的Facebook好友網絡:每個節點都是一個可能會或可能不會與其他朋友連接的朋友。節點越大,連接就越多。相似的顏色也代表著相似的社會圈子。
除了社交媒體之外,在工業過程中作為監控工具使用的自動化系統,將整個過程的時間快照作為樣本,以特定時間作的傳感器測量為特征。這使得系統能夠實時檢測出該過程中的異常現象。
所有這些不同的解決方案都依賴于向機器提供數據,并教它們在有策略地評估給定信息的情況下,實現自己的預測。這就是機器學習。
以人類智力作為一個起點
任何數據都可以被翻譯成這些簡單的概念,任何機器學習應用,包括人工智能,都將這些概念作為其構建基礎。
一旦數據被理解,就該決定如何處理這些信息了。機器學習最普遍、最直觀的應用之一就是分類。系統學習了如何根據參考數據集將數據放入不同的組中。
這與我們每天做的各種決定有直接關系,無論是對類似產品進行分組(例如針對美容產品的廚房用品),還是根據以往的經驗選擇好的電影。雖然這兩個例子可能看起來完全脫節,但它們依賴于一個基本的分類假設:被定義為已確定類別的預測。
舉個例子,當我們拿起一瓶潤膚乳時,我們會使用特定的特征列表(比如容器的形狀,或者產品的氣味)來準確地預測它是一種美容產品。一個類似的策略是通過評估一組特征(比如導演,或者是演員)來預測電影是否屬于兩類其中之一:好還是壞。
通過掌握與一組樣本相關的各種特征之間的不同關系,我們可以預測一部電影是否值得觀看,或者,更好的情況是,我們可以創建一個程序來為我們做這件事。
但要想掌握這些信息,我們需要成為一名數據科學專家,精通數學和統計學,有足夠的編程技能讓艾倫·圖靈(Alan Turing )和瑪格麗特·漢密爾頓(Margaret Hamilton)感到驕傲,對嗎?不完全是。
在日常生活中,我們都掌握了足夠多的母語,即使我們中只有少數人能涉足語言學和文學。數學也一樣,它一直都在我們身邊,所以從買東西或測量原料到遵循菜譜的變化并非一種負擔。同樣地,掌握機器學習并不是有意識和有效地對其進行利用的必要條件。
是的,世界上的確有非常優秀和專業的數據科學家,但是,任何人幾乎不花費任何努力都可以學習數據的基本知識,并改進他們觀察和利用信息的方式。
通過算法來解決問題
回到分類算法上,讓我們考慮一個模仿我們做決定的方式的算法。我們是社會的人,那么社會交往呢?***印象很重要,我們都有一種內部模式,在和別人見面的最初幾分鐘里,評估自己是否喜歡對方。
有兩種可能的結果:好的或壞的印象。對每個人來說,不同的特性(特征)都被考慮在內(即使是無意識的),基于過去的幾次相遇(樣本)。可能是語氣或外表,或者禮貌程度等。
對于我們遇到的每一個新面孔,我們頭腦中的一個模型都會記錄這些輸入,并建立一個預測。我們可以把這個模型分解成一組輸入,根據它們對最終結果的相關性進行加權。
對一些人來說,吸引力可能是非常重要的,而對于另一些人來說,幽默感或愛狗則更能說明問題。每個人都將開發自己的模型,這完全取決于她的經驗或數據。
不同的數據導致不同的模型被訓練,結果不同。我們的大腦會發展出一些機制(雖然我們對此并不完全清楚),但這些機制會確定這些因素將如何影響我們對因素的權重。
機器學習所做的是為機器開發出精確和數學的方法,從而計算結果,特別是在我們無法輕易處理數據量的情況下。現在超過了以往任何時候,數據是巨大、永恒的。有了一個可以積極使用這些數據來解決實際問題的工具,比如人工智能,這意味著每個人都應該并且能夠探索和利用這一點。我們應該這樣做,這樣不僅可以創造出有用的應用,還可以把機器學習和人工智能放在一個更光明、更不令人擔憂的角度。
現在有很多資源供機器學習使用,但這些資源確實需要一些編程能力。許多適合機器學習的流行語言都提供從基礎教程到完整的課程。只需一個下午的時間,就可以開始冒險,獲得明顯的結果。
所有這一切并不是說,具有人類思維的機器的概念不應該讓我們感到擔憂。但是,更多地了解這些想法將如何發揮作用,將使我們有能力成為積極變革的推動者,從而使我們能夠保持對人工智能的控制,而不是反過來。
(來源/Dataconomy 翻譯/機器小易 校對/文偉)