成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你需了解的機器學習算法、如何開發機器學習模型?

人工智能 機器學習 算法
創建一個優秀的機器學習模型跟創建其他產品是一樣的:首先從構思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求,不妨看看本文是如何一步一步實現的。

[[201235]]

習概念及其對業務目標的影響是非常重要的。

算法的選擇

在問題定義上的一個小變動可能需要有一個完全不同的算法來解決,或者至少要使用不同的數據輸入來構建不同的模型。一個能夠為用戶識別照片類型的約會網站可以使用無監督學習技術(比如聚類)來識別常見的主題。而如果要向特定的某個人推薦潛在的約會對象,則網站可能要使用基于輸入的監督學習,輸入數據需具體到個人,例如他們已經看過的照片。

特征的選擇

機器學習模型識別數據中的模式。輸入到模型中的數據被組織成特征(也稱為變量或屬性):這些特征都是相關的、大部分獨立的數據片段,描述了你想要預測或識別的現象的某些方面。

以前文提到的那家希望優先考慮貸款申請人外展服務的公司為例。如果我們將問題定義為“根據客戶轉換的可能性優先考慮”,我們將會得到包括類似客戶對公司各種外展活動的響應率等特征。如果我們將問題定義為“優先考慮最可能償還貸款的客戶”,我們就不會得到這些特征,因為它們與評估客戶的可能性無關。

目標函數的選擇

目標函數是你要優化的目標,或者是模型試圖預測的結果。例如,如果你向用戶推薦他們可能感興趣的商品,則模型的輸出可能是用戶在看到商品時點擊該商品的概率,也可能是用戶購買商品的概率。目標函數的選擇主要取決于業務目標,在這個例子中,你對用戶的參與感興趣(目標函數可能是點擊或停留的時間)還是對營業收入感興趣(目標函數是購買)?另一個要考慮的關鍵因素是數據的可用性:對于要學習的算法,你必須提供大量“標記”為正(用戶看到并點擊的產品)或負(用戶看到的產品,但沒有點擊)的數據點。

二、如何開發機器學習模型?

摘要: 創建一個優秀的機器學習模型跟創建其他產品是一樣的:首先從構思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求,不妨看看本文是如何一步一步實現的。

建模步驟一覽

從較高的層次上來講,創建一個優秀的機器學習模型跟創建其他任何產品是一樣的:首先從構思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然后對它進行測試以確定是否滿足需求。你需要在構思、原型設計和測試之間不斷地迭代,直到你的解決方案足夠好,并能夠投入市場,此時你就可以將其產品化,并發布出去。現在,我們來看看每個階段的細節吧。

由于數據是機器學習的重要組成部分,因此我們需要在產品開發過程之上進行數據分層,因此我們的流程如下所示:

  • 構思。讓待解決的關鍵問題和針對解決方案的潛在數據輸入保持一致。
  • 數據準備。以一種有用的格式收集和獲取數據,以便對模型進行理解和學習。
  • 原型與測試。建立一個或一組模型來解決問題,測試它們執行和迭代的程度,直到有一個模型能得到令人滿意的結果。
  • 產品化。讓模型以及數據收集與處理穩定化、規模化,以便在生產環境中生成有用的輸出。

構思

這個階段的目標是要讓模型解決的關鍵問題、目標函數和潛在的輸入作為一個整體與模型保持一致。

  • 與問題保持一致。如前所述,機器學習可用于解決真正的業務問題。請確保你的團隊和公司中的所有利益相關者就你正在解決的問題以及如何使用解決方案達成一致。
  • 選擇目標函數。待解決的問題決定了模型的目標是什么。模型試圖預測的目標函數是什么?你是否在查找數據中的模式?例如,將照片集按照某種特征分成多個組。
  • 定義質量指標。你如何衡量模型的質量?在沒有看到真正結果的時候,一般很難預見可接受的質量,但目標的定向性對此是有幫助的。
  • 集思廣益所有可能的輸入。你的目標是確定哪些數據可以幫你解決問題或者做出決定。最有幫助的問題是:“專家會如何處理這個問題”。考慮一下解決方案將以什么樣的變量或者數據為基礎。每一個可能影響人類判斷的因素是否都應該測試。請盡可能廣泛地搜集這些問題的答案。了解關鍵因素可能需要有商業方面專業的知識,這是企業或者產品人員需要在此階段中頻繁參與的重要原因之一。數據團隊將不得不將這些潛在的輸入轉化為模型特征。請注意,為了將輸入轉換為特征,可能需要額外的處理,后面我們會詳細討論這個。

數據準備

本階段的目標是收集原始數據,并將其作為原型模型的輸入。你可能需要對原始數據進行復雜的轉換才能使其成為輸入數據。例如,假設你的某個特征是消費者對品牌的看法:你首先需要找到消費者談論品牌的相關來源。如果品牌名稱包括常用詞(例如“蘋果”),則需要將品牌名稱與一般情況下的含義(與水果有關)區分開來,然后再通過觀點分析模型來運行,所有這些都要在構建原型之前完成。并非所有的特征構建起來都很復雜,但有些可能需要耗費大量的工作。

讓我們來更詳細地了解一下這個階段需要做什么:

  • 以最快的速度收集數據。首先,確定缺少了哪些數據。在某些情況下,你可能需要對必要的輸入分解到“構建塊”級別,或者是到代理級別,這樣才能更方便地獲取到數據。一旦確定下來缺少哪些數據,就要以最快捷、最簡單的方法去獲取。對于不可擴展的方法,比如手工下載或購買數據樣本,即使代價有點高但可能卻是最實際的方法。在這個階段采集太多的數據通常沒有太大的意義,因為你不了解數據是否有用,哪種格式***,等等。商業人士應該參與到這個階段中來,因為他們可以協助數據專家們從大量的渠道獲取到原本不太容易獲取的數據。請注意,在監督學習算法中,你不僅需要用于模型特征的數據,你還需要為模型的目標函數提供數據點,以進行訓練、驗證以及測試模型。回到房價那個例子,為了建立一個預測房價的模型,你需要一些包含房價的房屋信息!
  • 數據清洗與規范化。在這個階段中,數據科學或工程團隊將承擔起主要的工作職責。他們將投入大部分的精力把構思和原始數據轉化為實際的模型。數據集需要進行檢查和清洗,以避免使用不良數據以及不相關的異常值等等。同時,數據還可能會以不同的比例進行轉換,以使其更容易地與其他數據集一致,并能一起使用。特別是在處理文字和圖像的時候,通常需要對數據進行預處理,以提取相關的信息。例如,將太多太大的圖像插入模型可能會導致信息過量而無法處理,因此你可能需要降低圖片的質量、使用圖像的其中一部分或僅使用對象輪廓。對于文本,你可能需要檢測與文本相關的實體,進行觀點分析,查找常用的n-gram(經常用于表示一定數量單詞的序列)或執行各種其他的轉換。這些通常可由現成的庫來實現,無需重新發明輪子。

原型與測試

這個階段的目標是獲得一個模型的原型,測試并對它進行迭代,直到能夠得到一個足夠好并且能夠用于生產的的模型。

  • 構建原型。一旦數據準備完畢,數據科學團隊就可以開始研究實際的模型了。這個階段涉及到大量的實驗,比如選擇最相關的特征、測試多種算法等。這并不是一個簡單的任務,獲得用于生產模型在時間計劃上并不好把控。
  • 驗證和測試原型。在這個階段中,數據科學家的職責就是要確保最終生成的模型盡可能的好。他們將根據預定義的質量度量標準來評估模型的性能,比較不同算法下模型的性能,調整各種參數并對最終的模型進行性能測試。對于監督學習,需要確定模型預測的結果是否能夠滿足你的需求。對于無監督學習,根據問題的不同,有多種不同的性能評估技術。以聚類為例,你可以輕松地繪制出在多個維度上聚類的對象。如果算法使用了關鍵字來標記文檔,那么關鍵字是否有意義呢?在打標記失敗或重要用例丟失的情況下,是否有明顯的差距呢?這并不能代替更加科學的方法,但在實踐上有助于快速改進。
  • 迭代。此時,你需要與團隊一起來決定是否需要進一步的迭代。該模型與你的預期有多少相符?它是否表現得足夠好,讓你目前的業務狀況得到顯著的改善?是否有特別薄弱的方面?是否需要更多的數據點?你能想到其他特征來提高性能嗎?是否有替代數據源可以提高模型的輸入質量?等等。這些都需要集思廣益。

產品化

當原型模型能夠很好地解決業務問題,并能進入生產的時候,你就來到了這個階段。請注意,如果尚未準備好進行全面的產品化,你需要首先確定模型要擴展的比例。比如說,對于一個電影推薦工具:你可能是先對少數用戶提供推薦服務,但要為每個用戶提供完整的使用體驗,在這種情況下,模型就要根據每個用戶的相關性對數據庫中的每個電影進行排序。與僅推薦動作電影相比,這是另一個不同的擴展要求。

現在,我們來探討一下有關將模型生產化的更多的技術細節:

  • 增加數據覆蓋率。在很多情況下,你可以用比生產中更少更有限的數據來構建原型。例如,你可以根據特定客戶來構建原型,然后將其擴展到整個客戶群。
  • 擴展數據收集。一旦驗證了哪些數據對模型有用,你需要構建一種可擴展的方式來收集和獲取數據。在原型設計階段,以手動方式來收集數據還是可以的,但是對于生產,你應該盡可能地自動化。
  • 刷新數據。創建一個隨時間刷新數據的機制,以更新現有值或添加新信息。除非由于某種原因不能保留歷史數據,否則系統應該要以某種方式來持續積累更多的數據。
  • 擴展模型。這個包含了數據科學和工程學兩個方面的內容。從數據科學的角度來講,如果你更改了基礎數據,例如擴大了客戶群的數量,就需要重新訓練和測試模型。在特定數據集上工作良好的模型并不一定能適用于更廣泛或其他不同的數據集。從架構上來講,模型需要能夠在數據不斷增長的基礎上及時擴展以進行更頻繁地運行。在電影推薦示例中,可能會有更多的用戶、更多的電影以及有關每個用戶喜好的更多信息。
  • 檢查特殊值。雖然模型也許在整體上可以很好地擴展,但在某些很小但很重要的情況下可能就無法正常工作了。例如,電影推薦的平均使用效果可能還不錯,但對于家長來說,如果他們用自己的賬號為孩子選擇了電影,那么推薦系統就會顯示兒童電影。這是一個產品設計問題,你需要在產品中將父母自己的建議與為孩子的建議分開來,但是,這并不是模型可以告訴你的。

到目前為止,我所描述的是一個概念性的流程。在現實中,界限一般比較模糊,你經常需要在不同階段之間來回走動。你可能會對數據的供給不滿意,從而考慮重來,或者在模型產品化之后,你發現模型并不能很好的工作,你不得不退回去重新構建原型。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2020-12-31 08:00:00

機器學習人工智能工程師

2020-07-13 14:50:51

機器學習模型算法

2020-09-22 14:59:52

機器學習人工智能計算機

2017-07-13 10:12:58

機器學習

2022-05-18 16:24:36

PythonPyCaret機器學習

2016-11-15 15:02:00

機器學習算法

2020-12-16 15:56:26

機器學習人工智能Python

2017-03-24 15:58:46

互聯網

2021-01-25 09:00:00

機器學習人工智能算法

2024-05-23 16:48:42

機器學習算法人工智能

2017-07-07 14:41:13

機器學習神經網絡JavaScript

2021-11-02 09:40:50

TensorFlow機器學習人工智能

2022-06-02 15:42:05

Python機器學習

2018-11-14 07:41:58

機器學習算法感知器

2018-09-10 11:40:26

機器學習數據準備算法

2017-05-05 09:56:08

神經網絡模型繪畫

2018-08-03 10:30:16

算法回歸機器學習

2020-06-18 16:05:20

機器學習人工智能算法

2024-05-27 00:05:00

2023-11-02 08:32:11

機器學習人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品亚洲 | 国产精品久久久久久吹潮 | 亚洲欧美精品一区 | 男女污污网站 | 91porn在线| 国产精品一区二区在线 | 91在线最新 | 中文字幕av在线一二三区 | 中国一级特黄视频 | 亚洲欧美中文日韩在线v日本 | 古装人性做爰av网站 | 亚洲一区二区三区免费在线 | caoporn免费| 神马九九| 国产精品亚洲欧美日韩一区在线 | 国产h视频| av一区二区三区在线观看 | 亚洲国产中文字幕 | 久久久国产一区二区三区 | 91社区视频| 国产精品国产精品国产专区不卡 | 国产欧美日韩一区 | 久久国产高清 | 国产精品久久久久久婷婷天堂 | 美女爽到呻吟久久久久 | 91人人澡人人爽 | 亚洲乱码国产乱码精品精的特点 | 五月综合久久 | 99久久婷婷国产综合精品 | 精品国产不卡一区二区三区 | 成人福利视频 | 亚洲毛片在线观看 | 免费观看的av毛片的网站 | 欧美黄在线观看 | 欧美极品在线观看 | 国产精品成人国产乱 | 在线一区二区三区 | 成人免费视频在线观看 | 亚洲精品成人 | 欧美日韩在线视频一区二区 | 欧美精品成人一区二区三区四区 |