成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習團隊需要更好的特征工程技術

人工智能 機器學習
特征工程技能是為機器學習優化的數據特征,它與數據科學本身一樣歷史悠久。但我注意到,這一技能正變得越來越被忽視。對機器學習的高需求產生了大量的數據科學家,他們在工具和算法方面擁有專業知識,但缺乏特性工程所需的經驗和特定行業的領域知識。

特征工程技能是為機器學習優化的數據特征,它與數據科學本身一樣歷史悠久。但我注意到,這一技能正變得越來越被忽視。對機器學習的高需求產生了大量的數據科學家,他們在工具和算法方面擁有專業知識,但缺乏特性工程所需的經驗和特定行業的領域知識。他們試圖用更好的工具和算法來彌補這一點。然而,算法現在是一種商品,不產生企業知識產權。

[[237583]]

像Amazon ML和谷歌AutoML這樣的通用數據正在變得商品化,基于云計算的機器學習服務(MLaaS),如Amazon ML和Google AutoML,現在可以讓毫無經驗的團隊在幾分鐘內運行數據模型并獲得預測。因此,主導權正在轉向那些在收集或制造專有數據方面發展組織能力的公司,通過特征工程實現。簡單的數據采集和模型構建已不再適用。

企業團隊可以從建模競賽的獲獎者那里學到很多東西,例如KDD杯和遺產提供者網絡健康獎,他們認為特色工程是他們成功的關鍵因素。

一、特征工程技術

為了支持特征工程,數據科學家開發了一系列技術。它們可以被廣泛地視為:

1、語境轉換

一組方法涉及將各個特征從原始集轉換為針對每個特定模型的更多上下文有意義的信息。

例如,在處理分類特征時,“未知”可能會在特定情況的上下文中傳達特殊信息。但是,在模型中,它看起來只是另一個類別值。在這種情況下,團隊可能希望引入“has_value”的新二進制功能,以將“未知”與所有其他選項分開。例如,“顏色”功能允許輸入“has_color”用于未知顏色的內容。

另一種方法是使用單熱編碼將分類特征轉換為一組變量。在上面的示例中,將“顏色”類別轉換為三個特征(“紅色”,“綠色”和“藍色”各一個)可以根據模型的目標實現更好的學習過程。

機器學習團隊還經常使用分級作為將單個特征轉換為多個特征的方法,以獲得更好的洞察力。例如,將'age'特征分為'young'為<40,'middle_age'為40-60,'old'為> 60。

其他一些轉換的例子是:

將變量的最小值 - 最大值(例如年齡)之間的值縮放到[0,1]的范圍內

將每種類型的餐廳的訪問次數除以美食的“興趣”指標

2、多特征算術

特征工程的另一種方法是將算術公式應用于一組現有數據點。公式可以基于特征,比率和其他關系之間的相互作用來創建衍生物。

這種類型的特征工程可以提供高價值,但需要對模型的主題和目標有充分的了解。

示例包括使用公式:

從“學校評級”和“犯罪率”的組合計算“鄰里質量”

通過比較訪客的“實際支出”和“預期支出”來確定“賭場運氣因素”

通過將信用卡“余額”除以“限制”來產生“利用率”

從特定時間范圍內的“最近交易”,“交易頻率”和“花費的金額”的組合中獲取RFM分數(新近度,頻率,貨幣)以對客戶進行分段。

3、先進的技術

團隊還可以選擇更高級的算法方法來分析現有數據,以尋找創建新功能的機會。

主成分分析(PCA)和獨立成分分析(ICA)將現有數據映射到另一個特征空間

深度特征合成(DFS)允許從神經網絡中的中間層轉移中間學習

二、設置成功的框架

團隊必須不斷尋找更有效的功能和模型。但是,為了取得成功,這項工作必須在有條不紊和可重復的框架內完成。以下是任何功能工程工作的六個關鍵步驟:

1.明確模型用法。首先澄清模型的主要目標和用例。整個團隊必須保持同步并以單一目的工作。否則,你會減少努力并浪費資源。

2.設置標準。構建高性能模型的過程需要仔細探索和分析可用數據。但是工作計劃也需要適應現實世界的障礙。在特征化過程中考慮諸如成本,可訪問性,計算限制,存儲約束和其他要求等因素。團隊必須盡早調整這些偏好或限制。

3.構思新功能。廣泛思考如何創建新數據以更好地描述和解​​決問題。此時,領域知識和主題專家的參與將確保您的特征工程的結果增加價值。

4.構造要素作為輸入。一旦確定了新的特征概念,請從可用數據中選擇最有效的技術來構建它們。選擇正確的技術是確保新功能有用性的關鍵。

5.研究影響。評估新功能對模型性能的影響。關于新特征增加值的結論直接取決于如何測量模型的功效。

模型性能度量必須與業務度量相關才能有意義。如今,團隊擁有大量的測量選項,遠遠超出準確性,例如精度,召回率,F1分數和接收器操作特性(ROC)曲線。

6.優化功能。特征工程是一個涉及測試,調整和改進新特征的迭代過程。此過程中的優化循環有時會導致刪除低性能特征或使用緊密變體替換,直到識別出最高影響特征。

總結

特征工程是我們現代世界的新煉金術,成功的團隊將通用數據轉化為其組織的增值知識產權。

幾項重要原則有助于推動這項工作取得成功:

  • 包括主題專業知識,以確保計劃從明確了解業務目標和模型有效性的相關措施開始
  • 通過迭代和系統的過程
  • 考慮可用的許多可能的特征選項
  • 了解并監控功能選擇如何影響模型性能
  • 將數據轉換為驅動有意義模型的專有功能的這種能力可以創造重要價值并確保組織的競爭優勢。 
責任編輯:龐桂玉 來源: IDC之家
相關推薦

2021-12-19 13:56:46

機器學習數據人工智能

2020-02-21 11:23:11

機器學習技術人生第一份工作

2017-03-18 23:19:49

2024-06-13 09:12:38

2024-09-03 11:37:48

2024-10-08 15:09:17

2024-10-08 10:16:22

2024-10-28 15:52:38

機器學習特征工程數據集

2024-10-28 00:00:10

機器學習模型程度

2012-07-12 09:37:23

Instagram工程技術

2021-05-10 16:41:19

機器學習人工智能IT

2022-09-22 09:54:56

技術選型

2024-09-29 16:26:15

2021-05-08 05:58:40

機器學習顯微鏡AI

2021-04-01 22:19:54

機器學習模型數據

2020-08-24 10:42:14

云計算IT技術

2021-04-26 17:46:33

人工智能機器學習

2016-01-22 10:38:22

機器學習

2009-12-24 11:04:21

ADO.Net技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产男女视频 | 国产日韩一区 | 久久久久国产精品人 | 国产成人99久久亚洲综合精品 | 亚洲国产网站 | 亚洲精品一区二区网址 | 国产精品久久久久久久久久久久久 | 草草影院ccyy | 美女视频黄色的 | 亚洲精品一区二区二区 | 久久久激情视频 | 中文字幕一区二区三区不卡 | 波多野结衣在线观看一区二区三区 | 日本一卡精品视频免费 | 欧美综合精品 | 久久久久国产精品一区 | 日韩av大片免费看 | 久久久www | 天天激情综合 | 超碰av免费 | 亚洲国产精品一区二区三区 | 亚洲h视频 | 亚洲一区在线播放 | 国产美女精品 | 黄色视频a级毛片 | 精品一区二区久久久久久久网精 | 国产精品一区二区三区在线 | 91精品国产高清久久久久久久久 | 成在线人视频免费视频 | 九九热视频这里只有精品 | 国产成人精品一区二区三 | 日本三级网站在线观看 | www久久久 | 精品国产精品国产偷麻豆 | 成人高清视频在线观看 | 精品国产一区二区三区日日嗨 | 91香蕉嫩草 | 男人的天堂久久 | 中文字幕亚洲欧美 | 欧美日韩在线高清 | 国产蜜臀97一区二区三区 |