神經網絡的兩個重難點之一,數據處理和模型設計 原創
“ 數據是互聯網時代的石油,而數據處理是人工智能的基礎。”
神經網絡準確的說是人工智能技術,目前存在兩個比較重要的難點,數據和模型;模型作為人工智能的基礎,其重要性就不言而喻了;而作為互聯網界的石油,很多人卻忽略了數據的重要意義以及其處理手段。
目前人工智能應用面臨著兩個主要問題,其一是模型的設計問題,簡單來說就是架構和算法問題;其次,就是數據問題,人工智能在垂直領域內的應用需要高質量的數據做支撐。
從技術的角度來說,模型的架構和算法的發展需要大量的科研投入,包括技術,資金,人力等多方面的投入;一般中小企業很難搞得起來。對中小企業來說最好的選擇就是,基于現有的開源模型和模型服務商提供的通用模型做微調和訓練,因此這時數據才應該是大部分企業需要關注的問題,這也是人工智能應用的難點與重點。
數據處理
從流程上來說,數據處理有著固定的基本步驟,主要包括以下幾個大的方面:
- 任務目標
- 數據收集
- 數據處理
- 數據質檢
任務目標
首先明確了任務目標,你才能知道你需要什么樣的數據,為后續的數據準備做好規劃;比如數據來源,數據量,數據類型,數據結構等等。
數據收集
如果說數據處理是AI技術的基礎,那么數據收集就是數據處理的基礎;要想處理數據首先需要收集數據,那么數據從哪來就是一個問題。
而常見的數據收集方式有,使用爬蟲技術從網絡中爬取需要的數據;其次,使用企業內部數據,如企業介紹,文化,管理制度,經營數據等;還有可以通過從數據服務商那里購買數據。
數據來源渠道:
- 爬蟲技術
- 內部數據
- 購買數據
當然,數據收集的大前提是一切都在合理合法的范圍內進行,而不能觸犯法律問題。
數據處理
數據處理是整個數據處理流程中最復雜也是最麻煩的一個步驟;一般收集過來的數據存在很多各種各樣的問題。
比如說,數據只經過簡單分類,數據中存在很多的噪聲,無效數據以及空值等;因此,剛收集過來的數據需要經過清洗之后才能進行下一步使用。
其次,在模型的訓練過程中,存在監督訓練和非簡單訓練;因此,需要對數據進行標注;比如說哪些是汽車,哪些是人,哪些是積極的內容,哪些是消極的內容等等。
面對著復雜的數據來源和數據格式,數據處理面臨著各種各樣的問題;雖然每家企業在數據處理的流程上不盡相同,但大都需要經過以下幾個步驟:
- 數據清洗
- 數據標注
- 數據預處理
- 格式變換統一
- 數據增強
只有這樣,我們才有可能打造一個高質量的數據集供模型使用,而數據處理的難度隨著數據量的提升,其難度也同樣呈直線上升。畢竟,處理幾十M數據和處理幾十G和幾十T數據是不一樣的,其對計算性能,數據存儲,分布式計算等都有更高的要求。
數據質檢
數據質檢就是對數據處理結果的驗收,采用某種方式來驗證數據的質量和性能,以此來保證數據對模型的負面影響降到最低。
總之,數據處理是人工智能技術發展的重要前提之一,模型的性能和表現,一是依賴于模型本身,其次就是高質量的數據集。而,人工智能要想滲透到各行各業,那么就需要大量的行業垂直數據做支撐。
因此,數據處理服務存在著巨大的市場前景和需要,特別是針對中小型企業,他們沒有大企業的技術實力和數據來源,因此數據的收集和處理是他們不得不面對的問題。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/SCqlNqvwGRXmmRfP4cAHxg??
