在企業(yè)中操作大數(shù)據(jù)的實(shí)用人工智能技術(shù)

作者：Harris編譯 2023-09-13 07:04:34

所有技術(shù)的一個(gè)共同特點(diǎn)是利用人工智能增強(qiáng)中小企業(yè)的知識(shí)和直覺(jué)，使他們能夠?qū)Ｗ⒂诟邇r(jià)值的決策。通過(guò)避開(kāi)學(xué)術(shù)界流行的經(jīng)典監(jiān)督建模方法，這些技術(shù)通過(guò)在SME的指尖提供即時(shí)智能，專(zhuān)注于快速實(shí)用性。

三大趨勢(shì)的獨(dú)特融合幫助人工智能得到普及應(yīng)用，并使其在日常應(yīng)用中無(wú)處不在——大數(shù)據(jù)、云計(jì)算和高級(jí)算法。如今，人工智能從根本上改變了軟件的編寫(xiě)方式，并將其融入日常數(shù)字體驗(yàn)中，例如寫(xiě)電子郵件、搜索網(wǎng)絡(luò)、購(gòu)買(mǎi)服裝、搜索和聽(tīng)音樂(lè)以及建立網(wǎng)站。不過(guò)，人工智能在制造業(yè)、交通運(yùn)輸、航空、發(fā)電、金融服務(wù)和其他行業(yè)的全球基礎(chǔ)設(shè)施系統(tǒng)中的傳播速度有所放緩。

雖然這些行業(yè)擁有大量數(shù)據(jù)，但這些數(shù)據(jù)通常是：

不屬于公共領(lǐng)域；例如石油和天然氣的石油勘探或環(huán)境影響報(bào)告。
需要知識(shí)淵博的人進(jìn)行注釋?zhuān)焕鐏?lái)自燃?xì)廨啓C(jī)、水泵、壓縮機(jī)的傳感器數(shù)據(jù)。
以多種格式保存在復(fù)雜的數(shù)據(jù)存儲(chǔ)中，并且并不總是被清理；例如飛機(jī)維修日志或手冊(cè)。

這些非常現(xiàn)實(shí)的挑戰(zhàn)使得應(yīng)用那些徹底改變了互聯(lián)網(wǎng)搜索、閱讀發(fā)票、翻譯語(yǔ)言和進(jìn)行對(duì)話的人工智能技術(shù)無(wú)法原封不動(dòng)地應(yīng)用于專(zhuān)業(yè)領(lǐng)域。

工業(yè)界的人工智能從業(yè)者意識(shí)到，傳統(tǒng)的監(jiān)督機(jī)器學(xué)習(xí)方法和來(lái)自學(xué)術(shù)界和研究的大規(guī)模模型在專(zhuān)業(yè)領(lǐng)域經(jīng)常失敗，這使得商業(yè)企業(yè)中大數(shù)據(jù)的操作化變得非常困難。正如Gartner高級(jí)總監(jiān)分析師ChiragDekate在2019年所說(shuō)，“啟動(dòng)試點(diǎn)看似簡(jiǎn)單，但將其部署到生產(chǎn)環(huán)境中卻極具挑戰(zhàn)性。”

各行業(yè)采用的關(guān)鍵不是依賴(lài)數(shù)據(jù)科學(xué)家和軟件開(kāi)發(fā)人員，而是授權(quán)能夠深入了解流程和數(shù)據(jù)的主題專(zhuān)家(SME)。然而，要讓發(fā)電廠運(yùn)營(yíng)商、金融分析師、海關(guān)代理人等中小型組織能夠直觀、快速地定義、構(gòu)建和部署他們自己的專(zhuān)用人工智能，需要新的數(shù)據(jù)發(fā)現(xiàn)、工具、自動(dòng)化和驗(yàn)證方法數(shù)據(jù)科學(xué)。

在企業(yè)中實(shí)施最流行的大數(shù)據(jù)形式的一些經(jīng)過(guò)驗(yàn)證的技術(shù)包括：

通過(guò)對(duì)數(shù)字傳感器數(shù)據(jù)的正常行為建模，為計(jì)劃外資產(chǎn)停機(jī)時(shí)間創(chuàng)建早期預(yù)警。

工業(yè)運(yùn)營(yíng)通常依賴(lài)于關(guān)鍵的高價(jià)值資產(chǎn)（例如燃?xì)廨啓C(jī)）。一天的計(jì)劃外停機(jī)或停電可能會(huì)使電力公司或公用事業(yè)提供商損失約30萬(wàn)美元的收入，這對(duì)消費(fèi)者的影響可能要嚴(yán)重得多。由于它們的關(guān)鍵性質(zhì)，這些系統(tǒng)通常過(guò)度構(gòu)建冗余并具有全面的預(yù)防性維護(hù)計(jì)劃。具有諷刺意味的是，這使得傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)變得困難，因?yàn)樵谙到y(tǒng)的生命周期中很少發(fā)生故障。

正常行為建模是一種與領(lǐng)域無(wú)關(guān)的半監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，可用于通過(guò)將任何系統(tǒng)表示為過(guò)程參數(shù)的組合來(lái)快速建模任何系統(tǒng)。中小企業(yè)在歷史數(shù)據(jù)中識(shí)別系統(tǒng)正常行為的時(shí)間范圍，然后人工智能開(kāi)始學(xué)習(xí)過(guò)程參數(shù)之間的潛在關(guān)系。自動(dòng)編碼器是一種基于歷史數(shù)據(jù)訓(xùn)練并將潛在關(guān)系存儲(chǔ)為一組權(quán)重的神經(jīng)網(wǎng)絡(luò)。一旦自動(dòng)編碼器經(jīng)過(guò)訓(xùn)練，它就可以用于預(yù)測(cè)或重新生成輸入過(guò)程參數(shù)。如果并且當(dāng)過(guò)程參數(shù)的預(yù)測(cè)值或再生值與測(cè)量的歷史值不匹配時(shí)，歸一化誤差被用作“異常”或異常的度量。

在將這種類(lèi)型的正常行為模型產(chǎn)品化之前，需要根據(jù)系統(tǒng)中實(shí)際中斷和事件的歷史記錄對(duì)其進(jìn)行回測(cè)。如果選定的過(guò)程參數(shù)很好地代表了系統(tǒng)的行為，那么在任何中斷之前，一些或所有參數(shù)應(yīng)該開(kāi)始趨向于異常范圍。正常行為模型應(yīng)該通過(guò)提高異常水平來(lái)預(yù)測(cè)這一點(diǎn)。如果異常級(jí)別在停電之前持續(xù)提高到足夠高，則可用于為未來(lái)的停電創(chuàng)建預(yù)警系統(tǒng)。

在實(shí)踐中，可以使用超參數(shù)優(yōu)化自動(dòng)訓(xùn)練數(shù)十或數(shù)百個(gè)正常行為模型。創(chuàng)建目標(biāo)函數(shù)來(lái)衡量預(yù)測(cè)的準(zhǔn)確性和預(yù)警的長(zhǎng)度。這個(gè)目標(biāo)函數(shù)使得以編程方式評(píng)估和排列所有模型變體并將最好的模型部署到生產(chǎn)中成為可能。可以添加額外的調(diào)整層，以根據(jù)異常級(jí)別和用戶的偏好選擇正確的動(dòng)態(tài)閾值來(lái)發(fā)出警報(bào)。

與傳統(tǒng)建模相比，正常行為模型具有以下優(yōu)勢(shì)：

與領(lǐng)域無(wú)關(guān)。只要以合理的頻率和精度測(cè)量/記錄過(guò)程變量，就可以使用該方法。
無(wú)監(jiān)督學(xué)習(xí)。前期工作僅限于變量選擇和識(shí)別標(biāo)稱(chēng)運(yùn)行條件，通常可以由中小企業(yè)執(zhí)行。

使用點(diǎn)對(duì)點(diǎn)基于密度的聚類(lèi)在自然語(yǔ)言記錄中查找模式。

自然語(yǔ)言記錄在工業(yè)環(huán)境中非常普遍，構(gòu)成了產(chǎn)品測(cè)試、應(yīng)用程序/安全日志、設(shè)備維護(hù)、物流、運(yùn)輸?shù)葟V泛過(guò)程的基礎(chǔ)。在實(shí)踐中，企業(yè)中的大多數(shù)記錄是半結(jié)構(gòu)化記錄，具有一列或多列結(jié)構(gòu)化數(shù)據(jù)（數(shù)字、日期、類(lèi)別）和一列或多列通常為人類(lèi)消費(fèi)而創(chuàng)建的自然語(yǔ)言文本。對(duì)半結(jié)構(gòu)化記錄的需求幾乎在企業(yè)中出現(xiàn)。在理想情況下，收集的有關(guān)流程的所有數(shù)據(jù)都可以是數(shù)字、日期和多項(xiàng)選擇分類(lèi)元素。然而，在實(shí)踐中，將自然語(yǔ)言引入記錄有多種原因：

?并非所有流程模式在設(shè)計(jì)時(shí)都是已知的，導(dǎo)致“其他”或涵蓋所有類(lèi)別。

?指令或程序最好用自然語(yǔ)言表示，并隨著時(shí)間的推移不斷改進(jìn)。

?故障排除、診斷、調(diào)查等通常會(huì)產(chǎn)生以前未知的知識(shí)，從而使自然語(yǔ)言成為必要。

企業(yè)的運(yùn)營(yíng)記錄通常是功能性的/簡(jiǎn)潔的，包含拼寫(xiě)錯(cuò)誤和俗語(yǔ)，并且通常包含首字母縮略詞和行話。這使得標(biāo)準(zhǔn)搜索和自然語(yǔ)言建模技術(shù)有些無(wú)效。此外，可能有很多方法可以使用自然語(yǔ)言，因此一個(gè)全面的規(guī)范化方案是站不住腳的。例如。上述事件可以按其嚴(yán)重程度（即輕傷）分類(lèi)，也可以按受傷點(diǎn)分類(lèi)（即手部受傷）。這兩個(gè)類(lèi)別并不相互排斥，需要被視為單獨(dú)的分類(lèi)方案。如果沒(méi)有中小企業(yè)的努力，大多數(shù)自然語(yǔ)言記錄很少被分析并且未被利用。

在自然語(yǔ)言記錄中尋找有用模式的一種實(shí)用方法是點(diǎn)對(duì)點(diǎn)聚類(lèi)。為了檢索信息，中小企業(yè)首先在他們的記錄上使用常見(jiàn)的搜索技術(shù)。但是，閱讀數(shù)百個(gè)結(jié)果通常很乏味，并且簡(jiǎn)單地消耗前“n”個(gè)結(jié)果會(huì)為錯(cuò)過(guò)的信息留下空間。為了避免這些陷阱，人工智能在搜索結(jié)果上應(yīng)用了基于密度的聚類(lèi)。當(dāng)DBSCAN或HDBSCAN等基于密度的方法用于記錄的句子嵌入時(shí)，它們傾向于對(duì)語(yǔ)義相似的語(yǔ)言進(jìn)行聚類(lèi)，而不會(huì)對(duì)拼寫(xiě)、共軛、錯(cuò)別字和口語(yǔ)高度敏感。中小企業(yè)可以輕松地閱讀集群中的幾個(gè)代表性記錄以完全理解它。此外，對(duì)前“n”個(gè)集群的分析通常會(huì)暴露搜索結(jié)果中所有主要的信息模式。這些集群現(xiàn)在也可以成為分類(lèi)方案的初始候選者，該分類(lèi)方案可以逐步圍繞數(shù)據(jù)創(chuàng)建分類(lèi)結(jié)構(gòu)。當(dāng)無(wú)法提前準(zhǔn)確和完全了解中小企業(yè)意圖但可以隨著時(shí)間的推移定義和應(yīng)用時(shí)，這種技術(shù)在長(zhǎng)尾搜索問(wèn)題中不斷展示出高價(jià)值。

使用發(fā)現(xiàn)循環(huán)從文檔中檢索信息或知識(shí)

為了推動(dòng)關(guān)鍵和時(shí)間敏感的決策，每個(gè)垂直行業(yè)、政府機(jī)構(gòu)和軍事部門(mén)的分析師都會(huì)遇到大量需要處理的內(nèi)容。高管們依靠分析師準(zhǔn)確解讀報(bào)告、新聞、咨詢和調(diào)查，從而為自信、深思熟慮的決策提供決策支持。通過(guò)探索性閱讀來(lái)尋找正確的內(nèi)容在認(rèn)知上是一種負(fù)擔(dān)，并且會(huì)造成決策疲勞。此外，分析師通常會(huì)探索難以使用標(biāo)準(zhǔn)搜索工具所需的關(guān)鍵字和邏輯規(guī)則清晰表達(dá)的深?yuàn)W概念。”

在考慮上述新聞?wù)浿械臄⑹鲂晕谋臼纠龝r(shí)：

第二個(gè)示例實(shí)際上沒(méi)有使用“爆發(fā)”一詞，但中小企業(yè)可能會(huì)很快將其評(píng)估為爆發(fā)的領(lǐng)先指標(biāo)。為了解決這些深?yuàn)W的知識(shí)獲取場(chǎng)景，中小企業(yè)首先使用代表他們想要找到的想法的多個(gè)關(guān)鍵字之一來(lái)搜索他們的文檔。DiscoveryLoopAI然后從結(jié)果中選擇25-50個(gè)最具代表性的句子，并通過(guò)簡(jiǎn)單的點(diǎn)擊手勢(shì)，使中小企業(yè)能夠?qū)⒔Y(jié)果分類(lèi)為一個(gè)或多個(gè)有意義的類(lèi)別。或者，中小企業(yè)也可以從句子中指示子串以逐字提取。人工智能訓(xùn)練一個(gè)CNN分類(lèi)器來(lái)學(xué)習(xí)中小企業(yè)分配的類(lèi)別。任何未分類(lèi)的句子都會(huì)自動(dòng)分配到“不感興趣”類(lèi)別。如此訓(xùn)練的模型對(duì)原始搜索結(jié)果中的所有句子進(jìn)行推理。基于推斷的類(lèi)別預(yù)測(cè)及其相對(duì)預(yù)測(cè)置信度，人工智能呈現(xiàn)至少2組句子供中小企業(yè)審查和/或糾正——基于分配的類(lèi)別標(biāo)簽“最像標(biāo)簽x”和“最不像標(biāo)簽x”到最初的25～50個(gè)句子。由于人工智能只訓(xùn)練25～50個(gè)句子的模型并對(duì)搜索結(jié)果進(jìn)行推理，因此循環(huán)通常只需幾分鐘。同樣，每個(gè)審查組每個(gè)只有25～50句話，只需要中小企業(yè)幾分鐘的審查。這種快速迭代被稱(chēng)為發(fā)現(xiàn)循環(huán)，它使中小企業(yè)能夠快速發(fā)現(xiàn)信息，而無(wú)需關(guān)注關(guān)鍵字，而只需閱讀和做出重點(diǎn)決策。隨著中小企業(yè)管理更多的標(biāo)記句子，人工智能重新訓(xùn)練分類(lèi)或提取模型以提高準(zhǔn)確性并通過(guò)使用從標(biāo)記句子中提取的關(guān)鍵字執(zhí)行查詢擴(kuò)展來(lái)增加文檔集的覆蓋范圍。在任何時(shí)候，模型都可以針對(duì)文檔集中的所有句子運(yùn)行，以獲得與中小企業(yè)定義的深?yuàn)W概念相匹配的綜合句子子集，然后可以在分析師報(bào)告中作為證據(jù)引用或引用。

與經(jīng)典的監(jiān)督分類(lèi)方法相比，點(diǎn)對(duì)點(diǎn)基于密度的聚類(lèi)和發(fā)現(xiàn)循環(huán)都具有以下優(yōu)勢(shì)：