成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

美國勞工統(tǒng)計局使用機器學(xué)習(xí)自動執(zhí)行數(shù)據(jù)編碼

人工智能 機器學(xué)習(xí)
在本文中,我們將一同了解他對于將機器學(xué)習(xí)應(yīng)用于政府業(yè)務(wù)場景,特別是文檔與人工流程中方面的寶貴見解。

政府機構(gòu)永遠(yuǎn)充斥著各種文件,其中又不乏大量紙質(zhì)文檔;即使是對于電子文檔,實際處理與解讀仍然需要耗費大量的人力。為此,聯(lián)邦機構(gòu)寄希望于AI技術(shù),即通過高級機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)以及自然語言處理(NLP)技術(shù)幫助改善這類文檔的處理效率,盡可能將寶貴的人力資源解放出來。雖然其中不少技術(shù)在其他行業(yè)中早已擁有成熟的應(yīng)用,并被拓展以增強各類工作流程及任務(wù),但在部分政府部門內(nèi),這些技術(shù)還完全屬于新鮮事物。

以美國勞工統(tǒng)計局(BLS)為例,該機構(gòu)的主要職責(zé)在于執(zhí)行職業(yè)傷害與疾病調(diào)查,以確保各類工作場所中常見的健康危害問題并協(xié)助制定指導(dǎo)性政策。為了完成這項任務(wù),勞工局在全國各地的辦公室中設(shè)有數(shù)十名訓(xùn)練有素的員工,專職通過工作場所內(nèi)的調(diào)查數(shù)據(jù)對各類傷害及疾病進(jìn)行分類。但是,這方面工作一直以手動方式執(zhí)行,并導(dǎo)致各類標(biāo)記、編碼錯誤乃至速度與成本瓶頸一直妨礙著整體流程的效率提升。

[[339388]]

▲ 圖:Alex Measure, 美國勞工統(tǒng)計局經(jīng)濟學(xué)家

為了簡化整個流程,勞工局決定引入機器學(xué)習(xí)技術(shù)。約十年之前,勞工局經(jīng)濟學(xué)家Alex Measure決定探索機器學(xué)習(xí)(ML)技術(shù)如何幫助該機構(gòu)改進(jìn)流程效率,他本人也與我們分享了將AI技術(shù)納入勞工局乃至整個聯(lián)邦政府當(dāng)中可能出現(xiàn)的獨特挑戰(zhàn)、各機構(gòu)在AI應(yīng)用過程中面臨的數(shù)據(jù)難題、外加未來幾年內(nèi)他最為期待的重要發(fā)現(xiàn)。

在本文中,我們將一同了解他對于將機器學(xué)習(xí)應(yīng)用于政府業(yè)務(wù)場景,特別是文檔與人工流程中方面的寶貴見解。

問:勞工局在數(shù)據(jù)收集與處理方面面臨的特殊挑戰(zhàn)是什么?

Alex Measure: 勞工局需要面向眾多方向收集大量專題信息,具體涵蓋就業(yè)、人力成本、工作時間以及工作場所傷害風(fēng)險等各個方面。在調(diào)查當(dāng)中,各領(lǐng)域間唯一的共通點在于,調(diào)查結(jié)果往往以自然語言的形式存在。在信息收集過程中,無論是采取訪談、調(diào)查或者還是其他方式,收集到的大部分內(nèi)容都是以語言形式傳達(dá)。為此,我們需要將語言轉(zhuǎn)換為統(tǒng)計數(shù)據(jù),這就是我們常說的編碼過程。

在此過程中,我們需要分配標(biāo)準(zhǔn)化分類指標(biāo)以指示值得關(guān)注的關(guān)鍵特征。例如,《職業(yè)傷害與疾病調(diào)查》每年收集數(shù)十萬份與工作相關(guān)的傷害與疾病調(diào)查資料。為了回答諸如“門衛(wèi)人員在工作中最常見的傷害原因是什么?”這類問題,我們需要認(rèn)真閱讀每一份描述,以編碼方式將對方的職業(yè)與造成傷害的因素關(guān)聯(lián)起來。接下來,我們匯總結(jié)果信息以回答實際問題。直到最近,整個流程仍然相當(dāng)枯燥繁瑣,而且大部分工作需要以手動方式完成。

在職業(yè)傷害與疾病調(diào)查方面,我們每年大約需要25000個工作時。如果希望盡快完成任務(wù),則意味著需要同時雇用更多人力、培訓(xùn)更多新雇員,并保證他們能夠以統(tǒng)一的方式對內(nèi)容做出解讀。這相當(dāng)困難,實際上我們發(fā)現(xiàn),即使是兩位同樣經(jīng)驗豐富的專家,在編寫同一份傷害說明材料時也只有70%左右的幾率針對相同的素材給出完全相同的傷害編碼分類。這樣的挑戰(zhàn)不僅存在于勞工局之內(nèi),也廣泛存在于全球各類從事類似任務(wù)的組織當(dāng)中。

問:那么勞工局是如何使用機器學(xué)習(xí)技術(shù)解決這些問題的?

Alex Measure: 七年之前,勞工局完成了《職業(yè)傷害與疾病調(diào)查》的全部編碼工作。過去一年中,我們使用有監(jiān)督機器學(xué)習(xí)(特別是深度神經(jīng)網(wǎng)絡(luò))自動完成了超過85%的處理任務(wù)。隨后,勞工局開始逐步將這些技術(shù)用于處理其他相關(guān)任務(wù),涵蓋從職業(yè)/生產(chǎn)分類,到醫(yī)療福利及工作要求的各個方面。

問:多年以來,勞工局對于AI技術(shù)的看法與應(yīng)用方式經(jīng)歷了哪些轉(zhuǎn)變?

Alex Measure: 我加入勞工局大概是12年前,那時候人們主要還是在用知識工程或者基于規(guī)則的方法進(jìn)行素材編碼。其中的基本思路是,如果希望計算機執(zhí)行某項操作,則需要明確告知它執(zhí)行任務(wù)所需要的每條規(guī)則與信息。例如,如果要對職業(yè)進(jìn)行分類,則可能需要創(chuàng)建一份清單,列出所有可能出現(xiàn)的職稱以及與職稱相對應(yīng)的職業(yè)代碼。

這種方法在處理簡單及標(biāo)準(zhǔn)化任務(wù)時表現(xiàn)不錯,但遺憾的是,即使是在職位分類這種相當(dāng)具體的應(yīng)用領(lǐng)域當(dāng)中,系統(tǒng)也幾乎無法直接處理人類語言。例如,在《職業(yè)傷害與疾病調(diào)查》中,我們發(fā)現(xiàn)每年收到的職位中約有2000種被系統(tǒng)直接對應(yīng)為“管理員”。更糟糕的是,總會出現(xiàn)某些以往從未出現(xiàn)在數(shù)據(jù)中的新職位,而且部分職位與所在行業(yè)緊密相關(guān),具體取決于特定企業(yè)的命名慣例或者行業(yè)中的傳統(tǒng)用語。結(jié)果就是,我們需要制定體量龐大且相當(dāng)復(fù)雜的規(guī)則,而這一切最終也只能支持840多種職業(yè)分類。更要命的是,這套系統(tǒng)的構(gòu)建與維護(hù)都極為困難。

有監(jiān)督機器學(xué)習(xí)帶來了一種替代方案——相較于明確告知計算機其需要了解以及執(zhí)行的任務(wù)內(nèi)容,現(xiàn)在我們可以引導(dǎo)計算機通過數(shù)據(jù)進(jìn)行學(xué)習(xí),由其自主找到執(zhí)行某些任務(wù)的最佳方法。只要大家擁有成規(guī)模的數(shù)據(jù)素材(多年以來,我們已經(jīng)積累到可觀的數(shù)據(jù)資源),那么往往只需要很少的人工投入就能構(gòu)建起一套效率極高的系統(tǒng)。在我們的案例中,勞工局在短短幾周之內(nèi)就使用自由開源軟件構(gòu)建起我們的第一套機器學(xué)習(xí)系統(tǒng),并發(fā)現(xiàn)其性能遠(yuǎn)遠(yuǎn)超越我們以往長期使用的、基于規(guī)則的昂貴方案。更令人驚訝的是,其性能甚至比我們的編碼員還要高。

與傳統(tǒng)方案相比,機器學(xué)習(xí)方法也給自動化帶來了更多發(fā)展空間。如今,勞工局與全球各統(tǒng)計機構(gòu)已經(jīng)在類似的任務(wù)中迅速推廣此項技術(shù)。當(dāng)然,機器學(xué)習(xí)在其他領(lǐng)域也擁有良好表現(xiàn)。我們正使用機器學(xué)習(xí)技術(shù)自動檢測數(shù)據(jù)錯誤,并自動匹配并標(biāo)記數(shù)據(jù)集中的缺失記錄。這對我們可謂意義重大,能夠幫助勞工局通過更多不同來源收集到大量數(shù)據(jù)。

問:AI/ML技術(shù)的介入,給原本的編碼員們帶來了怎樣的影響?

Alex Measure: 在最初考慮引入自動化解決方案時,人們普遍感到擔(dān)心,不少員工抵制自動化并將其視為一種威脅。但實際情況并非如此,我認(rèn)為這得益于我們采取的具體實施方式以及對整體狀況的綜合考量。首先,我們很早就做出決定,將自動化的重點放在提高數(shù)據(jù)質(zhì)量方面。這非常重要,因為除了數(shù)據(jù)質(zhì)量本身的意義之外,這也代表著一種非常新穎的處理方式,要求我們保證編碼流程的正確執(zhí)行、并在出現(xiàn)問題時及時啟動預(yù)先制定的可靠備份計劃。我們的規(guī)劃基本如下:

第一,將計算機最擅長的工作交由自動化處理,將人類最擅長的工作留給雇員。

第二,逐步引入自動化機制,保證員工有時間適應(yīng)工作量與工作方式的變化。

第三,由雇員負(fù)責(zé)監(jiān)督自動分配的代碼,并在他們認(rèn)為計算機存在錯誤時分配人員做出調(diào)整。

第四,將節(jié)約下的資源用于其他重要任務(wù),例如數(shù)據(jù)收集與數(shù)據(jù)審查。

結(jié)果就是,在隨后的六年時間里,越來越多的常規(guī)編碼工作逐漸被速度更快、質(zhì)量更好的數(shù)據(jù)審查與收集自動化方案所接管。這還帶來令人意外的結(jié)果,即我們對常規(guī)手動編碼的需求雖然大大減少,但模型無法處理的高難度情況仍然依賴于人類專家。因此,自動化程度越高,能夠處理的總數(shù)據(jù)量就越大,其中需要人為介入處理的數(shù)據(jù)同樣更多。結(jié)果就是,負(fù)責(zé)人為調(diào)整以及驗證機器學(xué)習(xí)系統(tǒng)是否正常運行的雇員反而有所增加。

問:您能否分享一些在勞工局的應(yīng)用場景中,AI技術(shù)發(fā)現(xiàn)的有趣或者令人意外的洞見?

Alex Measure: 就個人來看,我認(rèn)為這里有兩個令人印象深刻的驚喜。首先就是自由開源軟件的存在,居然讓機器學(xué)習(xí)系統(tǒng)的構(gòu)建變得如此輕松,且實際表現(xiàn)遠(yuǎn)優(yōu)于我們以往使用的高成本、基于規(guī)則的方法。第二點在于,這類系統(tǒng)在編碼分配準(zhǔn)確率方面比經(jīng)過培訓(xùn)的人類編碼員更高。這一切都是我們剛開始難以想象的,事實上整個勞工局都花了一段時間才適應(yīng)如此出色的效果,而且其結(jié)果確實非常穩(wěn)定。

平均來看,我們的機器學(xué)習(xí)系統(tǒng)自上線以來就一直在編碼準(zhǔn)確率方面超越了人類雇員,而且二者的差距隨著大量數(shù)據(jù)的涌入以及隨之進(jìn)行的后續(xù)訓(xùn)練而越來越大,這也促使我們逐步轉(zhuǎn)向更強大的機器學(xué)習(xí)算法——例如深度神經(jīng)網(wǎng)絡(luò)。

問:我們在數(shù)據(jù)使用方面面臨著哪些獨特挑戰(zhàn)?這些挑戰(zhàn)是否會成為政府機構(gòu)在使用AI技術(shù)方面的障礙?

Alex Measure:最大的挑戰(zhàn)之一在于數(shù)據(jù)保密性。機器學(xué)習(xí)需要大量數(shù)據(jù),政府機構(gòu)則擁有著豐富的實用性數(shù)據(jù),但卻不能任意公開加以使用——這無疑限制了各機構(gòu)使用機器學(xué)習(xí)技術(shù)的具體途徑。例如,在我們第一次嘗試使用深度神經(jīng)網(wǎng)絡(luò)時,我們無法直接使用云資源,因為現(xiàn)有政策對此明令禁止。這就構(gòu)成了大問題,因為勞工局自身顯然沒有充足的硬件以訓(xùn)練我們需要的各類神經(jīng)網(wǎng)絡(luò)模型。最終,我們通過內(nèi)部采購及安裝必要硬件解決了這個問題,但相當(dāng)一部分其他機構(gòu)恐怕難以跨過這道門檻。

另一大重要挑戰(zhàn)在于模型共享。當(dāng)勞工局開發(fā)出能夠自動對職業(yè)或傷害進(jìn)行標(biāo)準(zhǔn)化類別劃分的機器學(xué)習(xí)模型時,這一成果不僅能夠服務(wù)于勞工局自身,對于其他處理類似任務(wù)的聯(lián)邦機構(gòu)也同樣意義深遠(yuǎn),甚至能夠給外部研究機構(gòu)及研究人員帶來巨大幫助。由于我們掌握著大量相關(guān)數(shù)據(jù),因此勞工局等政府機構(gòu)在訓(xùn)練這類模型方面擁有著特殊的優(yōu)勢地位。但有研究表明,這類模型可能在無意之間透露出訓(xùn)練過程中所使用的的數(shù)據(jù)信息,這就要求我們在模型共享方面小心再小心。近期其他研究表明某些技術(shù)有望緩解這些風(fēng)險,勞工局已經(jīng)開始進(jìn)行探索,但這仍是一項極為艱難的挑戰(zhàn)。

問:從更廣泛的角度來看,聯(lián)邦政府中的哪些領(lǐng)域有望在AI技術(shù)的推動下實現(xiàn)顯著的效率提升?

Alex Measure: 我在政府機構(gòu)工作的時間不短了,在我看來幾乎每個聯(lián)邦機構(gòu)都有望利用有監(jiān)督機器學(xué)習(xí)技術(shù),實現(xiàn)相當(dāng)一部分日常任務(wù)的自動化轉(zhuǎn)型。統(tǒng)計機構(gòu)就是最典型的一例,他們的主要工作內(nèi)容就是語言編碼與分類。目前,越來越多的統(tǒng)計機構(gòu)已經(jīng)在使用類似的技術(shù)自動檢測錯誤,并匹配來自不同數(shù)據(jù)集的記錄內(nèi)容。

問:聯(lián)邦機構(gòu)可以采取哪些措施以吸引那些具備技術(shù)創(chuàng)新能力的高水平勞動力?

Alex Measure: 我認(rèn)為聯(lián)邦機構(gòu)最好的人才吸引方法,就是強調(diào)使命感與榮譽感。聯(lián)邦機構(gòu)關(guān)注的往往是那些最重要的任務(wù),一旦成功將造福整個國家,這對于具有強烈公民意識的人才極具吸引力。畢竟有意義的項目可不是那么容易接觸到的。我還想強調(diào)的是,外部招聘并不是吸引熟練勞動力的唯一途徑。勞工局的不少編碼項目及后續(xù)機器學(xué)習(xí)嘗試依靠的并不是外部AI專家,而是經(jīng)過培養(yǎng)、對于自動化技術(shù)抱有濃厚興趣的內(nèi)部雇員。當(dāng)然,在此期間Coursera等免費在線教育資源也發(fā)揮了重要作用。

勞工局之所以能夠走通這條道路,是因為員工已經(jīng)在統(tǒng)計領(lǐng)域擁有豐富的經(jīng)驗。可以肯定的是,成功的機器學(xué)習(xí)項目既需要強調(diào)技術(shù)的一面,也需要關(guān)注專業(yè)知識方面的積累。政府雇員對專業(yè)的認(rèn)識已經(jīng)非常深刻,互聯(lián)網(wǎng)上又有著大量能夠自由獲取的資源建立技術(shù)基礎(chǔ),二者就這樣和諧統(tǒng)一了起來。

問:展望未來幾年,您最期待哪些AI技術(shù)成果?

Alex Measure: 我的工作主要依賴于有監(jiān)督機器學(xué)習(xí),但其中仍存在著一大局限。我們需要豐富的訓(xùn)練數(shù)據(jù)才能獲得良好的性能,這里說的不是少量數(shù)據(jù),而是體量龐大、遠(yuǎn)超普通人學(xué)習(xí)所需的數(shù)據(jù)集合。在大多數(shù)情況下,我們需要為模型提供成百上千的訓(xùn)練數(shù)據(jù)示例,才能讓其掌握一種相關(guān)概念。這是個巨大的障礙,因為大多數(shù)應(yīng)用場景中并不能提供這么豐富的數(shù)據(jù)。

過去幾年當(dāng)中,研究人員們已經(jīng)在這方面取得了巨大的進(jìn)展。這種進(jìn)展主要來自兩個方面:

其一是遷移學(xué)習(xí),即將一項任務(wù)中學(xué)習(xí)到的知識轉(zhuǎn)移到另一項任務(wù)上,有時候人們也將其稱為自我監(jiān)督學(xué)習(xí)。這基本上就是將有監(jiān)督學(xué)習(xí)技術(shù)應(yīng)用于無明確標(biāo)記的數(shù)據(jù)。最近,一種流行的自我監(jiān)督語言任務(wù)開始被人們所重視,即首先收集大量文本、而后重復(fù)采樣其中的部分小規(guī)模子集、隱藏采樣中的某些單詞,訓(xùn)練模型根據(jù)上下文預(yù)測缺失的片段。只要能夠正確完成這一操作,我們即可獲得一套對語言擁有深刻理解的模型,且不需要任何顯式標(biāo)簽。接下來,我們就能通過遷移學(xué)習(xí)將該技術(shù)應(yīng)用于指向不同語言處理任務(wù)的模型,例如預(yù)測傷害分類等。如果一切順利,那么其能夠顯著降低任務(wù)自動化所需要的訓(xùn)練數(shù)據(jù)總量。這無疑為目前由于缺乏訓(xùn)練數(shù)據(jù)而無法實現(xiàn)自動化的眾多應(yīng)用場景,打開了通向機器學(xué)習(xí)的大門。

我們關(guān)注的另一個重要領(lǐng)域在于差異化隱私,其在AI內(nèi)部與外部皆有應(yīng)用。最新進(jìn)展已經(jīng)帶來一種全新機制,能夠在實現(xiàn)機器學(xué)習(xí)模型共享的同時,為基礎(chǔ)訓(xùn)練數(shù)據(jù)提供嚴(yán)格的隱私保護(hù)。一領(lǐng)域的進(jìn)展有望加快受信數(shù)據(jù)收集方之間的自動化成果流通(例如經(jīng)過訓(xùn)練的機器學(xué)習(xí)模型以及統(tǒng)計估計值),同時提升基礎(chǔ)數(shù)據(jù)的保密性水平。 

責(zé)任編輯:龐桂玉 來源: 科技行者
相關(guān)推薦

2021-03-11 10:48:33

機器學(xué)習(xí)數(shù)據(jù)清理

2024-07-16 22:45:19

2009-09-24 09:51:51

美國科技業(yè)裁員

2022-08-04 13:45:55

安全數(shù)據(jù)風(fēng)險評估隱私

2022-12-27 13:32:58

2009-04-04 20:23:04

裁員美國失業(yè)

2020-06-20 13:57:29

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)技術(shù)

2019-08-22 14:56:37

程序員大數(shù)據(jù)編程語言

2021-06-28 14:13:26

人工智能數(shù)據(jù)科學(xué)家數(shù)據(jù)

2019-09-30 10:12:21

機器學(xué)習(xí)數(shù)據(jù)映射

2021-11-14 15:13:18

存儲數(shù)據(jù)存儲技術(shù)

2018-07-20 11:10:27

男人養(yǎng)家大數(shù)據(jù)

2011-08-18 10:20:26

云計算國家統(tǒng)計局大數(shù)據(jù)

2021-03-08 21:52:44

Windows服務(wù)器程序

2024-03-14 16:29:13

DemoAI就業(yè)

2022-08-16 11:18:42

自動化機器人人工智能

2024-04-02 10:11:28

數(shù)據(jù)中心服務(wù)器IT資產(chǎn)轉(zhuǎn)移

2017-12-29 13:50:22

人工智能機器學(xué)習(xí)趨勢預(yù)測

2015-11-11 16:52:49

高清視頻會議華為

2018-11-13 12:00:58

分析員管理應(yīng)用程序
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日皮视频免费 | 欧美在线综合 | 五月婷六月丁香 | 在线观看特色大片免费网站 | 天天综合久久网 | 日韩国产在线 | 精品中文字幕视频 | 不卡一区 | 国产一区二区三区免费视频 | 午夜影院在线观看 | av网站免费在线观看 | 成人超碰| 日韩成人av在线 | 久久久久久久久久久福利观看 | 狠狠色香婷婷久久亚洲精品 | 密色视频 | 粉嫩av久久一区二区三区 | 欧美在线视频a | 97精品超碰一区二区三区 | 黑人巨大精品欧美一区二区一视频 | 精品一区二区三区91 | 欧美男人天堂 | 黄色大片免费播放 | 国产目拍亚洲精品99久久精品 | 99精品视频一区二区三区 | 日韩图区| 高清视频一区二区三区 | 国产做爰 | 天天干免费视频 | 在线播放国产一区二区三区 | 午夜精品久久久 | 四虎首页 | 国产精品一区二区在线 | 国产成在线观看免费视频 | 91在线观 | 亚洲人人 | 99re在线视频 | 91精品国产99久久 | 欧美一区二区三区在线观看 | 国产中文原创 | 亚洲在线高清 |