處處是“垃圾”:人工智能太缺高質(zhì)量數(shù)據(jù)了!
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
某種程度上講,人工智能已經(jīng)超越了我們過(guò)去最大膽的想象;但再看實(shí)際中,Siri甚至無(wú)法告訴用戶今天天氣如何。
問(wèn)題在于什么呢?創(chuàng)建高質(zhì)量的數(shù)據(jù)庫(kù)來(lái)訓(xùn)練和測(cè)量我們的模型仍然是件無(wú)比困難的事情。我們本應(yīng)能在一天內(nèi)收集到20000個(gè)標(biāo)簽來(lái)訓(xùn)練Reddit分類器,但實(shí)際相反,我們等待了三個(gè)月并得到了一個(gè)滿是垃圾郵件的訓(xùn)練集。
四年前,AlphaGo打敗了世界圍棋專家們,大型科技公司們對(duì)每一個(gè)能接觸到的機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司進(jìn)行了人才收購(gòu),《紐約時(shí)報(bào)》宣稱道“機(jī)器學(xué)習(xí)將對(duì)計(jì)算機(jī)技術(shù)進(jìn)行徹底改造”。
2016年,DeepMind開始建造一個(gè)人工智能來(lái)玩《星際爭(zhēng)霸2》,到2019年底,名為“AlphaStar”的人工智能程序達(dá)到了大師級(jí)成就。
好像不用幾年,Alexa就將會(huì)占領(lǐng)我們的家園,而Netflix會(huì)比我們的朋友更好地提出電影建議。
在那之后發(fā)生了什么?
更快的GPU放棄了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的消耗,并允許越來(lái)越大的模型得到訓(xùn)練。新型工具們使基礎(chǔ)建設(shè)工作更加的簡(jiǎn)單。
能夠?qū)W習(xí)運(yùn)行更主觀的任務(wù)的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也得到了發(fā)展。比如說(shuō)OpenAi的GPT-3模型,這是一個(gè)語(yǔ)言生產(chǎn)器,能夠撰寫博客文章且拿下黑客新聞網(wǎng)站的頭條。
一個(gè)關(guān)于生產(chǎn)效率的GPT-3寫的博文拿下了黑客新聞的頭條。
那么改革發(fā)生在何處?
所以為什么人工智能還沒(méi)占領(lǐng)世界?為何人們雖然能用GPT-3來(lái)生成博文,但是社交媒體公司很難將煽動(dòng)性的內(nèi)容從訂閱源中剔除?為何有了超人類的星際爭(zhēng)霸算法,但電商們?nèi)栽谕扑]我再買一個(gè)吐司機(jī)?為何模型們能夠合成現(xiàn)實(shí)的圖片(和電影)但卻無(wú)法面目識(shí)別?
模型正在進(jìn)步,而數(shù)據(jù)仍止步不前。模型們?cè)跀?shù)據(jù)集上受到訓(xùn)練,而這些數(shù)據(jù)集仍存在有錯(cuò)誤,且和創(chuàng)作者真正想表達(dá)的鮮少相符。
現(xiàn)在的數(shù)據(jù)怎么了?來(lái)也垃圾,去也垃圾
在某些情況下,數(shù)據(jù)是在基于類如鏈接和用戶協(xié)議的代理商上進(jìn)行訓(xùn)練。
比如說(shuō),社交媒體推文不是為了提供用戶最佳體驗(yàn)而得到訓(xùn)練;相反,它們只是對(duì)鏈接和協(xié)議充分利用,這是最簡(jiǎn)單的數(shù)據(jù)獲取途徑。
但是點(diǎn)贊量與數(shù)量無(wú)關(guān),駭人聽聞的陰謀論非常捉人眼球,但是你真的想在你的推文中看到他們嗎?這樣的錯(cuò)誤匹配導(dǎo)致了許多意料之外的副作用,包括有點(diǎn)擊誘餌的激增,政治上的虛假信息廣泛傳播,充滿惡意的、煽動(dòng)性的內(nèi)容廣泛存在。
在另一些時(shí)候,模型在這樣的數(shù)據(jù)集上進(jìn)行訓(xùn)練:由非母語(yǔ)使用者或由那些知道低質(zhì)量的結(jié)果永遠(yuǎn)不會(huì)被檢測(cè)到的工作者創(chuàng)立的數(shù)據(jù)集。以下面推文為例:
一個(gè)典型的標(biāo)記器會(huì)識(shí)別到“bitches”,“fucking”和“shit”并將此推文標(biāo)記為有害的,不管這些謾罵其實(shí)是基于一個(gè)正向的,向上的態(tài)度。在訓(xùn)練集中這樣的情況出現(xiàn)過(guò)無(wú)數(shù)次。數(shù)據(jù)定義模型。如果數(shù)據(jù)是錯(cuò)誤標(biāo)記的垃圾,沒(méi)有一位機(jī)器學(xué)習(xí)專家能夠防止模型也同樣無(wú)用無(wú)效。
我們需要怎樣的進(jìn)步?
數(shù)據(jù)集問(wèn)題引起了一大堆問(wèn)題。
當(dāng)遇到運(yùn)行不佳的模型時(shí),工程師們花費(fèi)數(shù)月的時(shí)間來(lái)修補(bǔ)產(chǎn)品特征和新的算法,未曾意識(shí)到問(wèn)題存在于他們的數(shù)據(jù)當(dāng)中。本應(yīng)用來(lái)凝聚親情和友情的算法,相反之下,帶來(lái)了熾熱的情緒和憤怒的評(píng)論。如何解決這些問(wèn)題呢?
(1) 熟練且高質(zhì)量的,能夠理解你正嘗試去解決的問(wèn)題的標(biāo)記器
雖然AI系統(tǒng)越來(lái)越復(fù)雜,我們需要先進(jìn)巧妙的人類標(biāo)記系統(tǒng)來(lái)教導(dǎo)和測(cè)量它們的性能。想想那些對(duì)世界有足夠了解的模型,可以對(duì)誤導(dǎo)的信息進(jìn)行分類,或者那些可以增加時(shí)間而不是點(diǎn)擊的算法。
這種復(fù)雜程度不會(huì)因?yàn)槎嘤玫图寄芄と硕岣摺榱俗屛覀兊臋C(jī)器了解仇恨言論,并識(shí)別算法的偏見(jiàn),我們需要高質(zhì)量的、它們自己也了解這些問(wèn)題的標(biāo)簽力量。
(2) 給機(jī)器學(xué)習(xí)小組和識(shí)別器交流的空間
機(jī)器學(xué)習(xí)模型在不斷變化著。今日被識(shí)別為垃圾郵件的信息明天可能不會(huì)如此,而我們永不可能對(duì)標(biāo)記口令的每一個(gè)邊邊角角都有所掌握。
正如構(gòu)建產(chǎn)品是用戶和工程師之間反饋驅(qū)動(dòng)的過(guò)程一樣,創(chuàng)建數(shù)據(jù)集也應(yīng)該如此。當(dāng)數(shù)一張圖片中的臉時(shí),卡通人物算嗎?當(dāng)標(biāo)記仇恨言論時(shí),引號(hào)在哪里?標(biāo)記器在瀏覽了成千上萬(wàn)的例子后發(fā)現(xiàn)了歧義和見(jiàn)解,為了最大化數(shù)據(jù)質(zhì)量,我們需要雙方進(jìn)行溝通。
(3) 目標(biāo)功能與人類價(jià)值觀一致
模型常常是在數(shù)據(jù)集上訓(xùn)練的,而這些數(shù)據(jù)集僅僅是它們真實(shí)目標(biāo)的近似值,從而導(dǎo)致了意想不到的分歧。
例如,在人工智能安全的辯論中,人們擔(dān)心機(jī)器智能發(fā)展到威脅世界的程度。另一些人則反駁說(shuō),這是一個(gè)在遙遠(yuǎn)的未來(lái)才會(huì)出現(xiàn)的問(wèn)題——然而,看看今天科技平臺(tái)面臨的最大問(wèn)題,這不是已經(jīng)發(fā)生了嗎?
例如,F(xiàn)acebook的使命不是獲得“贊”,而是將我們與朋友和家人聯(lián)系起來(lái)。但是通過(guò)訓(xùn)練其模型來(lái)增加喜好和互動(dòng),他們學(xué)會(huì)了傳播那些高度吸引人的內(nèi)容,但也會(huì)帶來(lái)傷害和誤導(dǎo)。
如果Facebook能將人類價(jià)值觀注入到其培訓(xùn)目標(biāo)中會(huì)怎樣?這并不是一個(gè)幻想:谷歌搜索已經(jīng)在其實(shí)驗(yàn)過(guò)程中使用了人類評(píng)估,我們正在構(gòu)建的人工智能系統(tǒng)也致力于這樣做。
一個(gè)數(shù)據(jù)驅(qū)動(dòng)的AI未來(lái)
從核心而言,機(jī)器學(xué)習(xí)是關(guān)于教導(dǎo)計(jì)算機(jī)按照我們所想的方式工作,而我們通過(guò)示以正例的方法來(lái)實(shí)現(xiàn)目標(biāo)。所以為了構(gòu)建高質(zhì)量的模型,一個(gè)機(jī)器學(xué)習(xí)工程師需要掌握的最重要技能不應(yīng)該是構(gòu)建高質(zhì)量的數(shù)據(jù)集,并確保他們與手頭的問(wèn)題相符嗎?
最終,我們關(guān)心的是AI能否解決人類的需求,而不是它是否超過(guò)了人工基準(zhǔn)。
如果你在處理內(nèi)容調(diào)節(jié),你的數(shù)據(jù)集是檢測(cè)到了惡意言論,還是也捕捉到積極向上、振奮人心的謾罵?
如果你正在建設(shè)下一代的搜索和推薦系統(tǒng),你的數(shù)據(jù)集是在設(shè)置模型的相關(guān)性和質(zhì)量,——還是令人入迷的誤導(dǎo)和引誘點(diǎn)擊?
創(chuàng)建數(shù)據(jù)集不是學(xué)校里教的東西,對(duì)于那些花了數(shù)年時(shí)間研究算法的工程師來(lái)說(shuō),專注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能夠解決自己的現(xiàn)實(shí)需求,我們需要對(duì)定義模型的數(shù)據(jù)集進(jìn)行深度思考,并賦予它們一定的人文色彩。