這些令人毛骨悚然的“假人”預(yù)示著人工智能新時代的到來
譯文【51CTO.com快譯】你可以清晰看到“他”嘴唇上的胡茬,前額的皺紋,皮膚上的斑點,但“他”并不是一個真實的人。“他”是被制造出來的,他“誕生”于Datagen公司。這個公司制造了成千上萬的“假人”。這些“人”不是游戲或電影中的虛擬角色,而是為了滿足深度學(xué)習(xí)算法日益增長的需求而制作的合成數(shù)據(jù)。
對使用人工智能感興趣的公司往往會面臨一個巨大的挑戰(zhàn)——需要足夠正確的數(shù)據(jù)來訓(xùn)練他們的系統(tǒng)。這類公司需要大量帶有標(biāo)簽的歷史示例來訓(xùn)練AI系統(tǒng),尤其是那些使用圖像和視頻的系統(tǒng)。這種需求催生了一個專門幫助其他企業(yè)注釋數(shù)據(jù)的子行業(yè)。但是還有另一種方法來產(chǎn)生足夠的數(shù)據(jù)來訓(xùn)練AI系統(tǒng):“制造”它。
真實世界數(shù)據(jù)的收集不僅耗時且昂貴,像Datagen這樣的公司提供了一個引人注目的替代方案——他們會為你制造合成數(shù)據(jù):以你想要的方式,在你想要的時候——而且相對便宜。
為了制造合成數(shù)據(jù),首要先掃描真實的人類。Datagen與供應(yīng)商合作,以付費方式招募志愿者,讓志愿者進(jìn)入巨大的全身掃描儀,捕捉從虹膜、皮膚紋理到手指彎曲的每一個細(xì)節(jié)。獲得原始數(shù)據(jù)后再通過一系列算法處理,開發(fā)出人體、面部、眼睛和手的3D模型。
這家總部位于以色列的初創(chuàng)公司表示,它已經(jīng)和美國四大科技巨頭(未公開)達(dá)成合作。和它最對標(biāo)的公司合成人工智能(Synthesis AI)也提供按需數(shù)字人類。此外,也有其他公司生成用于金融、保險和醫(yī)療保健的數(shù)據(jù)。有多少種類型的數(shù)據(jù)需求,就有多少種合成數(shù)據(jù)公司。
曾經(jīng),合成數(shù)據(jù)被認(rèn)為不如真實數(shù)據(jù)令人滿意,但現(xiàn)在卻被一些人視為“靈丹妙藥”。真實數(shù)據(jù)雜亂無章且充滿偏見,而新的數(shù)據(jù)隱私條例又讓數(shù)據(jù)收集“雪上加霜”。相比之下,合成數(shù)據(jù)是原始的,可以用來構(gòu)建更多樣化的數(shù)據(jù)集。你可以制作出完美標(biāo)記的人臉,比如不同年齡、臉型和種族的人臉,從而構(gòu)建一個可以跨人群工作的人臉檢測系統(tǒng)。
但合成數(shù)據(jù)也有其局限性。如果它不能反映現(xiàn)實,它最終會產(chǎn)生比混亂的、有偏見的真實數(shù)據(jù)更糟糕的AI——或者繼承同樣的問題。數(shù)據(jù)科學(xué)家、算法審計公司ORCAA的創(chuàng)始人凱西·奧尼爾說:“我不想對這種模式表示贊許,然后說‘哦,這能解決很多問題’。”“因為它也會忽略很多事情。”
現(xiàn)實,而非真實
深度學(xué)習(xí)一直與數(shù)據(jù)有關(guān)。在過去幾年里,人工智能領(lǐng)域已逐漸形成一種共識:好的數(shù)據(jù)比大數(shù)據(jù)更重要。即使是少量正確的、標(biāo)簽清晰的數(shù)據(jù),對提高AI系統(tǒng)的性能所起的作用也要比大量未經(jīng)整理的數(shù)據(jù)或更先進(jìn)的算法高得多。
Datagen首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Chakon表示,合成數(shù)據(jù)改變了企業(yè)開發(fā)人工智能模型的方式。起初,他們從獲取盡可能多的數(shù)據(jù)開始,然后調(diào)整算法以期獲得更好的性能;而現(xiàn)在他們或許應(yīng)該嘗試另一種方式:使用相同的算法,同時改進(jìn)他們的數(shù)據(jù)組成。但是收集真實數(shù)據(jù)來執(zhí)行這種迭代實驗的成本過高而且耗時也長。Datagen的作用就在于此。有了合成數(shù)據(jù)生成器,團(tuán)隊可以每天創(chuàng)建和測試幾十個新數(shù)據(jù)集,以確定哪一個能最大限度地提高模型的性能。
為了確保數(shù)據(jù)的現(xiàn)實性,Datagen向其供應(yīng)商提供了詳細(xì)的說明,說明每個年齡層、BMI范圍和種族需要掃描多少人,以及他們要執(zhí)行的一系列動作,比如在房間里走動或喝汽水。供應(yīng)商發(fā)回這些動作的高保真靜態(tài)圖像和動作捕捉數(shù)據(jù)。然后,Datagen的算法將這些數(shù)據(jù)擴展為成千上萬種組合。有時合成數(shù)據(jù)會再次復(fù)檢,比如,將合成人臉與真實人臉進(jìn)行對比,看它們是否貼合現(xiàn)實。
Datagen公司目前正在通過生成面部表情來監(jiān)測智能汽車中的駕駛員的警覺性,通過生成身體動作來跟蹤在無人商店中的顧客,通過生成虹膜和手勢來提高VR頭盔的眼手跟蹤能力。該公司表示,其數(shù)據(jù)已經(jīng)被用于開發(fā)為數(shù)千萬用戶服務(wù)的計算機視覺系統(tǒng)。
大規(guī)模生產(chǎn)的不僅僅是合成“人”。Click-Ins是一家使用合成人工智能執(zhí)行車輛自動檢測的初創(chuàng)公司。通過設(shè)計軟件,它重新創(chuàng)建了所有汽車標(biāo)識和模型,其人工智能需要識別在不同光照條件或不同背景下,以不同的顏色、損傷和變形加以渲染的各種形態(tài)。這使得該公司可以在汽車制造商推出新車型時更新其人工智能,并幫助其避免在一些國家被視為侵犯隱私。在這些國家,車牌被視為私人信息,因此不能出現(xiàn)在用于訓(xùn)練AI的照片中。
當(dāng)下人工智能在金融、電信和保險公司的應(yīng)用較為廣泛。某些情況下,企業(yè)需要以合法的方式與外部供應(yīng)商共享他們的客戶數(shù)據(jù)庫,但匿名化并不能充分保護(hù)人們的隱私。而合成數(shù)據(jù)卻可以用來生成詳細(xì)的虛假數(shù)據(jù)集,這些數(shù)據(jù)集與公司的真實數(shù)據(jù)具有相同的統(tǒng)計屬性。它還可以用來模擬公司尚未擁有的數(shù)據(jù),包括更多樣化的客戶群體或欺詐活動場景。
偽裝的極限:合成數(shù)據(jù)是否被過度炒作了?
當(dāng)涉及到隱私問題時,賓夕法尼亞大學(xué)計算機和信息科學(xué)教授艾倫·羅斯說:“雖然這些數(shù)據(jù)是‘合成的’,沒有直接對應(yīng)真實用戶數(shù)據(jù),但這并不意味著它沒有對真實人物的敏感信息進(jìn)行編碼。”例如,一些數(shù)據(jù)生成技術(shù)已經(jīng)被證明可以近距離再現(xiàn)訓(xùn)練數(shù)據(jù)中的圖像或文本,而另一些技術(shù)則容易受到攻擊,使它們完全重現(xiàn)這些數(shù)據(jù)。
對于Datagen這樣的公司來說,這可能沒什么問題,因為它的合成數(shù)據(jù)并不意味著要隱藏同意被掃描的個人的身份。但對于那些提供解決方案以保護(hù)敏感財務(wù)或患者信息的公司來說,這將是一個壞消息。
華盛頓大學(xué)科學(xué)研究所的數(shù)據(jù)科學(xué)家貝爾尼斯·赫爾曼說,研究表明,兩種合成數(shù)據(jù)技術(shù)——差分隱私和生成式對抗網(wǎng)絡(luò)——的結(jié)合可以產(chǎn)生最強的隱私保護(hù)。但持懷疑態(tài)度的人擔(dān)心,這種細(xì)微差別可能會在合成數(shù)據(jù)供應(yīng)商的營銷行話中消失,因為他們不會總是透露自己使用的是什么技術(shù)。
與此同時,幾乎沒有證據(jù)表明,合成數(shù)據(jù)可以有效地減少人工智能系統(tǒng)的偏見。首先,從一個有偏差的現(xiàn)有的數(shù)據(jù)集中推斷出新的數(shù)據(jù)并不一定會產(chǎn)生更有代表性的數(shù)據(jù)。例如,Datagen的原始數(shù)據(jù)包含的少數(shù)民族按比例減少,這意味著它使用更少的真實數(shù)據(jù)點從這些群體中生成假人。雖然生成過程并不完全是猜測,但這些假人仍然更有可能脫離現(xiàn)實。
另一方面,東北大學(xué)計算機科學(xué)副教授克里斯托·威爾遜表示,即使是完美平衡的數(shù)據(jù)集也不會自動轉(zhuǎn)化為完全公平的人工智能系統(tǒng)。如果一家信用卡放貸機構(gòu)試圖開發(fā)一種為潛在貸款者評分的人工智能算法,僅僅在其數(shù)據(jù)中代表白人和黑人,是無法消除所有可能的歧視的。歧視仍然可能由于白人和黑人申請者之間的差異無聲蔓延。
更復(fù)雜的是,早期研究表明,在某些情況下,用合成數(shù)據(jù)實現(xiàn)私人和公平的人工智能甚至是不可能的。在近期的一篇論文中,多倫多大學(xué)和維克托研究所的研究人員發(fā)現(xiàn),當(dāng)他們試圖通過差分隱私和生成式對抗網(wǎng)絡(luò)的結(jié)合來制作多樣化的合成數(shù)據(jù)集時,他們無法創(chuàng)建一個精確的醫(yī)療AI系統(tǒng)。
當(dāng)然這些事實的存在并不意味著不應(yīng)該使用合成數(shù)據(jù)。事實上,它很可能成為一種必需品。奧尼爾表示,當(dāng)要面對人工智能系統(tǒng)是否符合法律要求的質(zhì)詢時,這可能是唯一一種方法,使他們能夠靈活地生成按需的、有針對性的測試數(shù)據(jù)。但這使得關(guān)于其局限性的問題變得更加重要。“隨著時間的推移,合成數(shù)據(jù)可能會變得更好,但這絕非出于偶然。”
These creepy fake humans herald a new age in AI | MIT Technology Review by Karen Hao
https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】