外媒揭秘Facebook內容清理工作:累死AI都完不成的任務
AI 只能學習見過的東西。每次Schroepfer和他的超過150名工程專家剛做出標記和清理有害材料的AI解決方案時,AI系統沒見過的新的、可疑帖子(因此也就抓不到)又冒頭了。Facebook的項目負責人Schroepfer說:“我真希望自己沒看過那些東西。”
編者按:最近一系列的丑聞讓社交網絡巨頭Facebook坐在了火山口上。“平臺是中立的,不能干涉用戶生成內容”再也不能成為借口。但是20億用戶每天產生的內容量要想清理簡直是天方夜譚。哪怕使用了AI加以輔佐,也總會有AI意想不到的情況出現。這就好比一場貓捉老鼠的游戲,又像是西西弗斯推巨石上山,每每快到山頂時,石頭就會從其手中滑脫,又得重新推回去,干著無止境的勞動。CTO 原本要幫助Facebook面向未來探索AI應用的新領域,現在不得不背負起這一沉重的負擔。Cade Metz與Mike Isaac在外媒的一篇文章報道了Facebook內容清理方面的努力。
有那么半小時,我們是坐在Facebook總部的一個會議室里的。周圍都是白板,上面放滿了藍色和紅色記號筆,我們在討論從該社交網絡剔除有害內容的技術難度。然后我們調出了一段視頻證明這種挑戰是難以對付的:新西蘭克賴斯特徹奇的槍擊案。
今年3月,一名槍手在2個清真寺射殺了51人,而且還在Facebook上進行視頻直播。公司用了大概1個小時才把視頻從網站清除。不過此時血腥鏡頭已經在社交媒體上傳播開了。
Schroepfer沉默了。他的眼里好像有東西在閃。
一分鐘后,他試圖保持鎮靜的語氣:“我們現在正致力于此事。這不會是一夜之功。但是我不希望6個月后再來一次這場對話。我們可以做得比這好得多。”
問題是此話當真還是Facebook只是在開玩笑。
過去3年,這個社交網絡就一直因為有人在其網站上發布虛假、誤導和不合適的內容的擴散而受到審查。CEO扎克伯格已經調用了一項技術,據他說可以幫助消除有問題的帖子:人工智能。
去年,在國會面前,扎克伯格作證說Facebook正在開發基于機器的系統來“識別特定類別的不良活動”,并且宣布“在5到10年內,我們將擁有AI工具”來偵測和移除仇恨言論。此后他就不斷在媒體、與華爾街的電話會議及Facebook自己的活動上重復這些話。
Schroepfer——或者內部被叫做Schrep——就是Facebook的項目負責人。他要帶領團隊開發對數百萬此類帖子進行分類和刪除的自動化工具。但是這項任務就像西西弗斯推石頭上山一樣——是徒勞的,他在最近接受的3次采訪中均承認了這一點。
這是因為每次Schroepfer和他的超過150名工程專家剛做出標記和清理有害材料的AI解決方案時,AI系統沒見過的新的、可疑帖子(因此也就抓不到)又冒頭了。再加上“不良活動”往往是旁觀者的看法,而且不要說機器了,就連人類對它是什么也意見不一致,這使得這項任務更加困難。
在一次采訪中,Schroepfer被迫承認光靠AI沒法治好Facebook的病。他說:“我的確認為現在進入了收官階段。”但“我并不認為‘一切均已解決’,可以收拾東西回家了。”
但是壓力還在。過去的一周,在克賴斯特徹奇的視頻飽受批評之后,Facebook修改了政策,對流媒體服務的使用進行了限制。周三在巴黎出席有法國總統馬克龍和新西蘭總理杰辛達·阿德恩參與的峰會時,該公司簽署了一份保證書,承諾對其用于識別暴力內容的工具進行重新檢查。
44歲的Schroepfer現在處在一個自己永遠都不想坐的位置。多年來,他的工作一直都是幫助Facebook建設和一流的AI實驗室。在這里,最聰明的頭腦將解決利用機器從照片中選出人臉等技術挑戰。他和扎克伯格希望做出一個可以跟Google,這個被廣泛視為AI研究人員實力最雄厚的公司匹敵的AI部門。所以他從紐約大學、倫敦大學以及巴黎第六大學招聘博士。
但慢慢地,他已經變成了威脅和有害內容消除者的角色。現在,他和他招進來的人很多時間都花在利用AI識別和刪除死亡威脅、自殺視頻、錯誤信息以及徹底謊言上面了。
John Lilly是Moziila前CEO,現在是Greylock Partners的風投家,1990年代中期時曾與Schroepfer一起讀計算機科學。她說:“我們誰都沒見過這樣的事情。該怎么解決這些問題沒人任何人可以求助。”
Facebook允許我們跟Schroepfer交流,因為它想展示一下AI是怎么捕捉那些討厭的內容的,大概也是因為它對人性化自己的主管感興趣。據很多認識他的人說,這位CTO經常展現他的感受。
Jocelyn Goldfein就跟Schroepfe在Facebook共事過。前者是Zetta Venture Partners的風投家,他作證說:“我見過Schrep在工作中哭過,我不認為說這樣的話是不合時宜。”
但是沒幾個人能預測到Schroepfer對我們的問題會作何反應。在其中2次采訪中,對于AI可能會是解決方案他開始傳遞的是樂觀的信息,然后就變得情緒化。他一度說有時候來上班都是一種掙扎。每次談到Facebook所面臨的問題規模以及他所擔負的要改變局面的責任時,他都會哽咽。
談到那些有問題的帖子時他說:“永遠都不可能降到0。”
“多么沉重的負擔,多么巨大的責任啊。”
2013年12月的一個星期天,Clément Farabet走進了內華達太浩湖Harrah賭場酒店的這家頂樓套房。在里面,他受到了Schroepfer和扎克伯格的歡迎。
扎克沒有穿鞋。接下來的30分鐘里,這位CEO穿著襪子來回踱步,一邊跟紐約大學AI研究人員Farabet交談。扎克伯格稱AI是“下一個大事物”,是“Facebook的下一步”。Schroepfer則坐在沙發上,偶爾插插話來強調某一點。
他們到城里來是為了招募AI人才。那一年太浩湖是NIPS(神經信息系統處理大會)的舉辦地。而NIPS是專業的AI學術會議,每年都會吸引全球的頂級研究人員到來。Facebook管理層已經引進了Yann LeCun,這名紐約大學學者被認為是現代AI運動之父之一,被招進來后他創立了Facebook的AI實驗室。把LeCun看作自己的導師的Farabet也在他們的最后人選當中。
說到扎克伯格,Farabet說:“他基本上誰都想要。他知道這一塊的每一位研究人員的名字。”
那段時間是Facebook令人陶醉的日子,然后他們的軌跡和AI工作的使命開始改變了。
當時,從Google到Twitter,硅谷最大型的科技公司都在爭相成為AI的中堅。這種技術已被互聯網公司摒棄了多年。但在大學,像LeCun這樣的研究人員已經悄悄地培育出名為“神經網絡”的AI系統,這種復雜的數學系統可通過分析海量數據自行學習任務。出乎硅谷許多人的意料,這些晦澀且多少有些神秘的系統終于開始工作了。
Schroepfer和扎克伯格希望把Facebook推入到這場競爭當中,把這一迅速改進的技術視為公司必須抓住的東西。AI可以幫助該社交網絡識別發布到網站上面的照片和視頻中的人臉,Schroepfer說,而且還可以用來進行更好的定向廣告,組織其新聞流,并進行語言翻譯。AI還可以用來提供像“聊天機器人”這樣的數字電子產品,讓企業跟客戶進行互動。
Schroepfer說:“我們打算招募全世界最好的人才。我們要建設新型的研究實驗室。”
從2013年開始,Schroepfer就一直在招募專長神經網絡的研究人員,當時該領域的明星酬金都是數百萬甚至上千萬美元(4、5年期)。在2013年的那個星期天,他們并沒有成功招到Farabet,后者后來自己創辦了一家AI初創企業,隨后被Twitter收購了。但Schroepfer從Google、NYU以及蒙特利爾大學等處挖來了幾十名頂級研究人員。
Schroepfer還組建了第二個組織,應用機器學習團隊,任務是將Facebook AI實驗室的技術轉化為現實世界的應用,比如臉部識別、語言翻譯以及增強現實工具等。
2015年底,部分AI工作開始轉化。催化劑是巴黎恐襲。在那場襲擊中,伊斯蘭激進分子殺死了130人,并導致500人受傷。事后,據匿名人士透露,扎克伯格問應用機器學習團隊Facebook可以怎樣去打擊恐怖主義。
作為回應,該團隊利用新的Facebook AI實驗室內部開發的技術來建設一套識別在該社交網絡上宣傳恐怖主義的系統。該工具會對Facebook里面提到了伊斯蘭國或者基地組織的帖子進行分析,然后把那些最有可能違背公司反恐政策的帖子標記出來。然后再對帖子進行人工審核。
這是Facebook利用AI查貼刪貼的轉折點。
這項工作很快就有了強勁的發展勢頭。2016年11月,特朗普當選美國總統,大家對Facebook網站成為虛假信息的溫床開始抵制,因為那些虛假信息可能影響到投票并且為特朗普的勝選打下基礎。
盡管該公司已開始否認自己在虛假信息傳播和選舉中所扮演的角色,但仍開始在2017年初將技術資源轉移到自動識別廣泛的有害內容上,包括裸露照片和假賬號等。它還設立了幾十個“防垃圾(integrity)”崗位,專門來跟網站不同板塊的有害內容做斗爭。
到2017年中,有害內容檢測已經成為了應用機器學習團隊工作的重心。Schroepfer說:“我們的內容理解工作的頭號優先事項顯然是誠信。”
然后,到了2018年3月,紐約時報等報道了英國政治咨詢機構劍橋分析在未經同意的情況下收割來數百萬Facebook用戶的信息,然后為特朗普的競選團隊提供投票人的檔案信息。對該社交網絡的怒火開始爆發了。
很快Schroepfer就被叫過去處理這起事件。2018年4月,他被指定為主管飛到倫敦面對英國的一個議會委員會,去回答對方有關劍橋分析丑聞的質疑。在那里,他被議會委員會的成員拷問了4個小時。
向全球直播的聽證會期間,工黨政客Ian Lucas對著面色鐵青的這位主管發問:“Schroepfer先生,你的頭兒是不是誠信的?我仍然不相信你的公司具有誠信。”
Forest Key是虛擬現實初創企業Pixvana的CEO,兩人自從1990年代末一起在一家電影效果技術初創企業共事以來就認識了。他說:“我很難看得下去。這是多么沉重的負擔啊。這是多么巨大的責任啊。”
用AI來牽制Facebook的內容問題的挑戰仍在繼續——Schroepfer的擔子很重。
“勸說工程師不要打退堂鼓”
剛到Facebook的時候,Schroepfer被看作是問題解決者。
Schroepfer從小在佛羅里達德爾雷比奇長大,他的父母經營著一個1000瓦的調頻電臺,先是放搖滾樂,后來又換成R&B,1993年,Schroepfer搬到了加州上斯坦福。他在那里本科和研究生讀的都是計算機科學,跟Lilly和Adam Nash(現為Dropbox的高管)這些技術專家混在一起。
畢業后,Schroepfer呆在硅谷,開始一段痛苦的技術事業。他先是在一家電影效果初創企業嶄露頭角,之后又成立了一家為大規模數據中心開發軟件的公司,那家公司隨后被Sun Microsystems收購。2005年,他加入了Mozilla擔任工程副總裁。這家非營利組織的瀏覽器挑戰了微軟IE瀏覽器的壟斷。當時,沒有什么技術任務比他們的項目要大。
Mozilla聯合創始人Mike Shaver曾跟Schroepfer共事過幾年,他說:“瀏覽器是復雜產品,當時的競爭格局很不可思議。甚至在他的職業生涯早期,我對他的處理能力也從來都沒懷疑過。”
2008年,Facebook聯合創始人Dustin Moskovitz從工程負責人的位置退下。Schroepfer加盟接管了他的角色。當時Facebook服務的用戶約為200萬人,他的工作是保證網站在用戶數暴漲的情況下不間斷運行。這份工作涉及到管理成千上萬的工程師,以及全球數以萬計的計算機服務器。
Schroepfer說:“大部分的工作就像是著火的巴士正在從山上滾下來但4個輪子都癟了。問題是怎么讓它繼續走。”他的的一天很大一部分是“跟工程師談話讓他們冷靜下來不要沖動想不干”因為他們整天都在處理問題。
接下來的幾年,他的團隊開發了一系列的新技術來泡那么大的一個服務(Facebook現在的用戶已經超過20億)。他們推出了新的編程工具幫助公司更快更可靠地把Facebook交付到筆記本和手機上。它引入了定制服務器到數據中心,讓龐大的服務器計算機網絡運營變得流暢。到最后,Facebook顯著減少了服務中斷。
Schroepfer說:“我已經不記得上一次跟因為擴充問題而筋疲力盡的工程師對話是什么時候了。”
因為這些努力,Schroepfer的責任也越來越大。2013年,他被提拔為CTO。他的工作變成了著眼未來,跟蹤公司應該探索的新的技術領域。想知道他的角色有多重要?他的辦公桌就在扎克伯格的旁邊,夾在這位CEO與COO Sheryl Sandberg中間。
關于Schroepfer,扎克伯格說:“他是公司很多人如何思考和運營的很好代表。Schrep的超級能力可以跨不同問題領域教導和建設團隊。我還沒跟其他任何能夠像他那樣做到這一點的人共事過。”
所以,毫不奇怪扎克伯格會找到Schroepfer去處理Facebook上所有那些有害內容。
西蘭花 vs. 大麻
最近的一個下午,在一間Facebook的會議室,Schroepfer從他的屁股筆記本電腦里取出了兩張圖片。一張是西蘭花的圖片,另一張是聚成一團的大麻花蕾。每個人都盯著這些圖片。有的不大敢確定哪個是哪個。
Schroepfer展示這些圖片是想說明一點。即便是我們當中的一些人分辨都有困難,但現在Facebook的AI系統能夠從成千上萬中圖像中找出模式,從而自行分辨大麻的蓓蕾。一旦AI標記出大麻圖片,其中很多都是附加在Facebook廣告上,利用圖片通過該社交網絡賣大麻的,公司就會找出來刪掉。
Schroepfer說:“現在我們可以主動逮住這類東西了。”
問題在于大麻與西蘭花之對決不僅是進展的信號,也是Facebook遭遇限制的標志。Schroepfer的團隊已經開發出公司用于識別和移除大麻圖片、裸體及恐怖分子相關內容的AI系統。但是那些系統不能把那些圖片全都揪出來,因為總會有預想不到的內容出現,意味著還是會有數百萬裸體、大麻相關以及恐怖分子相關的帖子繼續進入到Facebook用戶的視線。
識別流氓圖片也是AI較為容易的任務之一。建造識別假新聞或者仇恨言論的系統會更困難。假新聞很容易就能塑造成看似真實的樣子。仇恨言論也有問題,因為機器識別語言的微妙差別實在是太難了。很多微妙差異會因語言而異,而對話的上下文也會快速地演變,導致機器難以跟上。
AI Foundation是一家探索人工智能如何與虛假信息斗爭的非營利組織。其研究負責人Delip Rao把這一挑戰說成是“一場軍備競賽。”AI是根據之前出現的東西搭建的。但沒有任何東西可學的情況太常見了。行為改變。攻擊者創造出新技術。顯然,這是一場貓捉老鼠的游戲。
Rao說:“有時候你比那些導致傷害的人領先一步。有時候他們在你的前頭。”
那個下午,Schroepfer試圖用數據和數字回答我們有關貓捉老鼠游戲的問題。他說Facebook現在自動移除了該社交網絡96%的裸體內容。仇恨言論更棘手一點,他說——公司目前只捕捉到其中的51%(Facebook后來說提高到65%了)
Schroepfer承認軍備競賽元素的存在。他說,盡管Facebook可自動檢測和移除有問題的直播視頻流,但并沒有識別出3月份新西蘭的視頻,因為這段視頻跟過去任何上傳到該社交網絡的內容都不一樣。這段視頻用的是第一人稱視角,就像計算機游戲一樣。
在設計識別圖像暴力的系統時,Facebook一般都要后向拿現有圖像進行處理——那些踢貓的人,狗攻擊人,汽車撞上行人,一個人拿棒球棒揮向另一人等的圖片。但是,他說:“那些跟這個視頻均無太多的相似之處。”
那次槍擊視頻的新穎性正是它之所以令人如此震驚的原因,Schroepfer說。“這也是它沒有馬上被標記出來的原因。”并且補充說自己看了那段視頻好幾次,以弄清楚Facebook下次可以如何去識別出來。
最后他說:“我真希望自己沒看過那些東西。”