大數據和機器翻譯如何結合起來對抗冠狀病毒
大數據和機器翻譯可以結合在一起對抗冠狀病毒疫情,人們需要了解這兩種技術如何提供幫助以及如何發揮作用。
歷史上很少比冠狀病毒疫情更能讓大眾意識到大數據的重要性。從世界各地收集的統計數據正在推動公共政策并塑造私人行為。以下將重點關注疫情的語言學層面,以便向決策者、醫療保健提供者以及公眾傳達基本信息。面臨的挑戰是如何跨越語言邊界交流快速變化的數據,以使基本信息不會在翻譯中丟失。但是在尋找用戶的過程中,大數據的使用也存在更多爭議。
行業領先組織使用大數據進行機器翻譯
考慮到問題的嚴重性,翻譯服務越來越依賴于機器翻譯的效率和吞吐量。根本就沒有足夠的人工翻譯和口譯員。令人高興的是,由于神經網絡方法在過去十年的應用,機器翻譯的質量得到了提高,主要是在這一領域發展的最大的科技公司,統稱為FAMGA(Facebook、蘋果、微軟、谷歌和亞馬遜)。這些公司都以自己的方式依靠大數據在領先的語言優勢上展開競爭。然而,他們不是在處理數字,而是在處理文字。
跟蹤冠狀病毒蔓延的社交媒體翻譯和隱私挑戰
Facebook公司利用大規模的樣本反向翻譯(一種基于神經機器翻譯的大數據技術),在2019年WMT競賽的多個類別中均獲得第一名,需要大量的雙語培訓數據,也就是可供參考翻譯的句子。雙語數據很難獲得,因此Facebook公司團隊使用反向翻譯作為解決方法。最終,該團隊使用了大約100億個單詞的額外數據來完成其任務。Facebook公司利用其20億個左右用戶的評論和帖子作為訓練材料,并具有無與倫比的內容訪問權限。
在語言競賽中,出于實驗目的使用發布的語言是一回事,而在新冠病毒等敏感的健康問題上利用用戶提供的信息是另一回事。正如Bruegel研究所的J.Scott Marcus所觀察到的那樣,用戶以各種方式“自愿”提供信息:在社交媒體上的帖子中,在他們使用移動服務和提供位置數據時在尋找健康信息。Marcus表示,大數據已用于對抗新冠病毒的戰略規劃,用于跟蹤潛在感染者,并為感染者和公眾提供指導、建議和信息。
翻譯與自愿收集的數據有關的隱私問題
很多人可能不知道提供“自愿”數據將被用來追蹤或暴露其行程的追蹤。不僅僅是一個國家,先從中國開始,然后是韓國、日本、以色列等其他國家,已經明確使用了部分或全部這些信息。通常,高科技公司與各國政府合作以提供其數據,盡管歐洲的通用數據保護條例等法規等隱私保護措施阻止了此類使用。
病毒跟蹤計劃使用機器翻譯實現“標準化”通信,并使公共衛生官員可以首選的語言對其進行訪問。例如,在以色列,阿拉伯語的社交媒體通信通過機器翻譯技術自動翻譯為希伯來語,其目的是尋找潛在的病毒攜帶者。
大規模機器翻譯和口譯的公共用途
機器翻譯大規模應用的另一個例子是在國際機場對乘客進行篩選。除了熱成像設備和手持測溫度儀之外,檢測人員還使用手持語音翻譯器向到達的乘客詢問他們的旅行史或醫療癥狀。
同樣的考慮也適用于向使用其他語言的公眾提供信息。提供有關冠狀病毒的最新信息是移民的一個問題。據美國之音報道,荷蘭的志愿者設立了一個健康服務臺,為不會說荷蘭語的新移民幫助。在澳大利亞在其邊境采用了一個大規模的翻譯項目。筆譯和口譯服務是澳大利亞移民和邊境保護部為同時使用人工翻譯和機器翻譯的非英語使用者提供的服務。
美國醫院的需求量很大。《紐約時報》于2020年4月報道了美國的西班牙裔冠狀病毒患者所遭受的巨大苦難,其所遭受的痛苦不成比例,約占紐約患病人數的34%。為了滿足這種需求,紐約的醫院越來越多地轉向視頻遠程口譯,醫療保健提供者可以在需要時提供口譯服務。
在冠狀病毒疫情爆發之前,在思科公司的支持下,非營利性無國界翻譯公司(TWB)推出了一項名為Gamayun的創新機器翻譯計劃,旨在幫助那些少數民族語言的人員。TWB計劃的負責人Grace Tang說:“少數族裔語言的人無法獲得重要的救生信息。”思科公司發言人表示,基于人工智能和大數據技術的語音翻譯和文本翻譯工具將在5年內幫助該計劃擴展至10種少數族裔語言。
大數據和機器翻譯項目的風險與陷阱
結合大數據和機器翻譯的項目中最著名的案例是Project Baseline,這是由Alphabet公司支持的Verily發起的。2020年3月,美國總統特朗普聲稱谷歌公司支持一項全國性的計劃,利用雙語篩選問題追蹤新型冠狀病毒。
Vital Software公司的新冠病毒癥狀檢查器也引發了類似的爭議,該檢查器在俄勒岡州可以翻譯成15種語言用。在啟動基于社區的項目時,但在選定的州,其規模仍在縣級,而不是國家一級。值得稱贊的是,考慮到從個人身上收集的大量敏感信息,該項目認真對待數據隱私問題。
在新冠病毒疫情期間,將大數據用于機器翻譯和其他目的的底線是,它是在巨大的壓力下動態完成的,這幾乎總是會導致偷工減料和高期望值,但這并不總是能夠滿足。Facebook公司在WMT的應用報告中表示,其收集數據是嘈雜且次優。希望在疫情期間,將大數據和機器語言方法相結合的努力也能取得成功,為對抗疫情提供幫助。