聯想與巴西創新中心CESAR利用人工智能讓聽力正常人看懂手語
聯想和巴西累西腓高級研究與系統中心(CESAR)開發了一款基于人工智能(AI)的應用程序,能夠為聽力正常的人“翻譯”手語。
根據巴西地理與統計研究所 (IBGE) 數據顯示,巴西有超過 230 萬人因嚴重耳聾而面臨溝通困難,他們使用巴西手語 (Libra) 和葡萄牙手語 (LGP) 以及幾種地區手語為方言。這一挑戰的規模和復雜性促使聯想啟動了為期五年的研發項目,投資額超過 400 萬美元。
聯想和CESAR利用包含數千個巴西手語視頻的數據庫,開發了一項獲得專利的人工智能技術,能夠以視覺方式識別個人手勢并將其置于上下文中。CESAR 和聯想將該舉措描述為世界首創,具有普遍應用的潛力。
聯想巴西研發總監 Hildebrando Lima 在接受《福布斯》采訪時表示:“我們相信,對這些人的影響將比在線翻譯對書面語言的影響更大?!?/p>
Lima指出:“在在線翻譯之前,已經有了在線詞典,但它們并沒有解決許多人在理解符號時面臨的困難——有時是由于缺乏練習或缺乏學習材料和講師”,并補充說這項技術將會崩潰當這些障礙充分發展時。
實時聊天翻譯工具允許聽力障礙者對設備的攝像頭進行簽名,然后算法將其立即翻譯成葡萄牙語文本,供另一方的接收者使用。人工智能及其附帶的數據庫不是單獨翻譯每個手勢,而是通過分析手部輪廓以及最重要的是手語者骨骼的數字樞軸點來識別手部形狀。通過準確處理這些動作,該算法可以識別句子結構并將其轉換為葡萄牙語的文本。
該系統基于深度學習神經網絡,架構類似于GPT-3等模型,用于葡萄牙語到巴西手語的翻譯和識別,便于實時手語翻譯。為了生成手語視頻,這些組織使用生成對抗網絡 (GAN) 模型創建了一個合成口譯員(類人虛擬化身)。
然而,CESAR 高級技術數據科學家經理 Vitor Casadei 表示,應用程序的復雜性要求開發人工智能系統來自動執行眾多任務?!袄纾瑘F隊精心設計的計算機視覺系統促進了訓練數據庫(用于訓練標志識別模型的記錄)的創建”,該高管指出。
一個由 80 人組成的團隊(其中包括 5 名聽力障礙專業人員)參與了該項目以及該系統所服務的社區。Casadei說:“除了團隊中的聾人專業人士之外,聽力障礙社區的參與對于該項目也至關重要。”他補充說,有數十名聾人參與了該工具的設計、驗證和測試過程。
全球意義
聯想的計劃是將系統的使用擴展到全球其他手語,利用正在申請專利的程序,利用不同手語之間的共性來加快學習過程。
“多項研究表明,手語與口語有一些共同點。我們開發了一種技術,考慮到這一事實,因此可以利用[巴西手語]培訓中學到的知識,加速學習其他手語,取得了非常有希望的成果”,CESAR 的Casadei說。
聯想的 Lima 表示,計劃到 2024/25 年將該項目擴展到國際市場,首先是拉丁美洲和美國。“我們認為(美國)的用例需求非常相似”,該高管表示。
雖然最初的重點在于銀行和零售等領域,但最終目標是在任何公共服務環境中部署應用程序,無論是虛擬的、物理的還是混合的。此外,聯想還計劃向開發者社區提供軟件開發套件(SDK),進一步推動聽力障礙解決方案的開發。
隱私也是整個項目開發過程中的一個關鍵問題。所有參與者,從參與記錄的參與者到參與驗證和測試的參與者,都簽署了一份文件,授權將其貢獻用于研究,符合巴西的通用數據保護條例 (LGPD)。
CESAR 的 Casadei表示,為了保護用戶隱私,這些模型被設計為僅從攝像頭捕獲用于識別標志的基本數據,例如手形或身體動作。該高管指出:“從該數據集中無法識別特定人員,這確保了通用數據保護條例合規性,同時尊重用戶隱私?!?/p>
隨著越來越多的人使用該工具,該工具將不斷得到改進。這些練習將涉及不斷添加標志記錄、收集用戶反饋以及改進應用程序的校準過程。CESAR 首席執行官表示:“該團隊還開始了一些主動學習(一種讓學生通過討論、解決問題和角色扮演進行互動學習的教學方法)的實驗,盡管仍有許多工作要做,但取得了可喜的成果”。
CESAR 和聯想還探索了該工具在教育領域的潛力,特別是在手語教學方面。這些公司已提交了該領域的多項專利,目前正在接受審查。雖然手語“翻譯器”目前不包括針對能說話但聽不見的用戶的語音識別功能,但這是未來發展持續討論的話題。
最終,該系統旨在促進聾啞人作為溝通者而不只是接受者積極參與,打破現有障礙并促進更具包容性的社會。Lima總結道:“我們完全相信這項技術將徹底改變聽力和聽力障礙者之間的互動。”