2019自然語言處理前沿論壇:聚焦機器“讀、寫、說、譯”,探尋NLP未來之路
人工智能的本質是讓機器像人一樣感知世界、認知世界。以語言和知識為研究對象的自然語言處理(NLP)技術是人工智能的核心問題之一。5月26日,百度、中國計算機學會中文信息技術專委會和中國中文信息學會青工委聯合舉辦“2019自然語言處理前沿論壇”。
百度高級副總裁、ACL Fellow王海峰博士為論壇做開場致辭。他表示,“語言是人類思維和交流的載體,同時也是人類知識凝練和傳承的載體。自然語言處理技術不僅僅需要算法、算力和數據,同時也需要不斷地凝練知識,需要語言處理跟我們認識世界、改造世界的過程相結合,所以仍然有很多創新突破的空間。”他希望通過本次論壇,青年學者們能夠增進交流,碰撞新的火花,一起推動自然語言處理的發展及產業化的進程,在人工智能時代幫助我們的生活變得更加美好。
本屆論壇主題為“機器之‘讀、寫、說、譯’—— 探尋NLP未來之路”,包含語義計算、自動問答、語言生成、人機對話和機器翻譯5場專題報告,以及圍繞上述專題的嘉賓對話環節。本論壇匯集學術界和工業界的青年專家學者,共同探討NLP領域的***技術進展、產業應用及發展趨勢,旨在促進產學研深度融合,推動自然語言處理技術進步。
“語義計算”研究如何利用計算機對自然語言的語義進行表示、分析和計算,使機器具備語義理解能力。哈工大車萬翔教授介紹了動態詞向量的技術進展,該技術可以根據上下文更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率;復旦大學邱錫鵬副教授介紹了表示學習的***進展,分析和對比了當前主流模型的基本原理和優缺點,探討了如何更好地融合局部和非局部的語義關系,如何更好地加入先驗知識,以及針對目前復雜網絡模型的簡化和加速。北京大學孫栩研究員開展了關于稀疏化深度學習的研究,提出簡單有效的算法來簡化神經網絡,僅用全梯度的子集來更新模型參數,大幅降低了訓練和解碼復雜度。百度主任架構師孫宇介紹了百度最近提出的知識增強語義表示模型ERNIE,基于實體、短語等知識進行建模,在語言推斷、語義相似度等多個任務上取得了大幅提升。
“自動問答”專題探討機器的“閱讀”能力,讓機器閱讀文本,然后回答和閱讀內容相關的問題。機器閱讀理解可以使機器具備從文本數據中獲取知識并運用知識的能力,是問答領域的關鍵技術之一。中科院自動化所副研究員劉康介紹了文本閱讀理解的基本框架和方法。他表示,構建合理的數據集對于閱讀理解任務非常重要,而如何更好的融合知識是未來的重要研究方向。百度資深研發工程師劉璟介紹了深度融合文本表示與知識表示的模型KT-NET,以及百度發布的面向真實應用的中文閱讀理解數據集DuReader 2.0。基于此數據集,百度、中國計算機學會和中文信息學會連續兩年舉辦了機器閱讀理解評測,共同推動中文閱讀理解技術的進步。
“語言生成”專題聚焦如何讓計算機像人一樣使用自然語言進行表達和創作。北京大學萬小軍教授介紹了自然語言生成(NLG)技術和應用的***進展,指出自然語言生成目前面臨兩大挑戰,首先是對生成文本的質量評估,其次是平行數據的缺失。如果這些問題解決了,將極大地推動自然語言生成的發展。他同時也表示,目前的文本生成與人類還有較大差距,尤其是在綜合利用知識的方面。百度主任架構師肖欣延介紹了百度在語言生成技術方面的創新和應用,提出了基于規劃、基于信息選擇、端到端等多種模型,在文章生成、摘要生成、詩歌生成等任務上取得良好效果。此外,百度還推出了智能寫作平臺,通過提供自動寫作和輔助寫作能力,提升內容創作的效率和質量,為智能創作領域提供更多可能。
“人機對話”專題探討如何讓計算機和人類進行對話交流。清華大學副教授黃民烈回顧了人機對話的發展歷程,經典的對話系統大多采用強語義方法,而現代神經網絡方法則發展了弱語義方法,基于數據驅動和概率統計。語義理解始終是人機對話中需要攻克的難題,如何更好的結合數據和知識,是該領域需要共同努力的方向。百度主任研發架構師孫珂介紹了百度***發布的智能對話系統訓練與服務平臺UNIT 3.0,從搭建技能、構建知識、整合技能與知識三方面著眼,發布了多個核心技術和工具,大幅降低了對話系統的定制成本。
“機器翻譯”是指利用計算機進行不同語言之間的轉換和生成,是自然語言處理領域中填補語言鴻溝的重要技術。清華大學副教授劉洋首先介紹了神經網絡機器翻譯的基本原理,并指出,盡管該方法取得了較大進步,但是仍然面臨許多挑戰。劉洋介紹了他們在知識驅動、可解釋性、魯棒性神經網絡機器翻譯方面的***進展。百度人工智能技術委員會主席何中軍介紹了機器同傳的主要挑戰和***進展,指出目前機器同傳面臨技術、數據、評價三個方面的挑戰。結合百度的研究成果,在現場使用了***研發的百度翻譯AI同傳。現場聽眾使用手機掃描會議二維碼,可以實時收聽譯文。
5大專題探討結束后,車萬翔、邱錫鵬、黃民烈、劉洋以及百度高級科學家呂雅娟、百度PaddlePaddle總架構師于佃海就“NLP的未來之路”展開高端對話。圍繞“最近5年NLP的突破進展”、“NLP的發展趨勢及未來5-10年的突破方向”等內容進行了精彩的分享。他們認為5年來,NLP在數據、模型、算法等多方面取得了突破性進展。中國NLP在學術界的研究及工業化應用處于國際前沿,近年來入選領域國際***會議的論文數量急劇增加,論文質量也在不斷上升。同時,我們也需要進一步加強前瞻性和原創性的工作,中國NLP的發展潛力不可小覷。談及未來發展趨勢,嘉賓們表示未來進一步融合知識、多模態、探索更類人的學習機制等會帶來NLP領域的進一步提升。
自然語言處理被譽為人工智能皇冠上的明珠。隨著自然語言處理能力的不斷發展,人工智能也在不斷的進步。自然語言處理技術被廣泛應用于智能搜索、深度問答、對話系統、智能寫作、機器翻譯等領域,為廣大用戶提供更智能的體驗,滿足用戶對信息和服務的需求,同時也越來越多地在金融、服務、零售、制造業等行業中應用,促進產業智能化發展。NLP的未來之路是什么?或許沒有標準答案。但是我們一直相信技術的力量。探索未來***的可能,正如王海峰所言,隨著技術發展,人們會越來越深入地理解自然語言、掌握知識,推動人工智能發揮更大的價值,為人類社會發展提供更大的助力。