成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

盛大創新院和搜狗研究員:自然語言處理的應用

企業動態 自然語言處理
【TechWeb報道】6月26日消息,盛大創新院搜索主題院研究員賈文杰和搜狗自然語言處理助理研究員張帆今天做客第165期IT龍門陣,分享了關于自然語言處理的應用和難點。
    【TechWeb報道】6月26日消息,盛大創新院搜索主題院研究員賈文杰和搜狗自然語言處理助理研究員張帆今天做客第165期IT龍門陣,分享了關于自然語言處理的應用和難點。

盛大創新院搜索主題院研究員賈文杰:面向搜索的中文分詞系統

    盛大創新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統》的主題演講。他認為“無論是搜索還是推薦,做中文的互聯網智能化處理,分詞就是一個必不可少的步驟。”

    分詞應用的地方***個是搜索,使用分詞使得詞表大大擴大,基于詞做索引,后面的鏈條會大幅減少,倒排列表縮減會減少時間;第二個應用是上下文廣告,比如推薦系統,“不管是做閱讀、視頻還是圖片,或者是電商,基于內容相似度做推薦,不管是基于空間模型還是短本做推薦,***步分詞。”

    賈文杰介紹,中文分詞的難點***個是切分歧義,對于語言單位有多種方法,第二個難點是未登錄詞,做分詞系統沒有的詞或者是沒有出現的詞。

    基于此,中文分詞目前常見的算法包括無指導切分、基于詞典的機械分詞、基于語言模型的切分,基于字標注的切分。其中基于語言模型的方法是最常用的方法。

    “做這樣的分詞系統有哪些核心工作要做呢?***個,原子詞識別,一些簡單的命名實體,包括網址、時間、數字、日期,難點是規則整理,比如時間的表達非常多。第二個模塊命名實體識別,除了前面的命名實體,剩下的主要是人名、地名、機構名,基于正則表達式寫不出來,怎么來做?基于序列標注方法做,用一些方法把不在詞典的詞找出來。”

    訓練語言模型需要收集分詞的語料庫,目前的語料庫有富士通和北京大學做的人民日報語料庫,賓州中文樹庫,臺北中研院的樹庫。

    人民日報語料庫有1400萬詞,是***語料庫,但是問題是缺少新詞,創立年限太久,表達方式語序發生了很大變化,還有規模仍然不夠大。

    賈文杰介紹了盛大創新院推出的盛大云分詞,它的優點是是分詞結果較好,分詞更快、而且是活的分詞,分詞保持不斷更新,再者針對搜索進行了優化,***還支持中英文之外的其他語言分詞。

搜狗自然語言處理助理研究員張帆:搜索查詢意圖識別

    搜狗自然語言處理助理研究員張帆做了《搜索查詢意圖識別》的主題演講,他認為意圖識別是知道用戶想干什么,以便更好地滿足用戶需求。

    現有的搜索引擎分為兩類:通用搜索引擎和垂直搜索引擎,兩種搜索引擎各有特點。通用搜索引擎抓取互聯網上一切有價值的東西、統一建立索引,以關鍵字匹配為基本檢索方式,以網頁title和summary為展現方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。

    垂直搜索引擎以一定類別為主題,只抓取與主題相關的信息,更具主題特點有針對性的建立相應的索引檢索方式,篩選方式以及展現方式,以機票搜索、地圖搜索、購物搜索等為代表。

    “通用搜索引擎的缺點是通用,不夠準確,垂直搜索引擎的缺點是用戶需要記住多個網站。有沒有辦法將二者結合?”張帆如此表示,“識別查詢詞對應的垂直搜索,并從中獲取結果嵌入到通用搜索引擎中,可以為用戶提供很好的體驗。”這也就是意圖識別用途。

    意圖識別的難點包括:輸入不規范、意圖太多、意圖強度的區分、語料持續準確獲取、搜索結果的可靠性、時效性的問題。

張帆提出了進行意圖識別的幾個方法:

    詞表窮舉法,最簡單直接的方法,通過詞表的直接匹配來獲取查詢意圖,它的實現方法是建立白名單系統、建立詞表擴展系統、建立詞表預處理系統,這種方法優點是簡單易實現,缺點是召回比較低,人工比例較高。

    規則解析法,適用于一些查詢索然不集中淡非常符合規則的類別,通過規則解析查詢來做一同識別和關鍵信息提取的。比如匯率查詢、計算器、度量衡等。它的優點是信息提取準確,不足是只適用于規則性較強的類別。

    統計模型分類法,一般有兩種分類,一種是基于查詢詞本身的分類,另一種是基于查詢詞結果進行分類,這種方法適用于一些查詢較為分散,且規則不明確的類別。這是最常用的方法,覆蓋面***的方法。這種方法的不足是實現較為復雜,數據獲取、更新困難。

    張帆介紹稱,除此之外,還有一些特殊的意圖識別方法,比如微博類意圖識別,實現方法是對搜索結果進行時效性判斷。

    張帆認為,意圖識別未來的發展的幾個方向是無類別概念的意圖識別,個性化意圖識別,精準意圖識別以及語音應用的意圖識別。(張睿)

責任編輯:市場部 來源: TechWeb
相關推薦

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2023-08-03 09:56:47

自然語言AI

2020-09-23 10:45:45

人工智能自然語言NLP

2017-04-10 16:15:55

人工智能深度學習應用

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-10-19 17:05:58

深度學習自然語言

2024-04-24 11:38:46

語言模型NLP人工智能

2011-11-03 09:52:11

teamhost.or

2021-05-17 09:00:00

自然語言人工智能技術

2024-02-05 14:18:07

自然語言處理

2017-06-29 13:02:54

大數據自然語言NLP

2017-05-05 15:34:49

自然語言處理

2020-02-25 23:28:50

工具代碼開發

2020-02-25 12:00:53

自然語言開源工具

2021-11-12 15:43:10

Python自然語言數據

2012-03-07 15:48:20

盛大創新

2017-04-17 15:03:16

Python自然語言處理

2021-05-18 07:15:37

Python

2020-07-14 10:31:30

自然語言處理人工智能AI

2021-08-30 18:32:05

人工智能AI自然語言處理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 围产精品久久久久久久 | 欧美在线一区二区三区 | 一级黄色影片在线观看 | 久久国产精品一区二区三区 | 亚洲精品粉嫩美女一区 | 免费h视频| 亚洲一区二区三区四区五区午夜 | 国产激情视频网址 | 99在线视频观看 | 国产精品美女在线观看 | 91欧美精品成人综合在线观看 | 国产精品国产精品 | 欧美日韩一区二区电影 | 东方伊人免费在线观看 | 中文在线观看视频 | 国产九九精品 | 一起操网站 | 欧美成人精品 | 日韩精彩视频 | 黄色一级大片视频 | 午夜免费电影院 | 亚av在线| 国产成人精品免费视频大全最热 | 日本高清视频在线播放 | 日韩影音 | 一级看片免费视频 | 狠狠爱视频 | 91福利在线导航 | 欧美大片久久久 | 黄网站涩免费蜜桃网站 | 黄色永久免费 | 一区二区三区四区在线 | 日韩乱码一二三 | av片网站 | 久久免费国产 | 黄免费观看视频 | 99国内精品久久久久久久 | 国产精品一区二区久久 | 五月天天丁香婷婷在线中 | 日本激情一区二区 | 国产一区二区毛片 |