成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據:機器學習專家帶你實踐LSTM語言模型

移動開發
給定一串文字,它是否代表一個地址? 一般地址里有xx路,xx街之類的,這些字符都是地址串的很強的特征。

[[167199]]

背景

給定一串文字,它是否代表一個地址? 一般地址里有xx路,xx街之類的,這些字符都是地址串的很強的特征。

但是如果僅靠這樣,還是不夠,比如:延安路發生重大交通事故,很明顯不是地址串。 這類問題直覺上是更適合用語言模型來捕獲地址的常用說法。借助tensorflow,我們可以很容易訓練一個這樣的模型。

訓練數據

本模型中,使用了100w+個地址串,加上全國省市區縣的組合(特別規整的xx省xx市xx縣). 覆蓋了大部分地址串的樣例

  • 北京朝陽區朝陽北路101號朝陽大悅城6樓(近星河灣)

  • 汕頭金平區汕樟立交橋底金華街口(近金華小學)

  • 綏化肇東市利民南路

  • 長春經濟開發區臨河街天地十二坊C29棟(近肯德基)

  • 六盤水鐘山區人民中路220號

  • 寧波河頭路83、87、91號

  • 上海楊浦區殷行路752號(城達集貿市場大門口)

  • 衢州江山市鹿溪南路鹿溪廣場北側鹿溪大廈2幢11—16號

模型輸入

語言模型可以是基于字的,也也可以是基于詞的,基于字的,對中文而已,也有幾千個不同的字。 基于詞就更大了。

基于詞的則還另外需要借助分詞器,分好詞,而且分詞也可能損失精度。 基于字的相對模型簡單點,容錯也更強。

我們訓練的采用基于字的語言模型。這樣我們對輸入的地址串先按Unicode分割,然后只保留出現頻率超過1的作為字典。另外,我們地址串中假設最長50個字符,要不然每段(50個)單獨處理。 考慮到我們訓練時采用的字符不一定能覆蓋所有在線測試時的字符,如果不在字典中,字典會把它映射到id為0。 但是字符串末尾還需要特殊表示下,以區分這種不在字典里的情況,我們對每個串末尾加上來表示結尾

Label & Loss

字語言模型的本質就是給定上下文, 計算下一個位置出現的字符的概率分布,訓練的時候,我們給出的地址串,隱含的給出了每個timestep的標注輸出值。

一般語言模型的損失函數是困惑度,這里采用的是類似的,把每一步的交叉熵加總起來,由于timestep是固定的,這樣相當于把困惑度近似放大了timestep*batch_size倍.

訓練代碼

這樣整個訓練代碼其實很短,如下:

大數據:機器學習專家帶你實踐LSTM語言模型

大數據:機器學習專家帶你實踐LSTM語言模型

大數據:機器學習專家帶你實踐LSTM語言模型

在線使用

線上代碼使用c++調用的,而python訓練出來的模型變量和計算圖是分開存儲的,我們使用tensorflow自帶的工具tensorflow/python/tools/freeze_graph.py來把這些合并在一個模型文件中,然后我們C++代碼中載入模型。 計算某個句子的困惑度時先把句子按Unicode字符切分,填充好input以及target對應的tensor,然后運行指定的計算節點,獲取loss,計算困惑度,這里我們對困惑度做了簡單歸一化,困惑度越低分值越接近1,反之越接近0。

責任編輯:李英杰 來源: 今日頭條
相關推薦

2018-07-23 16:05:44

大數據進化技術

2016-02-19 17:54:42

智慧醫療大數據

2020-03-03 15:41:50

機器學習人工智能計算機

2017-07-11 09:35:10

大數據linuxjava

2016-10-07 18:58:56

2013-04-19 09:10:23

SDN大數據Internet2

2015-04-22 14:37:41

大數據大數據奇特應用

2019-11-19 08:14:06

網絡威脅數據安全網絡安全

2020-11-18 18:21:49

.Net 5大數據機器學習

2017-12-01 08:44:36

機器學習大數據管理

2014-03-31 15:08:23

機器學習大數據

2014-06-19 13:29:29

機器學習大數據

2018-07-19 10:35:12

機器學習數據平臺

2020-04-25 20:57:37

機器學習機器學習工具

2018-05-16 09:00:24

數據質量數據管理數據科學家

2017-10-10 17:36:14

大數據語言人工智能

2020-07-10 10:39:04

Python開發工具

2022-12-21 19:06:55

機器學習人工智能

2025-01-20 09:41:29

2013-12-12 10:00:03

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久一区二区三区四区 | 国产成人免费视频 | 91在线视频在线观看 | 久久久久91 | 二区精品 | a级片在线观看 | 欧美一区二区三区 | 欧美电影一区 | 欧美一级片免费看 | 激情欧美日韩一区二区 | 男女羞羞视频免费 | 国产99久久久国产精品 | 一区二区在线 | aaa一区| 在线区| 成人在线观看欧美 | 看片一区| 久久久综合精品 | 亚洲精品中文在线观看 | 日韩不卡一二区 | 欧美日韩在线免费 | 婷婷久久网| 精品在线一区二区三区 | 日一区二区 | 久久99精品久久 | av在线三级| 伊人天堂网 | 一级欧美一级日韩片免费观看 | 国产黄色小视频 | 91美女视频| 九九精品在线 | 国产视频中文字幕 | 国产精品免费在线 | 亚洲视频二区 | 男人天堂免费在线 | 国产精品夜色一区二区三区 | 欧美激情精品久久久久久 | 精品国产一区二区国模嫣然 | 国产我和子的乱视频网站 | 亚洲精品视频免费观看 | 国产aaaaav久久久一区二区 |