成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據抓“馬甲”

云計算
2013年4月,一本普通的破案小說“The Cuckoo's Calling”(中文譯名:《布谷鳥的呼喚》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下軍裝,進入私人保安行業。直到7月中,還幾乎沒有什么人知道Robert Galbraith是誰,這本書在整個英國零售書商上也只賣出了449本,在全球知名的網上書店亞馬遜英國站只排名5076位。

2013年4月,一本普通的破案小說“The Cuckoo's Calling”(中文譯名:《布谷鳥的呼喚》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下軍裝,進入私人保安行業。直到7月中,還幾乎沒有什么人知道Robert Galbraith是誰,這本書在整個英國零售書商上也只賣出了449本,在全球知名的網上書店亞馬遜英國站只排名5076位。書評商們對該書的評價是:“文筆不錯,故事也吸引人,但是并不突出”,又有出版社之前拒絕了這本書。

[[84318]]

然而一夜之間,一個消息改變了一切,在亞馬遜網站上這本書已經迅速爬到暢銷書的前幾位,這個消息就是這個男性作者Robert Galbraith,其實不僅是一位女性,而且就是寫過7集《哈利波特》,并且以此書成為歷史上***位靠寫作收入超過10億美元的作家,J.K.Rowling(J.K.羅琳)。以羅琳的知名度和在寫作上的成功,她的小說攀升到暢銷榜前幾位不稀奇,但是這里面有兩個有趣的地方:1,羅琳為什么要隱姓埋名以男人的身份來發表新作呢,2,外界如何發現羅琳是真正的作者的。

關于***個問題,我想并不難理解,做為一個從不名一文開始寫起,最終在寫作上無可附加地成功,在經濟上更是前無古人的作家,繼續寫作的動力可能并不大,然而重新開始的樂趣反而遠遠大于靠寫作賺錢了。這也從羅琳后來的解釋中得到印證,“我一直希望這個秘密能夠保持更久一些,因為做為Robert Galbraith是這樣一種自由的體驗,以另一個名字發表,沒有任何期望值和吹噓是如此地美妙”。

第二個問題,才是我今天要寫的要點,而這個發現恰恰與大數據有一些關系。這起源于英國《星期日泰晤士報》美術編輯理查德布魯克斯(Richard Brooks)收到了一條匿名的Twitter消息,透露羅琳才是《布谷鳥的呼喚》一書的作者。為了證明這條情報的真實性,布魯克斯先生甚至雇傭了私家偵探,而這一動作恰恰和《布谷鳥的呼喚》中描述的一模一樣。

[[84319]]

最終,恰恰是大數據技術幫助理查德破譯了這里面的一切秘密,理查德請到兩位計算機語言學家來幫助他,而使用的類似法醫的方法就是對《布谷鳥的呼喚》、羅琳的另外兩部小說《臨時空缺》(The Casual Vacancy)和哈利波特的***一部《哈利波特與死亡圣器》進行科學地比對,比對的內容包括:

1, 在每一本書里對比所有的詞組,或者相連續的短語集

2, 通過一種稱為“N-gram”的算法做語言模型來分析用詞或字符的序列關系,例如:對“to be or not to be”這一名句的基于詞的2-gram序列包括“to be, be or,or not, not to, to be”

3, 對每本書中使用最頻繁的100個詞進行比較,對比它們出現頻率的細微差別

4, 簡單分析詞的長度,排除詞義的因素

5, 主成份分析,對比每本書中的六大特點:單詞長度,句子長度,段落長度,字符頻率,標點頻率,及詞用法。

5個小時后,這些計算機語言學家們利用這些大數據的分析技術“證明”了Robert Galbraith正是J.K. Rowling。

當然,當這些文本分析的技術用于中文的時候,會遇到一個完全不同的挑戰,及“中文分詞”,而這個中文分詞的技術恰恰反映了中文作為一種語言的獨特的特點,因為中文不像所有的西方言語那樣有空格來區分詞與詞,必須要通過前后字與字的關系,加以上下文的關系,來分析文本中的“詞”,而這也是中文世界中大數據的有趣領域,更是中國的計算機語言學家們發揮的巨大空間。

責任編輯:王程程 來源: 博客
相關推薦

2013-08-23 10:07:03

2019-11-21 09:32:42

大數據爬蟲隱私

2012-11-08 09:32:24

2015-08-18 09:47:13

2021-05-14 09:57:44

大數據IT互聯網

2013-03-20 10:31:14

大數據數據云服務

2019-07-04 14:22:56

大數據數據挖掘數量級

2012-02-13 11:19:49

存儲集群存儲

2016-08-12 00:04:44

大數據交通

2010-08-26 10:43:41

2015-06-29 13:38:31

大數據大價值

2016-08-16 00:52:19

大數據互聯網

2015-04-13 10:21:39

大數據大數據前景

2014-02-12 09:22:28

大數據

2013-01-07 10:09:56

大數據數據民主

2015-04-22 14:37:41

大數據大數據奇特應用

2012-12-24 10:41:00

大數據數據分析

2021-04-12 09:35:23

大數據據分析數據

2016-08-31 22:02:15

2018-01-05 13:50:17

大數據數據集合測試
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99久久中文字幕三级久久日本 | 免费国产一区 | 精品久久久久久久久亚洲 | 中文字幕成人 | 久久精品久久久久久 | 黄色网址在线免费观看 | 天天综合操 | 国产精品1区2区3区 一区中文字幕 | 一区二区三区国产 | www.99热 | 欧美一级淫片007 | 久久精品福利视频 | 在线免费中文字幕 | 黄色亚洲网站 | 国产精品欧美精品 | av网站免费观看 | 交专区videossex农村 | av片在线观看 | 色.com| 请别相信他免费喜剧电影在线观看 | 欧美在线一区二区视频 | 小视频你懂得 | 国产成人免费视频网站视频社区 | 国内精品久久影院 | 亚洲日本一区二区 | 蜜桃视频在线观看免费视频网站www | 国产欧美精品一区二区三区 | 欧美性受| 国产中文字幕在线 | 国产午夜精品一区二区三区四区 | 国产一区二区不卡 | 免费在线观看一级毛片 | 日韩一区二区三区在线 | 国产精品不卡视频 | 国产成人精品免费视频 | 久久久久久久久久爱 | 亚洲欧美日韩精品久久亚洲区 | 国产第二页 | 在线免费观看a级片 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 日韩网 |