成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

四類應(yīng)用告訴你大數(shù)據(jù)到底能干嘛?

大數(shù)據(jù)
本文介紹了四類大數(shù)據(jù)思維應(yīng)用在商業(yè)上的成功案例。大數(shù)據(jù)能夠解決人工智能問題、動態(tài)調(diào)整我們做事情的策略,利用大數(shù)據(jù)進行精準(zhǔn)服務(wù)和發(fā)現(xiàn)不知道的規(guī)律。

 我們今天常常講到大數(shù)據(jù)思維,很多人就會想到大型互聯(lián)網(wǎng)公司使用用戶的數(shù)據(jù)做很多事情,既有好的事情,比如今日頭條給大家推送有用的資訊,也有壞的事情,比如一些電商公司利用個人信息進行價格歧視,甚至一些公司出賣大家的隱私。

關(guān)于大數(shù)據(jù)思維的一些例子,在當(dāng)下最常見,也是最成功的有四類應(yīng)用。

[[359013]]

第一類,解決人工智能問題。
世界上利用大數(shù)據(jù)解決的第一個智能型的問題是語音識別,接下來是機器翻譯。語音識別的歷史正好和電子計算機一樣長,可以追溯到1946年。但是一直做得非常不成功。

到了60年代末,計算機已經(jīng)進入到第三代了(基于集成電路的),語音識別才只能做到識別十個數(shù)字加上幾十個單詞,而且錯誤率高達(dá)30%。這樣水平的系統(tǒng)是不可用的,因為如果每十個詞就錯三個,你就無法復(fù)原原來的意思了。

因此,在60年代初,就有人認(rèn)為語音識別和治愈癌癥、登月、水變油一樣,近乎不可能。到了70年代,康奈爾大學(xué)著名的信息論專家賈里尼克來到IBM,負(fù)責(zé)該公司的語音識別項目。賈里尼克是一位天才,他從博士畢業(yè)到成為講席教授,教科書的作者,也就是十年時間。

在賈里尼克之前,人們覺得識別語音是一個智力活動,比如我們聽到一串語音信號,腦子會把它們先變成音節(jié),然后組成字和詞,再聯(lián)系上下文理解它們的意思,最后排除同音字的歧義性,得到它的意思。

為了做這件事,科學(xué)家們就試圖讓計算機學(xué)會構(gòu)詞法,能夠分析語法,理解語義。但這件事證明是不可行的。賈里尼克在到IBM之前并沒有做過語音識別,他也不懂得傳統(tǒng)的人工智能。

事實上,直到死他都不認(rèn)為他是人工智能專家。由于不受到傳統(tǒng)的人工智能思想的約束,他得以用信息論的思維方式來看待語音識別問題。他認(rèn)為語音識別是一個通信問題。

[[359014]]

賈里尼克是這樣考慮問題的。當(dāng)說話人講話時,他是用語言和文字將他的想法編碼,這就變成了一個信息論的問題。語言和文字無論是通過空氣傳播,還是電話線傳播,都是一個信息傳播問題,在通信中有一套對應(yīng)的信道編碼理論。在聽話人,也就是接收方那里,他再做解碼的工作,把空氣中的聲波變回到語言文字,再通過對語言文字的解碼,得到含義。

于是,賈里尼克就用通信的編解碼模型,以及有噪音的信道傳輸模型,構(gòu)建了語音識別的模型。但是這些模型里面有很多參數(shù)需要計算出來,這就要用到大量的數(shù)據(jù),于是,賈里尼克就把上述問題又變成了數(shù)據(jù)處理的問題了。

在這樣的思想指導(dǎo)下,賈里尼克裁掉了IBM全部的語言學(xué)家,并且對各種仿生學(xué),比如研究人耳蝸的模型完全不感興趣,他只注重收集數(shù)據(jù),訓(xùn)練各種統(tǒng)計模型。

那么這樣能否解決語音識別問題呢?在一開始,學(xué)術(shù)界確實有人懷疑,不過賈里尼克很快用結(jié)果回答了大家。

在短短幾年時間里,他的團隊(都是數(shù)學(xué)家和數(shù)學(xué)很好的理論物理學(xué)家)就將語音識別的規(guī)模擴大到22000詞,錯誤率降低到10%左右。這是一個質(zhì)的飛躍,從此數(shù)據(jù)驅(qū)動的方法在人工智能領(lǐng)域站住了腳。

賈里尼克思想的本質(zhì),是利用數(shù)據(jù)(信息)消除不確定性,這就是香農(nóng)信息論的本質(zhì),也是大數(shù)據(jù)思維的科學(xué)基礎(chǔ)。這就是第一類應(yīng)用,把人工智能問題變成數(shù)據(jù)問題帶給我們的啟示。

[[359015]]

第二類應(yīng)用,利用大數(shù)據(jù)進行精準(zhǔn)服務(wù)。
我們不妨用一個例子來說明。

如果我們想知道搜索“邁克爾·喬丹”的網(wǎng)頁結(jié)果,我們可以把包含著兩個關(guān)鍵詞的網(wǎng)頁先找到,然后根據(jù)相關(guān)性和網(wǎng)頁質(zhì)量排序。

但是,在美國有很多“邁克爾·喬丹”,到底用戶找的是誰呢?有人可能會說,當(dāng)然是那個籃球球星了,其實美國還有一個非常有名的“邁克爾·喬丹”,他是當(dāng)今世界上最著名的人工智能專家之一,美國三院院士(科學(xué)院、工程院和文理學(xué)院)。

很多年前在Google,研究者想了不少辦法來解決這個問題,比如有人提出是否在10條結(jié)果中放5條籃球球星的,5條教授的。但是這種想法很快被大家否決了,因為無論是找籃球球星的人,還是找學(xué)者的,都會認(rèn)為你的搜索做得不夠好。

對這個問題唯一好的解決辦法就是理解用戶的意圖,進行個性化服務(wù)。但是這樣一來就需要非常非常多的數(shù)據(jù),因為之前可以對所有的人進行統(tǒng)計,看看大家最希望得到的搜索結(jié)果是什么。

但是,如果對每一個人進行統(tǒng)計,數(shù)據(jù)量就不夠了,因為一個人搜索的數(shù)量再多,也無法和所有人相比。一旦數(shù)據(jù)量不夠,統(tǒng)計就變得毫無意義。

[[359016]]

因此,這一方面需要盡可能多地收集數(shù)據(jù),另一方面則需要對行為習(xí)慣和偏好類似的人進行聚類。

今天,微軟的搜索效果沒有Google的好,不是技術(shù)不行,而是數(shù)據(jù)量不夠。對于那些常見的搜索,大家其實水平差不多,微軟差就差在了那些很少見到的長尾搜索關(guān)鍵詞上。

但是不管怎樣,這兩家公司已經(jīng)從重視方法研究,轉(zhuǎn)為重視信息收集和處理了。這是透視大數(shù)據(jù)思維的第二類應(yīng)用,利用大數(shù)據(jù)進行精準(zhǔn)服務(wù),得出的一個趨勢。

第三類應(yīng)用,動態(tài)調(diào)整我們做事情的策略。
當(dāng)今,容易一勞永逸解決的那些問題大多數(shù)已經(jīng)被解決了,留給我們的是不確定性的問題,因此我們做事情的策略也就要變化了。

早期的滴滴公司并不是一個技術(shù)水平很高的公司,雖然他們在公開場合并不承認(rèn)這一點,很多行業(yè)里的人將它作為這方面的反面典型。但是為什么這樣一家很多人看不上的公司,能夠做大做強呢?除了運營得好之外,正確的指導(dǎo)思想和做事原則起到了關(guān)鍵性的作用。

其實,滴滴公司遠(yuǎn)不是第一家網(wǎng)約車公司,之前一些公司,過分強調(diào)司機和乘客之間的固定,比如A乘客坐B司機的車子比較滿意,他下次依然希望提前預(yù)訂B司機的服務(wù)。這件事在優(yōu)步和滴滴都是不允許的,但是一些網(wǎng)約車公司是允許的。這兩種做法有什么差別呢?

[[359017]]

雖然沒有人都能舉出各自的利弊,但是,對于一個不斷變化的打車人群分布和車輛分布,利用數(shù)據(jù)做動態(tài)調(diào)整是效率最高的策略。當(dāng)然,如果你沒有足夠多的數(shù)據(jù),一共只有200輛車,5000個人的數(shù)據(jù),你是做不到這一點的。

反過來,如果有了足夠多的數(shù)據(jù),是否在理論上有保障,只要調(diào)整的次數(shù)足夠多,就能收到最佳匹配呢?答案是肯定的。

第四類應(yīng)用,利用大數(shù)據(jù)發(fā)現(xiàn)不知道的規(guī)律。
如今研制一款新藥需要20年時間,20億美元的投入,這是驚人的投入。能否減少這方面的研發(fā)成本,縮短研發(fā)周期呢?

如果按照過去的做法工作,即使再努力,能提升的空間也有限。后來大家換了一個思路想問題,那就是讓處方藥和各種疾病重新匹配。

比如斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn),過去一種治療心臟病的藥治療胃病效果很好,于是他們直接進入小白鼠試驗,然后進入了臨床試驗。由于這種藥的毒性已經(jīng)試驗過了,因此臨床試驗的周期短了很多。這樣,找到一種新的治療方法平均只需要3年時間,投資1億美元。

當(dāng)然,找到藥和病的配對,本身是一個大數(shù)據(jù)問題。這種做事的方法能夠成立,背后是有信息論理論依據(jù)的,即所謂的互信息理論。

[[359018]]

最后,小結(jié)一下,今天給舉了四類大數(shù)據(jù)思維應(yīng)用在商業(yè)上的成功案例:

  • 第一類是解決人工智能問題,是利用數(shù)據(jù)(信息)消除不確定性,這是香農(nóng)信息論的本質(zhì),也是大數(shù)據(jù)思維的科學(xué)基礎(chǔ)。
  • 第二類是利用大數(shù)據(jù)進行精準(zhǔn)服務(wù),從中你可以看出一個商業(yè)趨勢:公司從重研究方法到重數(shù)據(jù)收集的轉(zhuǎn)變。
  • 第三類是動態(tài)調(diào)整做事策略,足夠多的數(shù)據(jù)可以幫助我們動態(tài)匹配最佳結(jié)果。
  • 最后一類是利用大數(shù)據(jù)發(fā)現(xiàn)未知規(guī)律,這背后涉及互信息的理論,也是信息論的重點內(nèi)容。

這四類大數(shù)據(jù)應(yīng)用,都在傳達(dá)一個信息,那就是大數(shù)據(jù)的關(guān)鍵是思維方式的變化。。

責(zé)任編輯:梁菲 來源: JA熱視角
相關(guān)推薦

2019-05-07 19:23:46

大數(shù)據(jù)漫威人物

2010-09-07 14:49:36

2010-04-20 16:15:12

負(fù)載均衡方式

2011-03-25 16:15:42

SQL Server

2021-07-26 11:02:29

鄭州暴雨河南

2021-04-15 09:37:05

大數(shù)據(jù)Maven

2015-10-28 15:04:51

大數(shù)據(jù)教育

2022-01-07 17:28:07

操作系統(tǒng)IO 內(nèi)存

2010-09-17 09:28:19

Java API

2022-02-23 20:53:54

數(shù)據(jù)清洗模型

2018-01-31 22:31:49

大數(shù)據(jù)程序員編程

2021-08-02 14:27:18

大數(shù)據(jù)殺熟人工智能網(wǎng)絡(luò)投訴

2019-01-29 11:08:48

NginxApacheHTTP協(xié)議

2013-08-22 10:56:34

大數(shù)據(jù)

2021-01-27 14:10:08

大數(shù)據(jù)年貨網(wǎng)購

2012-10-17 10:09:14

大數(shù)據(jù)大數(shù)據(jù)管理數(shù)據(jù)挖掘

2018-01-04 13:29:13

租房租房網(wǎng)站安全

2018-04-04 12:54:51

航空大數(shù)據(jù)航班延誤

2016-11-01 14:37:15

老齡化智慧養(yǎng)老大數(shù)據(jù)

2010-04-20 17:12:57

服務(wù)器負(fù)載均衡
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 人操人免费视频 | 欧美精品一区二区在线观看 | 国产在线观看 | 欧美日韩高清一区 | 久草福利 | 色综合区 | 久久精品亚洲精品国产欧美kt∨ | 天天天久久久 | 亚洲午夜av久久乱码 | 日屁视频 | 欧美成人h版在线观看 | 久国产 | 国产美女在线看 | 国产精品一区三区 | 久久久久久久国产 | 国产a一区二区 | 久久久久久久网 | 岛国av免费看 | 亚洲一区国产 | 激情欧美日韩一区二区 | 国产毛片久久久久久久久春天 | 久久国产亚洲 | 韩国av一区二区 | 国产精久久久久久 | 欧美视频三区 | 91超碰caoporn97人人 | 久久精品一区二区三区四区 | 久久久av | 在线观看国产www | 国产91av视频在线观看 | 91社区在线观看播放 | 日韩精品一区二区三区在线播放 | 国产精品成人一区 | 国产午夜精品久久久 | 国产999精品久久久影片官网 | 中文字幕观看 | 午夜精品久久久久久久久久久久久 | 激情网站在线 | 91高清在线| 一级黄a | 精品国产一区二区三区日日嗨 |