成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據計數原理1+0=1這你都不會算(六)

企業動態
基數估計,故名思議,估計,意思就是使用概率論的思想,用更低空間更低時間的成本,以一個很低很低的誤差率來估計數據的基數。

照例甩一波鏈接。

大數據計數原理1+0=1這你都不會算(一)

大數據計數原理1+0=1這你都不會算(二)

大數據計數原理1+0=1這你都不會算(三)

大數據計數原理1+0=1這你都不會算(四)

大數據計數原理1+0=1這你都不會算(五)

今天開始進入一個全新的領域,嗯,叫基數估計。

什么叫基數估計呢?

基數是指一個一大堆值集合中,不同的值的個數。

我們之前講的,都是精確的統計,有一說一有二說二,直接去重統計就可以了。

基數估計,故名思議,估計,意思就是使用概率論的思想,用更低空間更低時間的成本,以一個很低很低的誤差率來估計數據的基數。

能不能說說人話呢?

好好好,你長得好看說什么都對。

加入一個集合長這樣

{大蕉,小蕉,小蕉,大大蕉,小蕉}

統計思想會這樣說。

啊大蕉,嗯,1個。

小蕉,沒出現過,嗯,2個。

小蕉,出現過了,嗯,2個。

大大蕉,沒出現過,嗯,3個。

小蕉,出現過了,嗯,3個。

概率論思想會這樣說。

我夜觀天象,掐指一算,公子是個喜脈。

呸呸呸。掐值一算,有99%的概率是3個。

但是又有小伙伴開始說了,我特么把手都快掐出血了,也不知道你吖是怎么估算的。

年輕人不要太著急嘛。

我們今天幾乎所有算法的啟蒙。Linear Counting(LC)

來自于1900年一個叫 KY · Whang 的大濕的一篇名叫《A linear-time probabilistic counting algorithm for database applications》的論文。

This algorithm has O(q) time complexity, where q is the number of values including duplicates, and produces an estimation with an arbitrary accuracy prespecified by the user using only a small amount of space. Traditionally, accurate counts of unique values were obtained by sorting, which has O(q log q) time complexity. Our technique, called linear counting, is based on hashing.

意思就是,啊傳統的精確統計至少要O(q log q)這么死鬼多時間,我們只需要O(q) ,你不覺得很厲害嗎?然后我們是用 Hash 實現的,嗯,可牛逼了。

怎么做的呢?

我們先創建一個長度為m的數組,每一個bit都設置為0,然后搞個Hash算法把這些值的位置所對應的0改為1。

比如字符串 “小蕉寫得這么給力你不點個贊嗎”,經過 Hash 算法1、Hash 算法2、Hash 算法3,生成了數字,1、11、21。

這時候又來了一個字符串 “小蕉寫得這么給力你不點個贊”,經過 Hash 算法1、Hash 算..

你等等等等等,這不是BitMap嗎?你特么在說啥。

年輕人不要太著急嘛。

我急!這輩子就現在!最!急!

好好好我來了我來了。上面這個數組比BitMap所需要的數組小很多很多很多。然后我們假設最終有u個位置還是0。我們給出一個極大似然估計,估計一下n的估計(下面這個是極大似然估計)就長這樣。

好了我要睡覺了,拜拜。

至于詳細的數學推導及誤差分析推導,且聽下回分...

【本文為51CTO專欄作者“大蕉”的原創稿件,轉載請通過作者微信公眾號“一名叫大蕉的程序員”獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2017-09-12 14:58:27

大數據計數原理

2017-09-19 15:09:50

大數據計數原理

2017-09-30 08:05:41

大數據計數原理

2017-09-26 15:51:29

大數據計數原理

2017-10-25 16:03:08

大數據計數原理

2017-10-27 15:23:56

大數據計數原理

2017-09-15 17:49:25

大數據計數原理

2022-03-27 22:07:35

元宇宙虛擬人IBM

2015-03-16 11:33:16

程序員代碼bug

2021-07-07 06:54:37

網頁Selenium瀏覽器

2017-02-08 19:49:03

內存SSDDRAM

2023-05-16 07:15:11

架構模型對象

2019-12-26 09:56:34

Java多線程內部鎖

2021-04-20 09:55:37

Linux 開源操作系統

2020-09-27 06:50:56

Java互聯網注解

2014-12-11 10:01:09

程序員

2010-10-26 11:05:27

霍金

2016-09-13 22:46:41

大數據

2019-07-09 13:19:02

微軟瀏覽器Windows

2019-12-17 15:10:21

Python字符串代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: a级毛片毛片免费观看久潮喷 | 一级午夜aaa免费看三区 | 黄色大片观看 | 超碰在线国产 | 一区二区三区 在线 | 欧美日韩国产一区二区三区不卡 | 久久精品播放 | 久久国产成人午夜av影院武则天 | 国产高清在线 | 精品久久久久久久久久久久久久 | 国产欧美一区二区三区在线看蜜臀 | 在线观看视频h | 欧美不卡一区二区三区 | 欧美影院| 拍拍无遮挡人做人爱视频免费观看 | 亚洲网站在线观看 | chinese中国真实乱对白 | 欧美日韩视频在线 | av一区二区三区四区 | 香蕉久久网 | 欧美在线观看免费观看视频 | 亚洲第一在线视频 | 伊人热久久 | 91精品一区二区三区久久久久久 | 丁香六月激情 | 麻豆一区一区三区四区 | 日韩中文字幕第一页 | 国产精品久久久亚洲 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 午夜噜噜噜 | 欧美一级大片免费观看 | 久久中文字幕电影 | 极品的亚洲 | 熟女毛片| 精品久久国产 | 国产一级一片免费播放 | 国产精品av久久久久久毛片 | 一区二区三区免费 | 国产欧美在线观看 | 国产女人与拘做视频免费 | 一区二区三区在线电影 |