成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據究竟有多“大”?谷歌搜索的規模為 62 PB,排名倒數第一

大數據 新聞
一位意大利物理研究者 Luca Clissa 調查了 2021 年幾個知名大數據源(谷歌搜索、Facebook、Netflix、亞馬遜等等)的規模大小,并將它們與大型強子對撞機(LHC)的電子設備所檢測到的數據做了對比。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

眾所周知,算法、算力與數據是人工智能(AI)發展的“三駕馬車”,吳恩達等學者也常說:以數據為中心的AI,或數據驅動的AI。

由此可見,近年來激增的數據量是 AI 騰飛的源動力之一,數據在 AI 中扮演重要角色。那么,人們口中常說的“大數據”,規模究竟有多大呢?

出于好奇心,一位意大利物理研究者 Luca Clissa 調查了 2021 年幾個知名大數據源(谷歌搜索、Facebook、Netflix、亞馬遜等等)的規模大小,并將它們與大型強子對撞機(LHC)的電子設備所檢測到的數據做了對比。

地址:https://arxiv.org/pdf/2202.07659.pdf毫無疑問,LHC 的數據量是驚人的,高達 40k EB。但商業公司的數據量也不容小覷,比如,亞馬遜S3存儲的數據量也達到了大約 500 EB,大致相當于谷歌搜索(62 PB)的 7530 倍。

此外,流數據在大數據市場中也占有一席之地。Netflix 和電子通信等服務產生的流量比單純的數據生產者要多一到兩個數量級。

1 LHC 的數據量

根據 Luca Clissa 的調查,2021年各大知名數據源的體量大約如下:

圖注:2021年的大數據規模

右上角(灰色部分)是歐洲核子研究組織(CERN)大型強子對撞機(LHC)實驗的電子設備所檢測到的數據,規模最大。

在上一次運行(2018 年)中,LHC 在四個主要實驗(ATLAS、ALICE、CMS 和 LHCb)中的每一個實驗里,每秒產生大約 24 億次粒子碰撞,每次碰撞可以提供約 100 MB 數據,因此預計年產原始數據量約為 40k EB(=10億千兆字節)。

但根據目前的技術和預算,存儲 40k EB 數據是不可能的。而且,實際上只有一小部分數據有意義,因此沒有必要記錄所有數據。記錄的數據量也降低到了每天大約 1 PB,2018 年的最后一次真實數據只采集了 160 PB,模擬數據 240 PB。

此外,收集的數據通過 WLCG (全球LHC計算網絡)不斷傳輸,2018 年產生了 1.9k PB 的年流量。

不過,歐洲核子研究組織(CERN)正在努力加強 LHC 的能力,進行 HL-LHC 升級。這個過程預計生成的數據量將增加 5 倍以上,到 2026 年,每年估計產生 800 PB的新數據。

大廠數據量對比

大公司的數據量很難追蹤,且數據通常不會公開。對此,Luca Clissa 采用了費米估算法(Fermi estimation),將數據生產過程分解為其原子組成部分,并做出合理的猜測。

比如,針對特定數據源,檢索在給定時間窗口內產生的內容量。然后通過對這些內容的單位大小的合理猜測來推斷數據總量,例如平均郵件或圖片大小,1 小時視頻的平均數據流量等等。

他對谷歌搜索、YouTube、Facebook等等數據源進行了估算,結論如下:

谷歌搜索:最近的一項分析估計,Google 搜索引擎包含 30 到 500 億個網頁。根據 Web Almanac 所提供的信息,假設谷歌的年度平均頁面大小約為 2.15 MB,截至 2021 年,Google 搜索引擎的數據總規模應約為 62 PB。

YouTube:根據 Backlinko 的數據,2021 年用戶每天在 YouTube 上上傳的視頻時長為 72 萬小時。假設平均大小為 1 GB(標準清晰度),2021年 YouTube 的數據大小約為 263 PB。

Facebook 與 Instagram:Domo 的 Data Never Sleeps 9.0 報告估計,2021 年 Facebook 與 Instagram 每分鐘上傳的圖片數量分別為 240k 和 65k。假設平均大小為 2 MB,則總共大約為 252 PB 和 68 PB。

DropBox:雖然 Dropbox 本身不產生數據,但它提供了云存儲解決方案來托管用戶的內容。2020年,公司宣布新增用戶 1 億,其中付費訂閱用戶達到 117 萬。通過推測免費和付費訂閱的占用率分別為 75%(2 GB)和 25%(2 TB),Dropbox 用戶在 2020 年所需的存儲量約為733 PB。

電子郵件:根據 Statista 的數據,從 2020 年 10 月到 2021 年 9 月,用戶大約傳送了近 131,000 億次電子通信(包含 71,000 億封電子郵件和 60,000 億封垃圾郵件)。假設標準郵件和垃圾郵件的平均大小分別為 75 KB 和 5 KB ,我們可以估計電子郵件的總流量約為 5.7k PB。

Netflix:Domo 估計,2021 年 Netflix 用戶每天消耗 1.4 億小時的流媒體播放,假設每小時 1 GB(標準定義),總計大約 51.1k PB。

亞馬遜:亞馬遜網絡服務 (AWS) 的首席布道師 Jeff Barr稱,截至 2021 年,亞馬遜 S3 (Simple Storage Service)中存儲了超過 100 萬億個對象。假設平均每桶的對象大小為 5 MB ,那么存儲在 S3 中的文件的總大小則約等于 500 EB。

總的來說,科學數據可以在數量上與商業數據源相媲美。?

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2021-03-16 15:52:06

大數據云計算物聯網

2013-09-02 10:02:01

大數據

2015-05-06 13:39:15

Windows系統復雜

2022-02-28 10:23:37

搜索競價排名

2024-09-11 14:40:20

2016-11-04 14:35:25

華為智慧城市

2015-05-29 09:42:28

牛電

2016-11-09 15:40:15

大數據數據中心云數據中心

2013-02-28 09:37:38

2017-04-07 13:06:55

金融創新大數據

2017-04-07 15:47:55

金融大數據創新

2017-07-07 11:25:37

商用電腦秘密

2012-05-18 13:08:24

iPhone

2018-06-20 17:14:01

大數據

2009-03-13 08:56:31

Symbian手機OS諾基亞

2011-08-25 12:51:02

2024-01-15 07:14:37

kubernetesk8sLTS

2012-07-23 10:19:08

微軟Azure云計算

2012-06-19 14:23:04

云計算中國

2025-05-28 09:04:00

谷歌AI搜索
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线播放第一页 | 久久久国产精品入口麻豆 | 精品久久久久久久久久久久 | 精国产品一区二区三区 | 免费爱爱视频 | 中文字幕乱码视频32 | 欧美视频在线观看 | 亚洲精品一区二区三区四区高清 | 久久精品国产久精国产 | 黄色大片免费看 | 日韩一区二区在线视频 | 成人亚洲片 | 九九热精品视频 | 欧美一级大黄 | 成年人黄色一级片 | 日日摸夜夜添夜夜添特色大片 | 激情在线视频网站 | 日韩中文字幕在线 | 亚洲女优在线播放 | 亚洲精品一区二区 | 国产一区二区自拍 | 91精品国产欧美一区二区 | 午夜影院 | 成人免费视频在线观看 | 黄色一级毛片免费看 | 91在线观看 | 超级乱淫av片免费播放 | 成人h视频在线 | 超碰成人免费 | 欧美在线日韩 | 成年人免费网站 | 久久免费香蕉视频 | 日韩一区二区三区在线视频 | 日日操天天射 | 国产成人久久av免费高清密臂 | 视频一区二区国产 | 国产精品国产精品国产专区不卡 | 国产欧美一区二区三区国产幕精品 | 亚洲视频中文字幕 | 一区二区视频在线 | 亚洲精品美女 |