成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺談慢速的二次算法與快速的 hashmap

開發(fā) 后端 算法
我們聊到了二次時間與線性時間算法的話題,我認(rèn)為在這里寫這篇文章會很有趣,因為避免二次時間算法不僅在面試中很重要——有時在現(xiàn)實生活中了解一下也是很好的!后面我會快速解釋一下什么是“二次時間算法” :)

[[424110]]

大家好!昨天我與一位朋友聊天,他正在準(zhǔn)備編程面試,并試圖學(xué)習(xí)一些算法基礎(chǔ)知識。

我們聊到了二次時間quadratic-time線性時間linear-time算法的話題,我認(rèn)為在這里寫這篇文章會很有趣,因為避免二次時間算法不僅在面試中很重要——有時在現(xiàn)實生活中了解一下也是很好的!后面我會快速解釋一下什么是“二次時間算法” :)

以下是我們將要討論的 3 件事:

  1. 二次時間函數(shù)比線性時間函數(shù)慢得非常非常多
  2. 有時可以通過使用 hashmap 把二次算法變成線性算法
  3. 這是因為 hashmap 查找非常快(即時查詢!)

我會盡量避免使用數(shù)學(xué)術(shù)語,重點關(guān)注真實的代碼示例以及它們到底有多快/多慢。

目標(biāo)問題:取兩個列表的交集

我們來討論一個簡單的面試式問題:獲取 2 個數(shù)字列表的交集。 例如,intersect([1,2,3], [2,4,5]) 應(yīng)該返回 [2]

這個問題也是有些現(xiàn)實應(yīng)用的——你可以假設(shè)有一個真實程序,其需求正是取兩個 ID 列表的交集。

“顯而易見”的解決方案:

我們來寫一些獲取 2 個列表交集的代碼。下面是一個實現(xiàn)此需求的程序,命名為 quadratic.py

  1. import sys
  2.  
  3. # 實際運行的代碼
  4. def intersection(list1, list2):
  5. result = []
  6. for x in list1:
  7. for y in list2:
  8. if x == y:
  9. result.append(y)
  10. return result
  11.  
  12. # 一些樣板,便于我們從命令行運行程序,處理不同大小的列表
  13. def run(n):
  14. # 定義兩個有 n+1 個元素的列表
  15. list1 = list(range(3, n)) + [2]
  16. list2 = list(range(n+1, 2*n)) + [2]
  17. # 取其交集并輸出結(jié)果
  18. print(list(intersection(list1, list2)))
  19.  
  20. # 使用第一個命令行參數(shù)作為輸入,運行程序
  21. run(int(sys.argv[1]))

程序名為 quadratic.py(LCTT 譯注:“quadratic”意為“二次方的”)的原因是:如果 list1 和 list2 的大小為 n,那么內(nèi)層循環(huán)(if x == y)會運行 n^2 次。在數(shù)學(xué)中,像 x^2 這樣的函數(shù)就稱為“二次”函數(shù)。

quadratic.py 有多慢?

用一些不同長度的列表來運行這個程序,兩個列表的交集總是相同的:[2]

  1. $ time python3 quadratic.py 10
  2. [2]
  3.  
  4. real 0m0.037s
  5. $ time python3 quadratic.py 100
  6. [2]
  7.  
  8. real 0m0.053s
  9. $ time python3 quadratic.py 1000
  10. [2]
  11.  
  12. real 0m0.051s
  13. $ time python3 quadratic.py 10000 # 10,000
  14. [2]
  15.  
  16. real 0m1.661s

到目前為止,一切都還不錯——程序仍然只花費不到 2 秒的時間。

然后運行該程序處理兩個包含 100,000 個元素的列表,我不得不等待了很長時間。結(jié)果如下:

  1. $ time python3 quadratic.py 100000 # 100,000
  2. [2]
  3.  
  4. real 2m41.059s

這可以說相當(dāng)慢了!總共花費了 160 秒,幾乎是在 10,000 個元素上運行時(1.6 秒)的 100 倍。所以我們可以看到,在某個點之后,每次我們將列表擴(kuò)大 10 倍,程序運行的時間就會增加大約 100 倍。

我沒有嘗試在 1,000,000 個元素上運行這個程序,因為我知道它會花費又 100 倍的時間——可能大約需要 3 個小時。我沒時間這樣做!

你現(xiàn)在大概明白了為什么二次時間算法會成為一個問題——即使是這個非常簡單的程序也會很快變得非常緩慢。

快速版:linear.py

好,接下來我們編寫一個快速版的程序。我先給你看看程序的樣子,然后再分析。

  1. import sys
  2.  
  3. # 實際執(zhí)行的算法
  4. def intersection(list1, list2):
  5. set1 = set(list1) # this is a hash set
  6. result = []
  7. for y in list2:
  8. if y in set1:
  9. result.append(y)
  10. return result
  11.  
  12. # 一些樣板,便于我們從命令行運行程序,處理不同大小的列表
  13. def run(n):
  14. # 定義兩個有 n+1 個元素的列表
  15. list1 = range(3, n) + [2]
  16. list2 = range(n+1, 2*n) + [2]
  17. # 輸出交集結(jié)果
  18. print(intersection(list1, list2))
  19.  
  20. run(int(sys.argv[1]))

(這不是最慣用的 Python 使用方式,但我想在盡量避免使用太多 Python 思想的前提下編寫代碼,以便不了解 Python 的人能夠更容易理解)

這里我們做了兩件與慢速版程序不同的事:

  1. 將 list1 轉(zhuǎn)換成名為 set1 的 set 集合
  2. 只使用一個 for 循環(huán)而不是兩個

看看 linear.py 程序有多快

在討論 為什么 這個程序快之前,我們先在一些大型列表上運行該程序,以此證明它確實是很快的。此處演示該程序依次在大小為 10 到 10,000,000 的列表上運行的過程。(請記住,我們上一個的程序在 100,000 個元素上運行時開始變得非常非常慢)

  1. $ time python3 linear.py 100
  2. [2]
  3.  
  4. real 0m0.056s
  5. $ time python3 linear.py 1000
  6. [2]
  7.  
  8. real 0m0.036s
  9. $ time python3 linear.py 10000 # 10,000
  10. [2]
  11.  
  12. real 0m0.028s
  13. $ time python3 linear.py 100000 # 100,000
  14. [2]
  15.  
  16. real 0m0.048s <-- quadratic.py took 2 minutes in this case! we're doing it in 0.04 seconds now!!! so fast!
  17. $ time python3 linear.py 1000000 # 1,000,000
  18. [2]
  19.  
  20. real 0m0.178s
  21. $ time python3 linear.py 10000000 # 10,000,000
  22. [2]
  23.  
  24. real 0m1.560s

在極大型列表上運行 linear.py

如果我們試著在一個非常非常大的列表(100 億 / 10,000,000,000 個元素)上運行它,那么實際上會遇到另一個問題:它足夠  了(該列表僅比花費 4.2 秒的列表大 100 倍,因此我們大概應(yīng)該能在不超過 420 秒的時間內(nèi)完成),但我的計算機(jī)沒有足夠的內(nèi)存來存儲列表的所有元素,因此程序在運行結(jié)束之前崩潰了。

  1. $ time python3 linear.py 10000000000
  2. Traceback (most recent call last):
  3. File "/home/bork/work/homepage/linear.py", line 18, in <module>
  4. run(int(sys.argv[1]))
  5. File "/home/bork/work/homepage/linear.py", line 13, in run
  6. list1 = [1] * n + [2]
  7. MemoryError
  8.  
  9. real 0m0.090s
  10. user 0m0.034s
  11. sys 0m0.018s

不過本文不討論內(nèi)存使用,所以我們可以忽略這個問題。

那么,為什么 linear.py 很快呢?

現(xiàn)在我將試著解釋為什么 linear.py 很快。

再看一下我們的代碼:

  1. def intersection(list1, list2):
  2. set1 = set(list1) # this is a hash set
  3. result = []
  4. for y in list2:
  5. if y in set1:
  6. result.append(y)
  7. return result

假設(shè) list1 和 list2 都是大約 10,000,000 個不同元素的列表,這樣的元素數(shù)量可以說是很大了!

那么為什么它還能夠運行得如此之快呢?因為 hashmap!!!

hashmap 查找是即時的(“常數(shù)級時間”)

我們看一下快速版程序中的 if 語句:

  1. if y in set1:
  2. result.append(y)

你可能會認(rèn)為如果 set1 包含 1000 萬個元素,那么這個查找——if y in set1 會比 set1 包含 1000 個元素時慢。但事實并非如此!無論 set1 有多大,所需時間基本是相同的(超級快)。

這是因為 set1 是一個哈希集合,它是一種只有鍵沒有值的 hashmap(hashtable)結(jié)構(gòu)。

我不準(zhǔn)備在本文中解釋 為什么 hashmap 查找是即時的,但是神奇的 Vaidehi Joshi 的 basecs 系列中有關(guān)于 hash table 和 hash 函數(shù) 的解釋,其中討論了 hashmap 即時查找的原因。

不經(jīng)意的二次方:現(xiàn)實中的二次算法!

二次時間算法真的很慢,我們看到的的這個問題實際上在現(xiàn)實中也會遇到——Nelson Elhage 有一個很棒的博客,名為 不經(jīng)意的二次方,其中有關(guān)于不經(jīng)意以二次時間算法運行代碼導(dǎo)致性能問題的故事。

二次時間算法可能會“偷襲”你

關(guān)于二次時間算法的奇怪之處在于,當(dāng)你在少量元素(如 1000)上運行它們時,它看起來并沒有那么糟糕!沒那么慢!但是如果你給它 1,000,000 個元素,它真的會花費幾個小時去運行。

所以我認(rèn)為它還是值得深入了解的,這樣你就可以避免無意中使用二次時間算法,特別是當(dāng)有一種簡單的方法來編寫線性時間算法(例如使用 hashmap)時。

總是讓我感到一絲神奇的 hashmap

hashmap 當(dāng)然不是魔法(你可以學(xué)習(xí)一下為什么 hashmap 查找是即時的!真的很酷!),但它總是讓人 感覺 有點神奇,每次我在程序中使用 hashmap 來加速,都會使我感到開心 :) 

責(zé)任編輯:龐桂玉 來源: Linux中國
相關(guān)推薦

2021-09-15 11:38:36

Hashmap二次算法列表

2020-10-29 15:13:55

數(shù)字科技金融行業(yè)互聯(lián)網(wǎng)

2011-08-05 12:36:01

2015-09-01 15:12:45

JavaHashMap那點事

2017-03-24 21:26:26

代碼架構(gòu)Java

2012-10-09 13:53:33

大型網(wǎng)站算法架構(gòu)

2010-05-19 13:05:39

思科認(rèn)證CCIE安博

2018-07-13 05:40:06

數(shù)據(jù)中心運維可視化

2016-05-11 10:49:03

醫(yī)療SaaS

2021-09-03 13:54:45

雙重勒索勒索軟件攻擊

2021-10-22 08:21:27

CSS 技巧文字二次加粗

2012-11-27 10:45:13

路由器LANDHCP

2021-06-17 12:54:31

勒索軟件網(wǎng)絡(luò)攻擊贖金

2009-07-02 15:12:50

JSP Jdbc

2021-12-05 21:05:49

前端JSON API

2024-03-18 09:44:02

HashMap算法Java

2019-04-30 13:09:30

蘋果微軟KOL

2022-03-11 22:52:29

調(diào)試版本編譯器

2022-10-20 10:38:11

無服務(wù)器RustC++

2012-08-21 11:55:46

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产1区2区在线观看 | 黄视频免费 | 国产精品久久久 | 国产精品日韩高清伦字幕搜索 | 国产精彩视频一区 | av在线免费网 | 亚洲成人久久久 | 久久小视频 | 欧美色综合一区二区三区 | 亚洲成人黄色 | 精品欧美一区二区三区久久久小说 | 久久精品视频在线播放 | 伊人春色在线观看 | 国产精品久久99 | 久久久久9999| 成人免费视频网址 | 免费成人高清在线视频 | 夜夜草导航 | 亚洲最大的黄色网址 | 蜜桃在线一区二区三区 | 韩日一区二区 | 精品欧美一区二区精品久久 | 亚洲品质自拍视频 | 亚洲毛片在线观看 | 久久久久久黄 | 国产精品一区久久久 | 91在线导航 | 91天堂网 | 在线视频a| 一区中文字幕 | 久久精品久久精品久久精品 | 国产精品国产成人国产三级 | 午夜丰满少妇一级毛片 | 超碰人人人 | 日韩图区 | 正在播放一区二区 | 国产精品呻吟久久av凹凸 | 国产乱码精品一区二区三区五月婷 | 欧美激情视频一区二区三区在线播放 | 日韩www| 91成人在线视频 |