成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python在計算內存時應該注意的問題?

開發 后端
我之前的一篇文章,帶大家揭曉了 Python 在給內置對象分配內存時的 5 個奇怪而有趣的小秘密。文中使用了sys.getsizeof()來計算內存,但是用這個方法計算時,可能會出現意料不到的問題。

 我之前的一篇文章,帶大家揭曉了 Python 在給內置對象分配內存時的 5 個奇怪而有趣的小秘密。文中使用了sys.getsizeof()來計算內存,但是用這個方法計算時,可能會出現意料不到的問題。

[[317078]]

文檔中關于這個方法的介紹有兩層意思:

  • 該方法用于獲取一個對象的字節大小(bytes)
  • 它只計算直接占用的內存,而不計算對象內所引用對象的內存

也就是說,getsizeof() 并不是計算實際對象的字節大小,而是計算“占位對象”的大小。如果你想計算所有屬性以及屬性的屬性的大小,getsizeof() 只會停留在第一層,這對于存在引用的對象,計算時就不準確。

例如列表 [1,2],getsizeof() 不會把列表內兩個元素的實際大小算上,而只是計算了對它們的引用。舉一個形象的例子,我們把列表想象成一個箱子,把它存儲的對象想象成一個個球,現在箱子里有兩張紙條,寫上了球 1 和球 2 的地址(球不在箱子里),getsizeof() 只是把整個箱子稱重(含紙條),而沒有根據紙條上地址,找到兩個球一起稱重。

1、計算的是什么?

我們先來看看列表對象的情況:

 

 

如圖所示,單獨計算 a 和 b 列表的結果是 36 和 48,然后把它們作為 c 列表的子元素時,該列表的計算結果卻僅僅才 36。(PS:我用的是 32 位解釋器)

如果不使用引用方式,而是直接把子列表寫進去,例如 “d = [[1,2],[1,2,3,4,5]]”,這樣計算 d 列表的結果也還是 36,因為子列表是獨立的對象,在 d 列表中存儲的是它們的 id。

也就是說:getsizeof() 方法在計算列表大小時,其結果跟元素個數相關,但跟元素本身的大小無關。

下面再看看字典的例子:

 

明顯可以看出,三個字典實際占用的全部內存不可能相等,但是 getsizeof() 方法給出的結果卻相同,這意味著它只關心鍵的數量,而不關心實際的鍵值對是什么內容,情況跟列表相似。

2、“淺計算”與其它問題

有個概念叫“淺拷貝”,指的是 copy() 方法只拷貝引用對象的內存地址,而非實際的引用對象。類比于這個概念,我們可以認為 getsizeof() 是一種“淺計算”。

“淺計算”不關心真實的對象,所以其計算結果只是一個假象。這是一個值得注意的問題,但是注意到這點還不夠,我們還可以發散地思考如下的問題:

  • “淺計算”方法的底層實現是怎樣的?
  • 為什么 getsizeof() 會采用“淺計算”的方法?

關于第一個問題,getsizeof(x) 方法實際會調用 x 對象的__sizeof__() 魔術方法,對于內置對象來說,這個方法是通過 CPython 解釋器實現的。

我查到這篇文章《Python中對象的內存使用(一)》,它分析了 CPython 源碼,最終定位到的核心代碼是這一段:

 

  1. /*longobject.c*/ 
  2.  
  3. static Py_ssize_t 
  4. int___sizeof___impl(PyObject *self) 
  5.     Py_ssize_t res; 
  6.  
  7.     res = offsetof(PyLongObject, ob_digit) + Py_ABS(Py_SIZE(self))*sizeof(digit); 
  8.     return res; 

我看不懂這段代碼,但是可以知道的是,它在計算 Python 對象的大小時,只跟該對象的結構體的屬性相關,而沒有進一步作“深度計算”。

對于 CPython 的這種實現,我們可以注意到兩個層面上的區別:

  • 字節增大:int 類型在 C 語言中只占到 4 個字節,但是在 Python 中,int 其實是被封裝成了一個對象,所以在計算其大小時,會包含對象結構體的大小。在 32 位解釋器中,getsizeof(1) 的結果是 14 個字節,比數字本身的 4 字節增大了。
  • 字節減少:對于相對復雜的對象,例如列表和字典,這套計算機制由于沒有累加內部元素的占用量,就會出現比真實占用內存小的結果。

由此,我有一個不成熟的猜測:基于“一切皆是對象”的設計原則,int 及其它基礎的 C 數據類型在 Python 中被套上了一層“殼”,所以需要一個方法來計算它們的大小,也即是 getsizeof()。

官方文檔中說“All built-in objects will return correct results” [1],指的應該是數字、字符串和布爾值之類的簡單對象。但是不包括列表、元組和字典等在內部存在引用關系的類型。

為什么不推廣到所有內置類型上呢?我未查到這方面的解釋,若有知情的同學,煩請告知。

3、“深計算”與其它問題

與“淺計算”相對應,我們可以定義出一種“深計算”。對于前面的兩個例子,“深計算”應該遍歷每個內部元素以及可能的子元素,累加計算它們的字節,最后算出總的內存大小。

那么,我們應該注意的問題有:

  • 是否存在“深計算”的方法/實現方案?
  • 實現“深計算”時應該注意什么?

Stackoverflow 網站上有個年代久遠的問題“How do I determine the size of an object in Python?” [2],實際上問的就是如何實現“深計算”的問題。

有不同的開發者貢獻了兩個項目:pympler 和 pysize :第一個項目已發布在 Pypi 上,可以“pip install pympler”安裝;第二個項目爛尾了,作者也沒發布到 Pypi 上(注:Pypi 上已有個 pysize 庫,是用來做格式轉化的,不要混淆),但是可以在 Github 上獲取到其源碼。

對于前面的兩個例子,我們可以拿這兩個項目分別測試一下:

 

 

 

 

單看數值的話,pympler 似乎確實比 getsizeof() 合理多了。

再看看 pysize,直接看測試結果是(獲取其源碼過程略):

 

  1. 64 
  2. 118 
  3. 190 
  4. 206 
  5. 300281 
  6. 30281 

可以看出,它比 pympler 計算的結果略小。就兩個項目的完整度、使用量與社區貢獻者規模來看,pympler 的結果似乎更為可信。

那么,它們分別是怎么實現的呢?那微小的差異是怎么導致的?從它們的實現方案中,我們可以學習到什么呢?

pysize 項目很簡單,只有一個核心方法:

 

  1. def get_size(obj, seen=None): 
  2.     """Recursively finds size of objects in bytes""" 
  3.     size = sys.getsizeof(obj) 
  4.     if seen is None: 
  5.         seen = set() 
  6.     obj_id = id(obj) 
  7.     if obj_id in seen: 
  8.         return 0 
  9.     # Important mark as seen *before* entering recursion to gracefully handle 
  10.     # self-referential objects 
  11.     seen.add(obj_id) 
  12.     if hasattr(obj, '__dict__'): 
  13.         for cls in obj.__class__.__mro__: 
  14.             if '__dict__' in cls.__dict__: 
  15.                 d = cls.__dict__['__dict__'
  16.                 if inspect.isgetsetdescriptor(d) or inspect.ismemberdescriptor(d): 
  17.                     size += get_size(obj.__dict__, seen) 
  18.                 break 
  19.     if isinstance(obj, dict): 
  20.         size += sum((get_size(v, seen) for v in obj.values())) 
  21.         size += sum((get_size(k, seen) for k in obj.keys())) 
  22.     elif hasattr(obj, '__iter__'and not isinstance(obj, (str, bytes, bytearray)): 
  23.         size += sum((get_size(i, seen) for i in obj)) 
  24.  
  25.     if hasattr(obj, '__slots__'): # can have __slots__ with __dict__ 
  26.         size += sum(get_size(getattr(obj, s), seen) for s in obj.__slots__ if hasattr(obj, s)) 
  27.  
  28.     return size 

除去判斷__dict__和 __slots__屬性的部分(針對類對象),它主要是對字典類型及可迭代對象(除字符串、bytes、bytearray)作遞歸的計算,邏輯并不復雜。

以 [1,2] 這個列表為例,它先用 sys.getsizeof() 算出 36 字節,再計算內部的兩個元素得 14*2=28 字節,最后相加得到 64 字節。

相比之下,pympler 所考慮的內容要多很多,入口在這:

 

  1. def asizeof(self, *objs, **opts): 
  2.       '''Return the combined size of the given objects 
  3.          (with modified options, see method **set**). 
  4.       ''
  5.       if opts: 
  6.           self.set(**opts) 
  7.       self.exclude_refs(*objs)  # skip refs to objs 
  8.       return sum(self._sizer(o, 0, 0, None) for o in objs) 

它可以接受多個參數,再用 sum() 方法合并。所以核心的計算方法其實是 _sizer()。但代碼很復雜,繞來繞去像一座迷宮:

 

  1. def _sizer(self, obj, pid, deep, sized):  # MCCABE 19 
  2.         '''Size an object, recursively. 
  3.         ''
  4.         s, f, i = 0, 0, id(obj) 
  5.         if i not in self._seen: 
  6.             self._seen[i] = 1 
  7.         elif deep or self._seen[i]: 
  8.             # skip obj if seen before 
  9.             # or if ref of a given obj 
  10.             self._seen.again(i) 
  11.             if sized: 
  12.                 s = sized(s, f, name=self._nameof(obj)) 
  13.                 self.exclude_objs(s) 
  14.             return s  # zero 
  15.         else:  # deep == seen[i] == 0 
  16.             self._seen.again(i) 
  17.         try: 
  18.             k, rs = _objkey(obj), [] 
  19.             if k in self._excl_d: 
  20.                 self._excl_d[k] += 1 
  21.             else
  22.                 v = _typedefs.get(k, None) 
  23.                 if not v:  # new typedef 
  24.                     _typedefs[k] = v = _typedef(obj, derive=self._derive_, 
  25.                                                      frames=self._frames_, 
  26.                                                       infer=self._infer_) 
  27.                 if (v.both or self._code_) and v.kind is not self._ign_d: 
  28.                     # 貓注:這里計算 flat size 
  29.                     s = f = v.flat(obj, self._mask)  # flat size 
  30.                     if self._profile: 
  31.                         # profile based on *flat* size 
  32.                         self._prof(k).update(obj, s) 
  33.                     # recurse, but not for nested modules 
  34.                     if v.refs and deep < self._limit_ \ 
  35.                               and not (deep and ismodule(obj)): 
  36.                         # add sizes of referents 
  37.                         z, d = self._sizer, deep + 1 
  38.                         if sized and deep < self._detail_: 
  39.                             # use named referents 
  40.                             self.exclude_objs(rs) 
  41.                             for o in v.refs(obj, True): 
  42.                                 if isinstance(o, _NamedRef): 
  43.                                     r = z(o.ref, i, d, sized) 
  44.                                     r.name = o.name 
  45.                                 else
  46.                                     r = z(o, i, d, sized) 
  47.                                     r.name = self._nameof(o) 
  48.                                 rs.append(r) 
  49.                                 s += r.size 
  50.                         else:  # just size and accumulate 
  51.                             for o in v.refs(obj, False): 
  52.                                 # 貓注:這里遞歸計算 item size 
  53.                                 s += z(o, i, d, None) 
  54.                         # deepest recursion reached 
  55.                         if self._depth < d: 
  56.                             self._depth = d 
  57.                 if self._stats_ and s > self._above_ > 0: 
  58.                     # rank based on *total* size 
  59.                     self._rank(k, obj, s, deep, pid) 
  60.         except RuntimeError:  # XXX RecursionLimitExceeded: 
  61.             self._missed += 1 
  62.         if not deep: 
  63.             self._total += s  # accumulate 
  64.         if sized: 
  65.             s = sized(s, f, name=self._nameof(obj), refs=rs) 
  66.             self.exclude_objs(s) 
  67.         return s 

它的核心邏輯是把每個對象的 size 分為兩部分:flat size 和 item size。

計算 flat size 的邏輯在:

 

  1. def flat(self, obj, mask=0): 
  2.         '''Return the aligned flat size
  3.         ''
  4.         s = self.base 
  5.         if self.leng and self.item > 0:  # include items 
  6.             s += self.leng(obj) * self.item 
  7.         # workaround sys.getsizeof (and numpy?) bug ... some 
  8.         # types are incorrectly sized in some Python versions 
  9.         # (note, isinstance(obj, ()) == False
  10.         # 貓注:不可 sys.getsizeof 的,則用上面邏輯,可以的,則用下面邏輯 
  11.         if not isinstance(obj, _getsizeof_excls): 
  12.             s = _getsizeof(obj, s) 
  13.         if mask:  # align 
  14.             s = (s + mask) & ~mask 
  15.         return s 

這里出現的 mask 是為了作字節對齊,默認值是 7,該計算公式表示按 8 個字節對齊。對于 [1,2] 列表,會算出 (36+7)&~7=40 字節。同理,對于單個的 item,比如列表中的數字 1,sys.getsizeof(1) 等于 14,而 pympler 會算成對齊的數值 16,所以匯總起來是 40+16+16=72 字節。這就解釋了為什么 pympler 算的結果比 pysize 大。

字節對齊一般由具體的編譯器實現,而且不同的編譯器還會有不同的策略,理論上 Python 不應關心這么底層的細節,內置的 getsizeof() 方法就沒有考慮字節對齊。

在不考慮其它 edge cases 的情況下,可以認為 pympler 是在 getsizeof() 的基礎上,既考慮了遍歷取引用對象的 size,又考慮到了實際存儲時的字節對齊問題,所以它會顯得更加貼近現實。

4、小結

getsizeof() 方法的問題是顯而易見的,我創造了一個“淺計算”概念給它。這個概念借鑒自 copy() 方法的“淺拷貝”,同時對應于 deepcopy() “深拷貝”,我們還能推理出一個“深計算”。

前面展示了兩個試圖實現“深計算”的項目(pysize+pympler),兩者在淺計算的基礎上,深入地求解引用對象的大小。pympler 項目的完整度較高,代碼中有很多細節上的設計,比如字節對齊。

Python 官方團隊當然也知道 getsizeof() 方法的局限性,他們甚至在文檔中加了一個鏈接 [3],指向了一份實現深計算的示例代碼。那份代碼比 pysize 還要簡單(沒有考慮類對象的情況)。

未來 Python 中是否會出現深計算的方法,假設命名為 getdeepsizeof() 呢?這不得而知了。

本文的目的是加深對 getsizeof() 方法的理解,區分淺計算與深計算,分析兩個深計算項目的實現思路,指出幾個值得注意的問題。

讀完這里,希望你也能有所收獲。若有什么想法,歡迎一起交流。

責任編輯:華軒 來源: Python貓
相關推薦

2021-01-25 17:24:13

云計算云服務器云安全

2011-07-27 10:53:47

交換機

2012-05-22 09:41:12

Python

2018-04-17 11:30:03

云計算IaaS公共云

2010-02-03 16:32:13

2010-08-23 09:35:12

云計算SaaS

2021-01-13 10:33:57

云計算云遷移云平臺

2020-08-17 08:00:54

計算機IT互聯網

2018-08-10 07:04:47

數據中心運維云計算

2011-07-15 08:52:45

UML工具

2010-08-30 09:22:13

DIV高度自適應

2010-06-04 14:42:25

2012-09-20 15:11:31

Unix服務器

2017-11-07 21:05:43

機房配電柜配電箱

2011-07-08 14:09:51

iPhone UI

2009-03-19 18:36:49

虛擬化Vmwareesx

2024-10-08 09:43:44

golang高并發加鎖事務

2020-02-27 09:39:42

云安全云計算網絡安全

2009-07-01 14:49:52

JSP空間租用

2018-06-11 11:03:09

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色三级毛片 | 久草在线免费资源 | 一区二区三区视频播放 | 欧美一卡二卡在线观看 | 亚洲高清视频在线观看 | 国产黄色在线观看 | 亚洲综合大片69999 | 99这里只有精品 | 午夜国产 | 午夜免费视频 | 国产精品久久久久久亚洲调教 | 91极品尤物在线播放国产 | 一区二区三区四区av | 国产精品福利久久久 | 欧美区在线 | 国产高清精品在线 | 91资源在线 | 成人网av | 日韩日韩日韩日韩日韩日韩日韩 | 九色一区| 国产999精品久久久久久 | 国产精品一区二区在线免费观看 | 中国一级特黄真人毛片免费观看 | 一级黄a| 91久久久久| 超碰免费在线观看 | 四虎国产 | 日本一区二区三区四区 | 天天射网站 | 久久毛片 | 一级片免费在线观看 | 日韩一区二区av | 黄色国产区 | 午夜精品在线观看 | 欧美不卡一区二区三区 | 91精品国产综合久久香蕉922 | 久久久精 | 国产在线不卡 | 色一情一乱一伦一区二区三区 | 国产一区91在线 | 美女在线国产 |