成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一日一技:如果你非要把HTML到數據庫,那么你應該…

運維 數據庫運維
在粉絲群里面,我多次強調爬蟲不要把網頁源代碼存入數據庫,但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數據庫里面會嚴重拖慢性能。

[[436012]]

在粉絲群里面,我多次強調爬蟲不要把網頁源代碼存入數據庫,但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數據庫里面會嚴重拖慢性能。

如果你非要儲存源代碼,那么你可以使用 Hive 或者對象儲存來存放。

如果你被逼無奈,必須用數據庫來存放,那么你至少應該對HTML 進行壓縮。平時我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾,那么我們如何壓縮字符串呢?

Python 自帶了兩種壓縮方式:zlib和gzip。

我們先來看看我的博客首頁有多大:

  1. import requests 
  2.  
  3. html = requests.get('https://www.kingname.info').text 
  4.  
  5. with open('kingname.html''w'as f: 
  6.  
  7. f.write(html) 

生成的kingname.html文件,有82KB,如下圖所示:

現在,我們使用zlib來對 HTML 進行壓縮,然后把壓縮后的內容寫到文件,我們來看看數據有多大:

  1. import zlib 
  2. import requests 
  3.  
  4. html = requests.get('https://www.kingname.info').text 
  5. html_compressed = zlib.compress(html.encode()) 
  6. with open('kingname_zlib''wb'as f: 
  7.     f.write(html_compressed) 

生成的文件大小只有16KB,如下圖所示:

壓縮以后體積變成了原來的五分之一,節約了大量的磁盤空間。需要注意的是,zlib.compress的輸入參數是bytes型的數據,輸出也是bytes型的數據。并且,輸出的數據是不能解碼成字符串的,所以在寫文件的時候,必須使用wb方式寫入。如果你用的 MySQL 的話,需要把字段的類型設置成blob。

要解壓縮也非常簡單,使用zlib.decompress就可以了:

  1. import zlib 
  2. with open('kingname_zlib''rb'as f: 
  3.     html_compressed = f.read() 
  4. html = zlib.decompress(html_compressed).decode() 

除了zlib外,我們還可以使用gzip這個自帶的模塊來壓縮字符串。用法幾乎一模一樣:

  1. import gzip 
  2.  
  3. import requests 
  4.  
  5. html = requests.get('https://www.kingname.info').text 
  6.  
  7. html_compressed = gzip.compress(html.encode()) 
  8.  
  9. with open('kingname_gzip''wb'as f: 
  10.  
  11. f.write(html_compressed) 

壓縮以后,文件大小也是16KB:

在生產項目中,除了Python自帶的這兩個壓縮模塊,還有可能會使用Snappy進行壓縮。他的壓縮速度非常快,比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩,首先需要安裝Snappy程序,然后再安裝python-snappy庫才能使用。有興趣的同學可以搜索了解一下。 

總結:強烈不建議使用數據庫來存放網頁整個源代碼。如果非要使用,要壓縮以后再存。

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2021-03-18 23:28:45

Python反斜杠字符串

2021-05-10 19:07:18

冗余代碼Python

2022-01-08 21:27:02

URL爬蟲地址

2021-10-20 20:02:47

字符變量函數

2022-05-02 16:27:01

JavaScriptHTMLPython

2021-10-15 21:08:31

PandasExcel對象

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-10-11 20:02:49

Python父類方法

2025-05-28 03:15:00

Scrapy數據sleep

2021-04-12 21:19:01

PythonMakefile項目

2022-06-28 09:31:44

LinuxmacOS系統

2023-10-28 12:14:35

爬蟲JavaScriptObject

2021-09-13 20:38:47

Python鏈式調用

2024-11-13 09:18:09

2021-04-05 14:47:55

Python多線程事件監控

2021-03-12 21:19:15

Python鏈式調用

2022-03-12 20:38:14

網頁Python測試

2024-07-30 08:11:16

2024-07-30 08:16:18

Python代碼工具

2021-04-19 23:29:44

MakefilemacOSLinux
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品免费一区二区在线观看 | 亚洲国产精品久久久久秋霞不卡 | www日| 亚洲国产福利视频 | 日韩av三区 | 欧美视频成人 | 日韩久草 | 久久免费精品视频 | www.精品国产 | 二区中文 | 日本成人在线网址 | 国产欧美一区二区三区日本久久久 | 亚洲综合成人网 | 久久亚洲国产精品日日av夜夜 | 日日噜噜噜夜夜爽爽狠狠视频, | 欧美日韩精品中文字幕 | 美女国内精品自产拍在线播放 | 91在线看| 亚洲精品久久久久久首妖 | 亚洲高清视频在线观看 | 中文字幕高清av | 国产精品国产a级 | 一区二区三区免费 | 久久精品这里 | 18成人在线观看 | 成人伊人| 日韩二区| 精品国产一区二区三区性色 | 精品欧美一区二区三区久久久 | 女同久久 | 中文字幕一区二区三区四区 | 日本三级网址 | 日朝毛片 | 国产伊人精品 | 国产精品一区二区久久久久 | 伊人久麻豆社区 | 亚洲高清在线 | 亚洲一区二区视频 | 国产91丝袜在线播放 | 日韩一二三| 成人亚洲一区 |