成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<form id="qvxie"><sub id="qvxie"><pre id="qvxie"></pre></sub></form>

<kbd id="qvxie"></kbd>

<tfoot id="qvxie"></tfoot>

<strike id="qvxie"><label id="qvxie"></label></strike>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

作者：佚名 2017-12-07 20:10:44

本文作者是一名地地道道的程序員，最大的樂趣就是爬各種網站。通過使用簡單的工具（如BeautifulSoup）獲得了很多有趣且干凈的數據—我也很喜歡Chrome 的Headless模式。

本文作者是一名地地道道的程序員，最大的樂趣就是爬各種網站。特別是在過去的一年里，為了娛樂和利潤而爬掉了無數網站。從小眾到主流電子商店再到新聞媒體和文學博客，通過使用簡單的工具（如BeautifulSoup）獲得了很多有趣且干凈的數據—我也很喜歡Chrome 的Headless模式。

本文，作者將分析從Greek wine e-shop商店（一個希臘葡萄酒網站）中獲得的數據，來看看哪種葡萄酒最受歡迎。

scraper本身相當簡單，可以在GitHub頁面（https://github.com/Florents-Tselai/greek-wines-analysis）找到。作者將著重于通過使用標準的Python包對得到的數據（1125個獨特的標簽）做一些快速的探索性分析。

scraper本身暴露了一個相當簡單的API。首先，請求葡萄酒頁面的數據，并將數據返回給nicedict，如下所示：

In [2]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

In [3]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

Out[3]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

然后，定義一些matplotlib。

In [4]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

加載由houseofwine_gr.dump模塊生成的數據轉儲，開發者也可以在GitHub頁面找到.json，.csv和.xlsx的數據集。

In [5]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

以下是所擁有數據的視圖：

In [6]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

Out[6]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

用np.nan替換空的字符串，使它們更容易處理 Pandas。

In [7]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

重命名一些包含特殊字符的列名，以便將它們用作本機DataFrame存儲器。

In [8]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我們還將適當的類型分配給列：

In [9]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

讓我們將color列值從希臘語翻譯成英語。

In [10]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

以下是數據集的顏色直方圖。

In [11]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

以下是每種葡萄酒的簡單指標分布情況：

In [12]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

如圖所示，Average Rating列幾乎為正態分布，μ值高達85以上。 Reddit上的Kroutoner解釋了為什么會發生這種情況（并糾正了作者以前的錯誤）：

典型的葡萄酒評級是50-100，而不是0-100。所以看起來似乎只有一半分布，實際上是一個幾乎完全的分布。此外，90分以上的葡萄酒一般被認為效果更好，銷售也更好。這個事實改變了對數據的解釋，也就是說大多數葡萄酒被評為好，只有一小部分被評為非常好。

為了進一步推進，來看一下tags 列。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

似乎每個標簽列表可以給出有關葡萄酒的各種屬性（品種，甜味等）的信息。接下來，作者將這些屬性分開，將tags列元素從list 轉換為set列表元素，因為這樣會使操作更簡單。也就是說，不是在一個if x in -else-try-except-IndexError中，我們將使用set操作。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

現在，做一些簡單操作來提取關于甜度，溫和性等信息，以下信息同樣從希臘語翻譯到了英語。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

以下是4個屬性中每一個屬性的直方圖：

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

在這一點上，開發者可以（幾乎）安全地假設所有剩下的標簽顯示每種葡萄酒的品種信息，所以定義一個新的列來存儲它們。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

由于解析錯誤，列中出現了一些整數，我們將其過濾掉。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我們也可以添加一個布爾變量varietal。酒中的混合物只有一種的稱為varietal，至少有兩種混合物的稱作blends。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

對于varietal葡萄酒，我們設定了一個single_variety - 對于其他非varietal的葡萄酒來說，這個數值將是NaN。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

讓我們來看看Varietal / Blend的分布是怎樣的。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

這是一些指示性的情節。

In [27]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

看起來Chardonnay是最流行的品種，而Vidal和Sangiovese是最昂貴的品種。評分最高的是Malvasia，但所有品種都非常接近。

把注意力轉移到blends上，我們做了一些Numpy和Scikit-Learn來產生blends的矩陣。

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

上面的代碼簡單地從這里得到：

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

對此：

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

這些是blends中出現頻率最高的品種。

In [30]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

這里是一個熱圖，顯示哪些品種通常混合在一起。

In [31]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

In [32]:

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

我用Python爬了一個零售網站，分析了一千多種葡萄酒！

如果你有興趣，歡迎來Github頁面與作者交流。

責任編輯：張燕妮來源： IT168企業級

Python Github 數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩不卡合集视频 | 日韩一级电影免费观看 | 亚洲三区在线观看 | 国产婷婷在线视频 | 久久精品国产免费一区二区三区 | 一区二区精品电影 | 国产在线观看一区二区 | 日本不卡一区二区 | 天天综合久久网 | 亚洲精品久久久久久首妖 | 日韩av在线一区 | 久久乐国产精品 | 亚洲97 | 欧美天堂在线 | 亚洲综合日韩精品欧美综合区 | 亚洲高清久久 | 国产伦精品一区二区三区在线 | 日韩国产中文字幕 | 国产三级精品三级在线观看四季网 | 精品国产一区二区在线 | 欧美一区二区在线免费观看 | 成人毛片在线观看 | 99精品久久 | 欧美一区二区三区 | 在线国产一区二区三区 | 国产精品视频播放 | 国产精品一区二区av | 亚洲精品久久久久久久久久吃药 | 一级黄色片在线免费观看 | 亚洲色欧美另类 | 免费一级片 | 天堂成人国产精品一区 | 91久久国产| 性大毛片视频 | 久草99 | 中文字幕1区2区3区亚洲国产成人精品女人久久久 | 日本午夜网站 | 伊人网国产 | 成人a在线| 国产精品久久久久久久久久 | 久久久久久综合 |

<table id="euldj"><small id="euldj"><mark id="euldj"></mark></small></table>

<th id="euldj"><listing id="euldj"></listing></th><strike id="euldj"><font id="euldj"></font></strike><strike id="euldj"></strike>

<samp id="euldj"><sub id="euldj"></sub></samp>