成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Python挖掘Twitter數據:數據采集

大數據
這是7部系列中的第1部分,注重挖掘Twitter數據以用于各種案例。這是第一篇文章,專注于數據采集,起到奠定基礎的作用。

[[170062]]

這是7部系列中的第1部分,注重挖掘Twitter數據以用于各種案例。這是***篇文章,專注于數據采集,起到奠定基礎的作用。

Twitter是一個流行的社交網絡,用戶可以共享稱為tweets的類似SMS的短消息。用戶在Twitter上分享想法、鏈接和圖片,記者發表現場活動評論,企業改進產品和吸引客戶等等。使用Twitter的不同的方式列表可能會很長,伴隨著每天5億的tweets,這里有大量的數據等著我們分析。

這是一系列使用Python專門用于Twitter數據挖掘的文章中的***篇。在***部分中,我們將看到通過不同的方式來進行Twitter的數據收集。一旦我們建立好了一個數據集,在接下來的環節中,我們就將會討論一些有趣的數據應用。

注冊應用

為了能夠訪問Twitter數據編程,我們需要創建一個與Twitter的API交互的應用程序。

***步是注冊一個你的應用程序。值得注意的是,您需要將您的瀏覽器轉到http://apps.twitter.com,登錄到Twitter(如果您尚未登錄),并注冊一個新的應用程序。您現在可以為您的應用程序選擇一個名稱和說明(例如“挖掘演示”或類似)。您將收到一個消費者密鑰和消費者密碼:這些都是應用程序設置,應始終保密。在您的應用程序的配置頁面,你也可以要求獲取一個訪問令牌和訪問令牌的密碼。類似于消費者密鑰,這些字符串也必須保密:他們提供的應用程序是代表您的帳戶訪問到Twitter。默認權限是只讀的,這是我們在案例中需要的,但如果你決定改變您的許可,在應用中提供更改功能,你就必須再獲得一個新的訪問令牌。

重要提示:使用Twitter的API時有速率限制,或者你想要提供一個可下載的數據集也會有限制,請參見: >

您可以使用 Twitter提供的REST APIs與他們的服務進行交互。那里還有一群基于Python的客戶,我們可以重復循環使用。尤其Tweepy是其中最有趣和最直白的一個,所以我們一起把它安裝起來:

 

安裝

 

更新:Tweepy發布的3.4.0版本在Python3上出現了一些問題,目前被綁定在GitHub上還不能進行使用,因此在新的版本出來之前,我們一直使用3.3.0版本。

更多的更新:Tweepy發布的3.5.0版本已經可以使用,似乎解決了上述提到的在Python3上的問題。

為了授權我們的應用程序以代表我們訪問Twitter,我們需要使用OAuth的界面:

界面

 

現在的API變量是我們為可以在Twitter上執行的大多數操作的入口點。

例如,我們可以看到我們自己的時間表(或者我們的Twitter主頁):

時間表

 

Tweepy提供便捷的光標接口,對不同類型的對象進行迭代。在上面的例子中我們用10來限制我們正在閱讀的tweets的數量,但是當然其實我們是可以訪問更多的。狀態變量是Status() class的一個實例,是訪問數據時一個漂亮的包裝。Twitter API的JSON響應在_json屬性(帶有前導下劃線)上是可用的,它不是純JSON字符串,而是一個字典。

所以上面的代碼可以被重新寫入去處理/存儲JSON:

處理存儲

 

如果我們想要一個所有用戶的名單?來這里:

名單

 

那么我們所有的tweets的列表呢? 也很簡單:

列表

 

通過這種方式,我們可以很容易地收集tweets(以及更多),并將它們存儲為原始的JSON格式,可以很方便的依據我們的存儲格式將其轉換為不同的數據模型(很多NoSQL技術提供一些批量導入功能)。

process_or_store()功能是您的自定義實施占位符。最簡單的方式就是你可以只打印出JSON,每行一個tweet:

打印

 

如果我們要“保持連接”,并收集所有關于特定事件將會出現的tweets,流API就是我們所需要的。我們需要擴展StreamListener()來定義我們處理輸入數據的方式。一個用#python hashtag收集了所有新的tweet的例子:

案例

 

根據不同的搜索詞,我們可以在幾分鐘之內收集到成千上萬的tweet。世界性覆蓋的現場活動尤其如此(世界杯、超級杯、奧斯卡頒獎典禮等),所以保持關注JSON文件,看看它增長的速度是多么的快,并考量你的測試可能需要多少tweet。以上腳本將把每個tweet保存在新的行中,所以你可以從Unix shell中使用wc-l python.json命令來了解到你收集了多少tweet。

你可以在下面的要點中看到Twitter的API流的一個最小工作示例:

twitter_stream_downloader.py

總結

我們已經介紹了tweepy作為通過Python訪問Twitter數據的一個相當簡單的工具。我們可以根據明確的“tweet”項目目標收集一些不同類型的數據。

一旦我們收集了一些數據,在分析應用方面的就可以進行展開了。在接下來的內容中,我們將討論部分問題。

簡介:Marco Bonzanini是英國倫敦的一個數據科學家。活躍于PyData社區的他喜歡從事文本分析和數據挖掘的應用工作。他是“用Python掌握社會化媒體挖掘”( 2016月7月出版)的作者。

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2011-10-14 14:24:26

Ruby

2021-05-10 06:48:11

Python騰訊招聘

2012-06-27 09:45:41

ibmdw

2021-05-21 09:00:00

數據挖掘數據分析工具

2010-07-11 18:42:17

CassandraTwitter

2012-08-30 14:33:03

Spark

2016-10-19 14:58:05

大數據大數據應用

2016-11-08 13:11:46

大數據數據挖掘

2009-07-10 10:19:16

微軟TwitterCRM

2018-09-04 11:45:31

前端JavaScriptNodeJS

2012-09-27 09:17:35

大數據云服務云計算

2016-08-18 01:26:22

數據挖掘

2020-08-19 17:14:26

Python數據函數

2012-12-06 10:59:51

大數據

2013-05-21 09:47:55

2018-04-23 11:11:52

數據挖掘機器學習Python

2019-11-21 14:01:37

Python數據挖掘機器學習

2015-03-26 13:22:04

IBMTwitter數據分析

2019-07-24 09:21:06

大數據采集采集系統大數據

2009-11-20 14:48:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区在线免费观看 | 大陆一级毛片免费视频观看 | 黄片毛片在线观看 | a国产一区二区免费入口 | 亚洲成人av| 欧美午夜剧场 | 国产精品久久久久久一级毛片 | 亚洲第一在线 | 日韩视频在线一区 | 91精品国产乱码久久久 | 国产精品区二区三区日本 | 亚洲三级在线观看 | av在线免费观看网址 | 日韩一区二区在线播放 | 99爱免费 | 伊色综合久久之综合久久 | 亚洲人一区 | 91视频播放| 日本在线中文 | 日中文字幕在线 | 精品一区二区三区免费毛片 | 999免费视频| 天堂中文资源在线 | 色久影院 | 亚洲欧美中文日韩在线v日本 | 成人在线一级片 | av天天爽| 午夜日韩 | 欧美aⅴ | 欧美精品一区在线发布 | 久久综合九九 | 亚洲综合色视频在线观看 | 午夜免费看视频 | 九九热九九 | 久久久国产一区二区 | 91九色婷婷 | 成人午夜视频在线观看 | 欧美亚洲国语精品一区二区 | 久久99精品国产99久久6男男 | 一区天堂 | 日本在线看片 |