成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據分析 | 最適合學習英語的Netflix電影和電視劇有哪些?

大數據 數據分析
為了找到Netflix上最好的電影和電視節目,我比較了臺本對話中使用的詞匯。讓我們找到哪些是最好的電視節目和電影。

截至2020年,Netflix上約有3712部電影和1845部電視節目。如果你正在學習英語,可供選擇的內容很多,但你可能沒那么多時間去看完。因此,我用數據科學技能來分析Netflix上前1500部電影和電視節目的劇本。經過大量的處理,我找到了Netflix上最好的英語學習內容。這樣做的目的是為了給你提供很多好的選擇,讓你可以找到你喜歡的電影或電視節目,同時對學習英語也有好處,而不是強迫你看不喜歡的電視節目,因為你的老師和朋友堅持'它有助于大家學習英語'。

為了找到Netflix上最好的電影和電視節目,我比較了臺本對話中使用的詞匯。讓我們找到哪些是最好的電視節目和電影。

Netflix上詞匯最簡單的電視節目

Netflix上的美國和英國電視節目都是為母語為英語的人制作的。這就是為什么如果英語不是你的母語,你在理解某些場景中的對話時可能會遇到一些困難。我根據詞匯量的難易程度對Netflix目錄上的500個一流電視節目(223部Netflix原創節目)進行了排名。

《老友記》詞匯簡單,被認為是學習英語最好的電視節目之一。然而,這部電視劇在Netflix目錄中只排在第78位,這意味著還有77部電視劇和《老友記》一樣好——甚至更好!-可以在Netflix上學習英語并享受樂趣。例如,根據我的調查結果,電視劇《去他*的世界》(排名13)或《13個原因》(排名40)在其劇集中的詞匯量甚至更簡單。

你可以在下面的框中搜索電視節目名。你會發現他們的排名和詞匯覆蓋率。排名前十的電視節目在整個Netflix劇集列表中詞匯最簡單。

如果你正在尋找適合你英語水平的電視節目,那么我有一個好消息要告訴你, 我對所有節目的英語詞匯量水平進行了排名(初級、中級、高級)。最靠右的節目在每個級別上使用的詞匯量更多。覆蓋率越高,你就越容易理解電視劇中的情節。

按詞匯覆蓋率排名的Netflix劇集

每個級別代表1000個最常見的英語單詞。所有的電影都有所有級別的排名。1級代表 "初級水平",3級代表 "中級水平"。一集的覆蓋率越高,越容易理解其詞匯量。

  • 黃色代表Lvl 1
  • 紅色代表Lvl 1+2
  • 藍色代表Lvl 1+2+3

 

[[357496]]

 

圖: Frank Andrade 來源: 用Datawrapper創建的電視學習語言。

 

這些是在Netflix目錄中發現的電視節目。可能有些你喜歡的電視節目不在Netflix上,但不要擔心,我已經分析了其中一些電視節目,如《權力的游戲》或《辛普森一家》。此外,Netflix目錄在你的國家可能略有不同。這就是為什么我只列出了一個最有可能在全球范圍內提供的Netflix原著。

Learn English with Game of Thrones: The Best Episodes

以下是學習英語的十大Netflix原創節目

  1. 妖靈(Jinn)
  2. 愛情起床號(Good Morning Call)
  3. 魚妖怪談(Tidelands)
  4. Easy
  5. 黑色夏天(Black Summer)
  6. 夏日時光 (Summertime)
  7. Baby
  8. 上層男孩(Top Boy)
  9. 血統(Bloodline)
  10. 去他*的世界(The End Of The F*ing World)

按詞匯覆蓋率排名的Netflix電影

如果你比較喜歡看電影,那么Netflix也有很好的電影來學習英語。我把Netflix上最受歡迎的950部電影(173部Netflix原創電影)按照詞匯量的難度進行了排名。排名前100的熱門電影有《蒙上你的眼 》(30)、《蜘蛛俠:平行宇宙》(84)和《當幸福來敲門》(81)。

通過下面的方框播放,看看還有哪些電影排在前100名。你還可以發現你喜歡的電影的排名和詞匯覆蓋率。

你可以在下面找到適合你英語水平的電影。最右邊的電影有更多的初級、中級和高級詞匯。但這些都是在 Netflix 目錄中找到的排名靠前的電影,你不會在 Netflix 上找到像《哈利波特》、《阿凡達》、《玩具總動員》這樣的電影,但如果你還想看這類電影,你應該看看我的另一篇文章,我分析了3000部最受歡迎的電影。你可以在這里找到它。

Netflix 的電影排行榜(根據詞匯量)

每一級代表 1000 個最常見的英語單詞。所有的電影都按等級排列。第 1 級代表“初級水平”,第 3 級代表“中級水平”。一集節目的收視率越高,詞匯就越容易理解。

我還列出了 Netflix 在世界范圍內最可能提供的原創電影列表,以防 Netflix 的目錄在你的國家不一樣。

以下是Netflix十大最適合學英語的原創電影:

  1. In The Tall Grass (2019)-在高草中
  2. A Secret Love (2020)-隱秘的愛
  3. Under The Riccione Sun (2020)
  4. Dangerous Lies (2020)-危險的謊言
  5. Bird Box (2018)-蒙上你的眼
  6. Who Would You Take To A Deserted Island (2019)
  7. Earthquake Bird (2019)
  8. Love Wedding Repeat (2020)
  9. Paddleton (2019)
  10. 6 Balloons (2018)-六個氣球

在向英語學習者展示 Netflix 上最好的內容之前,讓我們比較一下最好的和可能最差的內容,僅針對詞匯量難度來說。

Netflix 詞匯最易懂和最難懂的原創劇

以下圖片顯示了排名前十和后十的網飛原創電影在英語詞匯難度上的差別。正如你所看到的,在過去的 10 年中,使用的詞匯更加困難。例如,你只需要知道最常見的 1000 個英語單詞就能理解電影《 蒙上你的眼 》中 94,5% 的單詞,但你需要至少3000個單詞來涵蓋電影《Spelling The Dream 》中 94.5% 的對話。這額外的 2000 個單詞可能就是你不懂的原因——即使你的英語水平已經很高了!

數據集

為了進行分析,我使用了 3 個主要數據集,它們由文本、Netflix 目錄和 Netflix 原創列表組成。我在谷歌上搜索,直到我找到了大量用于分析的轉錄本。我用目錄來匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目錄數據集。從 2019 年開始,Netflix 上就可以看到它的內容,所以可能有些電影或電視節目現在還不能在 Netflix 上看到。最后,我在這里找到了一份截至 2020 年的 Netflix 原創劇集列表,這對分析很有幫助。

方法

我用 Python 做了所有這些分析,這是我準備數據的方式:

Tokenization:為了分析文字記錄中的詞匯,我將字符說的所有單詞標記化。Python中有許多用于標記化的工具,但是我使用 CountVectorizer,因為它將收集的轉錄本轉換為標記計數的數據格式,從而簡化了分析。在分析了 3000 部電影的文章中,我進一步解釋了 CountVectorizer 是如何工作的。

詞形還原(Lemmatization):在標記化之后,我必須找到每個標記的基本形式。您可以通過使用象 lemmizing 這樣的技術來實現這一點,您可以在 NLTK 庫中找到這些技術。不過,我使用了類似的單詞族列表,而且還根據單詞出現的頻率給出了每個單詞的難度水平。到 2020 年,有 29 個單詞家族列表,你可以在這里找到。這些列表是對與語言學和英語作為第二語言學習相關的研究論文進行評估的。

數據清理:我刪除了在電影或片段中聽不到的單詞,比如場景描述和講話者的名字。我還排除了對話中超過 3.5% 的單詞與單詞家族列表不匹配的抄本(它們可能是異常值或被破壞的數據)。

所有的代碼都可以在 Github 上找到!

關于分析和結果

我用來對電視節目中的詞匯進行分類的單詞表,大部分都來自語料庫。詞匯水平是根據一個詞在語料庫中被發現的頻率來確定的,即這些文本中最常見的詞被標注為 1 級。盡管之前的研究已經證明了該列表是可靠的,但對于具有多種含義的單詞,它并不那么準確。例如,單詞 “draw” 在列表中被標記為第 1 級。之所以會出現這種情況,是因為這個詞通常指“拍照”,但如果它的意思是“拿出武器來攻擊某人”或“得出結論”,那么它就不屬于第一級。

我花了幾個星期的時間尋找、清理、處理數據,然后弄清楚得到的結果。然而,研究結果并不完美。關于電影的研究結果可能比電視節目更準確。電影的文字記錄是獨一無二的,但電視節目播出的劇集不同,這增加了每部電視節目的文字記錄數量。這就是為什么我收集了每個節目 3 到 10 集的樣本,以獲得該電視節目平均每集涵蓋的詞匯。

總的來說,調查結果揭示了很多適合每個詞匯水平的內容,但其中一些還是讓我吃驚。比如,《行尸走肉》排在第 62 位,這讓我很吃驚。我不是那個電視節目的粉絲,但我不認為一個有僵尸的虛構節目在對話中使用簡單的詞匯。在查看了文字記錄后,我證實了《行尸走肉》中對詞匯的需求在整集都有很多起伏。也就是說,有些情節可能比其他情節更難理解。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

責任編輯:未麗燕 來源: 雷鋒網
相關推薦

2015-09-23 13:28:01

大數據分析軟件

2016-04-22 17:05:30

2016-08-10 01:00:21

2017-10-16 09:00:11

微服務架構Netflix

2020-03-17 15:55:12

Redis數據庫命令

2009-01-19 16:54:50

數據挖掘CRM孤立點

2021-02-14 10:09:04

數據目錄數據元數據

2016-07-14 16:27:54

linux

2015-03-17 10:25:42

IoT物聯網鏈接傳感器

2017-02-15 16:24:03

2016-12-12 14:15:37

Java大數據工具

2015-06-17 09:54:08

2015-06-17 10:10:28

2019-09-01 19:19:04

TensorFlowPyTorch深度學習

2018-09-07 06:30:50

物聯網平臺物聯網IOT

2016-01-26 09:58:28

云存儲云服務云安全

2015-12-11 13:36:17

WebAPPNodeJS

2018-10-22 14:00:12

數據數據插補數據科學

2018-05-07 08:29:56

機器學習開源適合

2023-01-13 10:46:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.欧美.com | 国产一区精品 | 久久激情视频 | 蜜桃在线一区二区三区 | 亚洲国产一区二区三区四区 | 精品欧美激情在线观看 | 四虎影视| 国产精品久久久久一区二区三区 | aaaa日韩 | 久久久久91 | 久久电影一区 | 欧美日韩国产在线观看 | 超碰电影 | 天天影视网天天综合色在线播放 | 鸳鸯谱在线观看高清 | 久久久久亚洲精品 | 国产99视频精品免视看9 | 搞黄视频免费看 | 一区二区三区国产精品 | 日一区二区 | 国产精品不卡视频 | 日韩免费视频一区二区 | 久久久视 | 亚洲免费在线观看av | 日韩精品1区2区3区 成人黄页在线观看 | 国产高清在线视频 | 日韩国产在线 | 国产一区二区在线免费观看 | 日日摸夜夜添夜夜添特色大片 | 美女视频一区二区三区 | 欧美白人做受xxxx视频 | 日本欧美黄色片 | 99久久久久久久久 | 琪琪午夜伦伦电影福利片 | 欧美视频三区 | 久久这里只有 | 91精品国产99 | 精品国产18久久久久久二百 | 国产精品久久久久久久久久久久冷 | 91视频免费视频 | 视频在线观看一区二区 |