成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據太大爆內存怎么辦?七條解決思路

大數據
在研究、應用機器學習算法的經歷中,相信大伙兒經常遇到數據集太大、內存不夠用的情況。本文將討論一些常用的解決辦法,供大家參考。

[[192615]]

在研究、應用機器學習算法的經歷中,相信大伙兒經常遇到數據集太大、內存不夠用的情況。

這引出一系列問題:

  • 怎么加載十幾、幾十 GB 的數據文件?
  • 運行數據集的時候算法崩潰了,怎么辦?
  • 怎么處理內存不足導致的錯誤?

本文將討論一些常用的解決辦法,供大家參考。

處理大型 ML 數據文件的七種思路

1. 分配更多內存

有的機器學習工具/庫有默認內存設置,比如 Weka。這便是一個限制因素。

你需要檢查一下:是否能重新設置該工具/庫,分配更多內存。

對于 Weka,你可以在打開應用時,把內存當作一個參數進行調整。

2. 用更小的樣本

你真的需要用到全部數據嗎?

可以采集一個數據的隨機樣本,比如前 1,000 或 100,000 行。在全部數據上訓練最終模型之前(使用漸進式的數據加載技巧),先試著用這個小樣本解決問題。

總的來說,對算法做快速地抽查、看到結果在前后的變化,在機器學習領域是一個很好的習慣。

你還可以考慮:相對于模型技巧,做一個數據大小的敏感性分析。或許,對于你的隨機小樣本,有一個天然的邊際效應遞減分水嶺。越過這個關口,繼續增加的數據規模帶來的好處微乎其微。

3. 更多內存

你必須要用 PC 嗎?

你可以考慮內存、性能高一個量級的計算設備。比如,租用 AWS 這樣的云服務。租用云端有數十 GB 內存的機器,***價格每小時不到一美元。我個人覺得這是非常實際的選擇。

4. 轉換數據格式

你是否把數據存為原始的 ASCII 文本,比如 CSV 文件?

或許,使用其它格式能加速數據載入并且降低內存占用。好的選擇包括像 GRIB、NetCDF、HDF 這樣的二進制格式。

有很多命令行工具能幫你轉換數據格式,而且不需要把整個數據集載入內存里。

換一種格式,可能幫助你以更緊湊的形式存儲數據,節省內存空間;比如 2-byte 整數,或者 4-byte 浮點。

5. 流式處理數據,或漸進式的數據加載

你的所有數據,需要同時出現在內存里嗎?

或許,你可以用代碼或庫,隨時把需要的數據做流式處理或漸進式加載,導入內存里訓練模型。

這可能需要算法使用優化技術迭代學習,比如使用隨機梯度下降。那些需要內存里有所有數據、以進行矩陣運算的算法,比如某些對線性回歸和邏輯回歸的實現,就不適用了。

比如,Keras 深度學習 API 就提供了漸進式加載圖像文件的功能,名為 flow_from_directory

另一個例子式 Pandas 庫,可批量載入大型 CSV 文件。

6. 使用關系數據庫(Relational database)

關系數據庫為存儲、訪問大型數據集提供了標準化的方法。

在內部,數據存在硬盤中,能漸進式地 in batch 批量加載,并使用標準檢索語言 SQL 檢索。

像 MySQL、Postgres 這樣的開源數據庫工具,支持絕大多數的(全部?)編程語言。許多機器學習工具,都能直接與關系數據庫連通。你也可以用 SQLite 這樣更輕量的方法。

我發現,這種方法對大型表格式數據集非常有效率。

雷鋒網提醒,你需要用能迭代學習的算法。

7. 使用大數據平臺

有的情況下,你可能必須要使用大數據平臺,即為處理超大型數據集而開發的平臺。它們能讓你進行數據轉換,并在其上開發機器學習算法。

兩個很好的例子是 Hadoop 與機器學習庫 Mahout,以及 Spark 與 MLLib 庫。

我認為,這是用盡上述辦法仍無法解決的情況下,才需要采用的***手段。單純是這為你的機器學習項目所帶來的額外硬件、軟件復雜情況,就會消耗許多精力。

即便如此,有的任務確實數據太過龐大,前面的選項都無法奏效。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2021-10-29 05:52:01

零信任網絡安全網絡攻擊

2009-08-03 16:22:58

C#編程技巧

2014-02-19 10:44:55

BYOD建議

2018-05-23 20:56:49

開發原因原則

2023-12-25 08:22:02

2022-11-02 10:31:01

IT創IT領導者

2019-10-12 09:50:46

Redis內存數據庫

2017-03-02 07:36:40

科技新聞早報

2023-01-20 08:56:04

CIOIT領導

2021-08-17 16:49:04

大數據監管物聯網IOT

2010-09-08 15:07:23

2013-05-28 14:18:04

2020-03-18 19:00:29

電腦內存不足系統

2010-09-17 14:24:10

2022-06-15 15:30:29

Linux新用戶建議

2020-05-11 07:55:53

AWS系統

2020-08-13 13:41:31

Python數據密度散點圖

2021-08-03 14:17:47

Kubernetes容器安全

2009-06-09 22:14:17

JavaScript準則

2010-01-21 11:38:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 熟女毛片 | 欧美成人高清 | 久久国产精品免费一区二区三区 | 国产日韩免费视频 | 中文字幕成人av | 欧美激情视频一区二区三区免费 | 国产精品日韩欧美一区二区 | 亚洲精品日韩视频 | 嫩草91在线| 成人免费视频网站 | 国产精品亚洲综合 | 欧美成人第一页 | 成人午夜免费视频 | 99精品久久久 | 国产高清性xxxxxxxx | 一区二区三区国产 | 午夜爽爽爽男女免费观看影院 | 综合久久国产 | h视频网站在线观看 | 超碰91在线| 久久视频免费观看 | 天天操天天射综合网 | 一级黄色毛片免费 | 99精品视频一区二区三区 | 无人区国产成人久久三区 | 黄色一级大片视频 | 成人欧美一区二区三区黑人孕妇 | 国产精品久久久久久久久大全 | 成人一区二区三区视频 | 精品国产乱码久久久久久丨区2区 | 精品综合久久久 | 九九久久国产 | 一级黄色片在线免费观看 | 国产91在线观看 | 亚洲精品久久久久中文字幕欢迎你 | aaa级片| 国产精品久久久久久妇女6080 | 欧美午夜精品 | 国产aⅴ爽av久久久久久久 | 亚洲视频中文字幕 | 亚洲乱码一区二区三区在线观看 |