成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python分布式進程中你會遇到的坑

開發 后端 分布式
你是不是在用Python3或者在windows系統上編程?最重要的是你對進程和線程不是很清楚?

 [[266539]]

小驚大怪

你是不是在用Python3或者在windows系統上編程?最重要的是你對進程和線程不是很清楚?那么恭喜你,在python分布式進程中,會有坑等著你去挖。。。(hahahaha,此處允許我嚇唬一下你)開玩笑的啦,不過,如果你知道序列中不支持匿名函數,那這個坑就和你say byebye了。好了話不多數,直接進入正題。

分布式進程

正如大家所知道的Process比Thread更穩定,而且Process可以分布到多臺機器上,而Thread最多只能分布到同一臺機器的多個CPU上。Python的multiprocessing模塊不但支持多進程,其中managers子模塊還支持把多進程分布到多臺機器上。一個服務進程可以作為調度者,將任務分布到其他多個進程中,依靠網絡通信。由于managers模塊封裝很好,不必了解網絡通信的細節,就可以很容易地編寫分布式多進程程序。

代碼記錄

舉個例子

如果我們已經有一個通過Queue通信的多進程程序在同一臺機器上運行,現在,由于處理任務的進程任務繁重,希望把發送任務的進程和處理任務的進程分布到兩臺機器上,這應該怎么用分布式進程來實現呢?你已經知道了原有的Queue可以繼續使用,而且通過managers模塊把Queue通過網絡暴露出去,就可以讓其他機器的進程來訪問Queue了。好,那我們就這么干!

寫個task_master.py

我們先看服務進程。服務進程負責啟動Queue,把Queue注冊到網絡上,然后往Queue里面寫入任務。

  1. #!/user/bin/pytthon 
  2. # -*- coding:utf-8 -*- 
  3. # @Time: 2018/3/3 16:46 
  4. # @Author: lichexo 
  5. # @File: task_master.py 
  6. import random, time, queue 
  7. from multiprocessing.managers import BaseManager 
  8. # 發送任務的隊列: 
  9. task_queue = queue.Queue() 
  10. # 接收結果的隊列: 
  11. result_queue = queue.Queue() 
  12. # 從BaseManager繼承的QueueManager: 
  13. class QueueManager(BaseManager): 
  14.  pass 
  15. # 把兩個Queue都注冊到網絡上, callable參數關聯了Queue對象: 
  16. QueueManager.register('get_task_queue', callable=lambda: task_queue) 
  17. QueueManager.register('get_result_queue', callable=lambda: result_queue) 
  18. # 綁定端口5000, 設置驗證碼'abc'
  19. manager = QueueManager(address=('', 5000), authkey=b'abc'
  20. # 啟動Queue: 
  21. manager.start() 
  22. # 獲得通過網絡訪問的Queue對象: 
  23. task = manager.get_task_queue() 
  24. result = manager.get_result_queue() 
  25. # 放幾個任務進去: 
  26. for i in range(10): 
  27.  n = random.randint(0, 10000) 
  28.  print('Put task %d...' % n) 
  29.  task.put(n) 
  30. # 從result隊列讀取結果: 
  31. print('Try get results...'
  32. for i in range(10): 
  33.  r = result.get(timeout=10) 
  34.  print('Result: %s' % r) 
  35. # 關閉: 
  36. manager.shutdown() 
  37. print('master exit.'

請注意,當我們在一臺機器上寫多進程程序時,創建的Queue可以直接拿來用,但是,在分布式多進程環境下,添加任務到Queue不可以直接對原始的task_queue進行操作,那樣就繞過了QueueManager的封裝,必須通過manager.get_task_queue()獲得的Queue接口添加。然后,在另一臺機器上啟動任務進程(本機上啟動也可以)

寫個task_worker.py

  1. #!/user/bin/pytthon 
  2. # -*- coding:utf-8 -*- 
  3. # @Time: 2018/3/3 16:46 
  4. # @Author: lichexo 
  5. # @File: task_worker.py 
  6. import time, sys, queue 
  7. from multiprocessing.managers import BaseManager 
  8. # 創建類似的QueueManager: 
  9. class QueueManager(BaseManager): 
  10.  pass 
  11. # 由于這個QueueManager只從網絡上獲取Queue,所以注冊時只提供名字: 
  12. QueueManager.register('get_task_queue'
  13. QueueManager.register('get_result_queue'
  14. # 連接到服務器,也就是運行task_master.py的機器: 
  15. server_addr = '127.0.0.1' 
  16. print('Connect to server %s...' % server_addr) 
  17. # 端口和驗證碼注意保持與task_master.py設置的完全一致: 
  18. m = QueueManager(address=(server_addr, 5000), authkey=b'abc'
  19. # 從網絡連接: 
  20. m.connect() 
  21. # 獲取Queue的對象: 
  22. task = m.get_task_queue() 
  23. result = m.get_result_queue() 
  24. # 從task隊列取任務,并把結果寫入result隊列: 
  25. for i in range(10): 
  26.  try: 
  27.  n = task.get(timeout=1) 
  28.  print('run task %d * %d...' % (n, n)) 
  29.  r = '%d * %d = %d' % (n, n, n*n) 
  30.  time.sleep(1) 
  31.  result.put(r) 
  32.  except Queue.Empty: 
  33.  print('task queue is empty.'
  34. # 處理結束: 
  35. print('worker exit.'

任務進程要通過網絡連接到服務進程,所以要指定服務進程的IP。

運行結果

現在,可以試試分布式進程的工作效果了。先啟動task_master.py服務進程:

  1. Traceback (most recent call last): 
  2.  File "F:/Python/untitled/xianchengjincheng/master.py", line 25, in <module> 
  3.  manager.start() 
  4.  File "F:Pythonpystalllibmultiprocessingmanagers.py", line 513, in start 
  5.  self._process.start() 
  6.  File "F:Pythonpystalllibmultiprocessingprocess.py", line 105, in start 
  7.  self._popen = self._Popen(self) 
  8.  File "F:Pythonpystalllibmultiprocessingcontext.py", line 322, in _Popen 
  9.  return Popen(process_obj) 
  10.  File "F:Pythonpystalllibmultiprocessingpopen_spawn_win32.py", line 65, in __init__ 
  11.  reduction.dump(process_obj, to_child) 
  12.  File "F:Pythonpystalllibmultiprocessing 
  13. eduction.py", line 60, in dump 
  14.  ForkingPickler(file, protocol).dump(obj) 
  15. _pickle.PicklingError: Can't pickle <function <lambda> at 0x00000202D1921E18>: attribute lookup <lambda> on __main__ failed 

task_master.py進程發送完任務后,開始等待result隊列的結果?,F在啟動task_worker.py進程:

  1. Connect to server 127.0.0.1... 
  2. Traceback (most recent call last): 
  3.  File "F:/Python/untitled/xianchengjincheng/work.py", line 24, in <module> 
  4.  m.connect() 
  5.  File "F:Pythonpystalllibmultiprocessingmanagers.py", line 489, in connect 
  6.  conn = Client(self._address, authkey=self._authkey) 
  7.  File "F:Pythonpystalllibmultiprocessingconnection.py", line 487, in Client 
  8.  c = SocketClient(address) 
  9.  File "F:Pythonpystalllibmultiprocessingconnection.py", line 614, in SocketClient 
  10.  s.connect(address) 
  11. ConnectionRefusedError: [WinError 10061] 由于目標計算機積極拒絕,無法連接。 

看到沒,結果都出錯了,我們好好分析一下到底哪出錯了。。。

錯誤分析

在task_master.py的報錯提示中,我們知道它說lambda錯誤,這是因為序列化不支持匿名函數,所以我們得修改代碼,重新對queue用QueueManager進行封裝放到網絡中。

  1. # 把兩個Queue都注冊到網絡上, callable參數關聯了Queue對象 
  2. QueueManager.register('get_task_queue',callable=return_task_queue)  
  3. QueueManager.register('get_result_queue',callable=return_result_queue) 

其中task_queue和result_queue是兩個隊列,分別存放任務和結果。它們用來進行進程間通信,交換對象。

因為是分布式的環境,放入queue中的數據需要等待Workers機器運算處理后再進行讀取,這樣就需要對queue用QueueManager進行封裝放到網絡中,這是通過上面的2行代碼來實現的。我們給return_task_queue的網絡調用接口取了一個名get_task_queue,而return_result_queue的名字是get_result_queue,方便區分對哪個queue進行操作。task.put(n)即是對task_queue進行寫入數據,相當于分配任務。而result.get()即是等待workers機器處理后返回的結果。

值得注意 在windows系統中你必須要寫IP地址,而其他操作系統比如linux操作系統則就不要了。

  1. # windows需要寫ip地址 
  2. manager = QueueManager(address=('127.0.0.1', 5000), authkey=b'abc'

修改后的代碼

在task_master.py中修改如下:

  1. #!/user/bin/pytthon 
  2. # -*- coding:utf-8 -*- 
  3. # @Time: 2018/3/3 16:46 
  4. # @Author: lichexo 
  5. # @File: task_master.py 
  6. # task_master.py 
  7. import random,time,queue 
  8. from multiprocessing.managers import BaseManager 
  9. from multiprocessing import freeze_support 
  10. task_queue = queue.Queue() # 發送任務的隊列: 
  11. result_queue = queue.Queue() # 接收結果的隊列: 
  12. class QueueManager(BaseManager): # 從BaseManager繼承的QueueManager: 
  13.  pass 
  14. # windows下運行 
  15. def return_task_queue(): 
  16.  global task_queue 
  17.  return task_queue # 返回發送任務隊列 
  18. def return_result_queue (): 
  19.  global result_queue 
  20.  return result_queue # 返回接收結果隊列 
  21. def test(): 
  22.  # 把兩個Queue都注冊到網絡上, callable參數關聯了Queue對象,它們用來進行進程間通信,交換對象 
  23.  #QueueManager.register('get_task_queue', callable=lambda: task_queue) 
  24.  #QueueManager.register('get_result_queue', callable=lambda: result_queue) 
  25.  QueueManager.register('get_task_queue', callable=return_task_queue) 
  26.  QueueManager.register('get_result_queue', callable=return_result_queue) 
  27.  # 綁定端口5000, 設置驗證碼'abc'
  28.  #manager = QueueManager(address=('', 5000), authkey=b'abc'
  29.  # windows需要寫ip地址 
  30.  manager = QueueManager(address=('127.0.0.1', 5000), authkey=b'abc'
  31.  manager.start() # 啟動Queue: 
  32.  # 獲得通過網絡訪問的Queue對象: 
  33.  task = manager.get_task_queue() 
  34.  result = manager.get_result_queue() 
  35.  for i in range(10): # 放幾個任務進去: 
  36.  n = random.randint(0, 10000) 
  37.  print('Put task %d...' % n) 
  38.  task.put(n) 
  39.  # 從result隊列讀取結果: 
  40.  print('Try get results...'
  41.  for i in range(10): 
  42.  # 這里加了異常捕獲 
  43.  try: 
  44.  r = result.get(timeout=5) 
  45.  print('Result: %s' % r) 
  46.  except queue.Empty: 
  47.  print('result queue is empty.'
  48.  # 關閉: 
  49.  manager.shutdown() 
  50.  print('master exit.'
  51. if __name__=='__main__'
  52.  freeze_support() 
  53.  print('start!'
  54.  test() 

在task_worker.py中修改如下:

  1. #!/user/bin/pytthon 
  2. # -*- coding:utf-8 -*- 
  3. # @Time: 2018/3/3 16:46 
  4. # @Author: lichexo 
  5. # @File: task_worker.py 
  6. # task_worker.py 
  7. import time, sys, queue 
  8. from multiprocessing.managers import BaseManager 
  9. # 創建類似的QueueManager: 
  10. class QueueManager(BaseManager): 
  11.  pass 
  12. # 由于這個QueueManager只從網絡上獲取Queue,所以注冊時只提供名字: 
  13. QueueManager.register('get_task_queue'
  14. QueueManager.register('get_result_queue'
  15. # 連接到服務器,也就是運行task_master.py的機器: 
  16. server_addr = '127.0.0.1' 
  17. print('Connect to server %s...' % server_addr) 
  18. # 端口和驗證碼注意保持與task_master.py設置的完全一致: 
  19. m = QueueManager(address=(server_addr, 5000), authkey=b'abc'
  20. # 從網絡連接: 
  21. m.connect() 
  22. # 獲取Queue的對象: 
  23. task = m.get_task_queue() 
  24. result = m.get_result_queue() 
  25. # 從task隊列取任務,并把結果寫入result隊列: 
  26. for i in range(10): 
  27.  try: 
  28.  n = task.get(timeout=1) 
  29.  print('run task %d * %d...' % (n, n)) 
  30.  r = '%d * %d = %d' % (n, n, n*n) 
  31.  time.sleep(1) 
  32.  result.put(r) 
  33.  except queue.Empty: 
  34.  print('task queue is empty.'
  35. # 處理結束: 
  36. print('worker exit.'

先運行task_master.py,然后再運行task_worker.py

(1)task_master.py運行結果如下

  1. start! 
  2. Put task 7872... 
  3. Put task 6931... 
  4. Put task 1395... 
  5. Put task 8477... 
  6. Put task 8300... 
  7. Put task 1597... 
  8. Put task 8738... 
  9. Put task 8627... 
  10. Put task 1884... 
  11. Put task 2561... 
  12. Try get results... 
  13. Result: 7872 * 7872 = 61968384 
  14. Result: 6931 * 6931 = 48038761 
  15. Result: 1395 * 1395 = 1946025 
  16. Result: 8477 * 8477 = 71859529 
  17. Result: 8300 * 8300 = 68890000 
  18. Result: 1597 * 1597 = 2550409 
  19. Result: 8738 * 8738 = 76352644 
  20. Result: 8627 * 8627 = 74425129 
  21. Result: 1884 * 1884 = 3549456 
  22. Result: 2561 * 2561 = 6558721 
  23. master exit. 

(2)task_worker.py運行結果如下

  1. Connect to server 127.0.0.1... 
  2. run task 8640 * 8640... 
  3. run task 7418 * 7418... 
  4. run task 9303 * 9303... 
  5. run task 568 * 568... 
  6. run task 1633 * 1633... 
  7. run task 3583 * 3583... 
  8. run task 3293 * 3293... 
  9. run task 8975 * 8975... 
  10. run task 8189 * 8189... 
  11. run task 731 * 731... 
  12. worker exit. 

知識補充

這個簡單的Master/Worker模型有什么用?其實這就是一個簡單但真正的分布式計算,把代碼稍加改造,啟動多個worker,就可以把任務分布到幾臺甚至幾十臺機器上,比如把計算n*n的代碼換成發送郵件,就實現了郵件隊列的異步發送。

Queue對象存儲在哪?注意到task_worker.py中根本沒有創建Queue的代碼,所以,Queue對象存儲在task_master.py進程中:

 

Python分布式進程中你會遇到的坑

 

而Queue之所以能通過網絡訪問,就是通過QueueManager實現的。由于QueueManager管理的不止一個Queue,所以,要給每個Queue的網絡調用接口起個名字,比如get_task_queue。task_worker這里的QueueManager注冊的名字必須和task_manager中的一樣。對比上面的例子,可以看出Queue對象從另一個進程通過網絡傳遞了過來。只不過這里的傳遞和網絡通信由QueueManager完成。

authkey有什么用?這是為了保證兩臺機器正常通信,不被其他機器惡意干擾。如果task_worker.py的authkey和task_master.py的authkey不一致,肯定連接不上。

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2018-06-28 08:18:56

Ceph運維存儲

2022-05-18 10:38:51

Redis分布式鎖數據

2019-08-08 09:57:53

分布式服務限流

2019-08-27 08:30:19

分布式服務限流

2022-07-06 08:01:05

數據庫分布式

2022-08-12 18:40:00

分布式

2022-12-18 20:07:55

Redis分布式

2019-06-19 15:40:06

分布式鎖RedisJava

2024-01-10 08:02:03

分布式技術令牌,

2019-11-19 08:47:45

Zookeeper分布式事務

2025-06-10 01:00:00

分布式日志系統

2021-03-24 08:41:38

Redis 分布式鎖序列化

2022-11-14 07:23:32

RedisJedis分布式鎖

2018-12-14 10:06:22

緩存分布式系統

2023-02-20 15:38:38

2022-01-26 13:46:40

分布式事務集合,這

2016-11-02 12:06:27

分布式系統大數據

2022-09-13 09:14:48

架構系統

2022-03-21 19:44:30

CitusPostgreSQ執行器

2019-10-10 09:16:34

Zookeeper架構分布式
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩国产一区二区 | 欧美亚洲综合久久 | 午夜天堂精品久久久久 | 欧美黄色一区 | 欧美片网站免费 | 黄a在线观看 | 国产色在线 | 久久久久国产精品一区二区 | 亚洲欧美一区二区三区1000 | 日韩一区二区三区av | 日韩三级 | 午夜精品久久久久久久久久久久久 | 精品在线一区 | 91精品久久久久久久久久入口 | 国产成人精品一区二 | 在线播放中文字幕 | 伊人精品在线 | 欧美日韩在线视频一区二区 | 欧美日在线 | 欧美一级在线视频 | 日韩午夜 | 成人三级在线观看 | 亚洲一区二区视频 | 欧美电影大全 | 黄色成人亚洲 | 成年人在线视频 | 九色av| 欧美性tv | 亚洲日韩中文字幕一区 | av大全在线观看 | 欧美亚洲成人网 | 中文字幕一区二区三区在线视频 | 久久久久国产一区二区三区四区 | 免费久久久 | 无码一区二区三区视频 | 不卡的av电影 | 麻豆精品久久 | 国产91在线精品 | 五月天激情电影 | 日韩视频在线免费观看 | 91精品久久久久久久久久入口 |