成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在Python中用遺傳算法優(yōu)化垃圾收集策略

開發(fā) 后端 大數(shù)據(jù) 算法
在本文中,我將展示如何在Python中實現(xiàn)一個遺傳算法,在幾個小時內(nèi)“進化”一個收集垃圾的機器人。

遺傳算法是一個優(yōu)化技術,在本質上類似于進化過程。這可能是一個粗略的類比,但如果你瞇著眼睛看,達爾文的自然選擇確實大致上類似于一個優(yōu)化任務,其目的是制造出完全適合在其環(huán)境中繁衍生息的有機體。

在本文中,我將展示如何在Python中實現(xiàn)一個遺傳算法,在幾個小時內(nèi)“進化”一個收集垃圾的機器人。

[[348489]]

背景

我所遇到的遺傳算法原理最好的教程來自Melanie Mitchell寫的一本關于復雜系統(tǒng)的好書《Complexity: A Guided Tour》。

在其中一個章節(jié)中,Mitchell介紹了一個名叫Robby的機器人,他在生活中的唯一目的是撿垃圾,并描述了如何使用GA優(yōu)化Robby的控制策略。下面我將解釋我解決這個問題的方法,并展示如何在Python中實現(xiàn)該算法。有一些很好的包可以用來構造這類算法(比如DEAP),但是在本教程中,我將只使用基本Python、Numpy和TQDM(可選)。

雖然這只是一個玩具的例子,但GAs在許多實際應用中都有使用。作為一個數(shù)據(jù)科學家,我經(jīng)常用它們來進行超參數(shù)優(yōu)化和模型選擇。雖然GAs的計算成本很高,但GAs允許我們并行地探索搜索空間的多個區(qū)域,并且在計算梯度時是一個很好的選擇。

問題描述

一個名為Robby的機器人生活在一個充滿垃圾的二維網(wǎng)格世界中,周圍有4堵墻(如下圖所示)。這個項目的目標是發(fā)展一個最佳的控制策略,使他能夠有效地撿垃圾,而不是撞墻。

Robby只能看到他周圍上下左右四個方塊以及他所在的方塊,每個方塊有3個選擇,空的,有垃圾,或者是一面墻。因此,Robby有3⁵=243種不同的情況。Robby可以執(zhí)行7種不同的動作:上下左右的移動(4種)、隨機移動、撿拾垃圾或靜止不動。

因此,Robby的控制策略可以編碼為一個“DNA”字符串,由0到6之間的243位數(shù)字組成(對應于Robby在243種可能的情況下應該采取的行動)。

方法

任何GA的優(yōu)化步驟如下:

  1. 生成問題初始隨機解的“種群”
  2. 個體的“擬合度”是根據(jù)它解決問題的程度來評估的
  3. 最合適的解決方案進行“繁殖”并將“遺傳”物質傳遞給下一代的后代
  4. 重復第2步和第3步,直到我們得到一組優(yōu)化的解決方案

在我們的任務中,你創(chuàng)建了第一代Robbys初始化為隨機DNA字符串(對應于隨機控制策略)。然后模擬讓這些機器人在隨機分配的網(wǎng)格世界中運行,并觀察它們的性能。

擬合度

機器人的擬合度取決于它在n次移動中撿到多少垃圾,以及它撞到墻上多少次。在我們的例子中,機器人每撿到一塊垃圾就給它10分,每次它撞到墻上就減去5分。然后,這些機器人以它們的擬合度相關的概率進行“交配”(即,撿起大量垃圾的機器人更有可能繁衍后代),新一代機器人誕生了。

交配

有幾種不同的方法可以實現(xiàn)“交配”。在Mitchell的版本中,她將父母的兩條DNA鏈隨機拼接,然后將它們連接在一起,為下一代創(chuàng)造一個孩子。在我的實現(xiàn)中,我從每一個親本中隨機分配每個基因(即,對于243個基因中的每一個,我擲硬幣決定遺傳誰的基因)。

例如使用我的方法,在前10個基因里,父母和孩子可能的基因如下: 

  1. Parent 1: 1440623161 
  2. Parent 2: 2430661132 
  3. Child:    2440621161 

突變

我們用這個算法復制的另一個自然選擇的概念是“變異”。雖然一個孩子的絕大多數(shù)基因都是從父母那里遺傳下來的,但我也建立了基因突變的小可能性(即隨機分配)。這種突變率使我們能夠探索新的可能。

Python實現(xiàn)

第一步是導入所需的包并為此任務設置參數(shù)。我已經(jīng)選擇了這些參數(shù)作為起點,但是它們可以調整,我鼓勵你可以嘗試調整。 

  1. ""
  2. 導入包 
  3. ""
  4. import numpy as np 
  5. from tqdm.notebook import tqdm 
  6.  
  7. ""
  8. 設置參數(shù) 
  9. ""
  10. # 仿真設置 
  11. pop_size = 200 # 每一代機器人的數(shù)量 
  12. num_breeders = 100 # 每一代能夠交配的機器人數(shù)量 
  13. num_gen = 400 # 總代數(shù) 
  14. iter_per_sim = 100 # 每個機器人垃圾收集模擬次數(shù) 
  15. moves_per_iter = 200 # 機器人每次模擬可以做的移動數(shù) 
  16.  
  17. # 網(wǎng)格設置 
  18. rubbish_prob = 0.5 # 每個格子中垃圾的概率 
  19. grid_size = 10 # 0網(wǎng)格大小(墻除外) 
  20.  
  21. # 進化設置 
  22. wall_penalty = -5 # 因撞到墻上而被扣除的擬合點 
  23. no_rub_penalty = -1 # 在空方塊撿垃圾被扣分 
  24. rubbish_score = 10 # 撿垃圾可獲得積分 
  25. mutation_rate = 0.01 # 變異的概率 

接下來,我們?yōu)榫W(wǎng)格世界環(huán)境定義一個類。我們用標記“o”、“x”和“w”來表示每個單元,分別對應一個空單元、一個帶有垃圾的單元和一個墻。 

  1. class Environment: 
  2.     ""
  3.     類,用于表示充滿垃圾的網(wǎng)格環(huán)境。每個單元格可以表示為: 
  4.     'o': 空 
  5.     'x': 垃圾 
  6.     'w': 墻 
  7.     ""
  8.     def __init__(self, p=rubbish_prob, g_size=grid_size): 
  9.         self.p = p # 單元格是垃圾的概率 
  10.         self.g_size = g_size # 不包括墻 
  11.  
  12.         # 初始化網(wǎng)格并隨機分配垃圾 
  13.         self.grid = np.random.choice(['o','x'], size=(self.g_size+2,self.g_size+2), p=(1 - self.p, self.p)) 
  14.          
  15.         # 設置外部正方形為墻壁 
  16.         self.grid[:,[0,self.g_size+1]] = 'w' 
  17.         self.grid[[0,self.g_size+1], :] = 'w' 
  18.  
  19.     def show_grid(self): 
  20.         # 以當前狀態(tài)打印網(wǎng)格 
  21.         print(self.grid) 
  22.  
  23.     def remove_rubbish(self,i,j): 
  24.         # 從指定的單元格(i,j)清除垃圾 
  25.         if self.grid[i,j] == 'o': # 單元格已經(jīng)是空 
  26.             return False 
  27.         else
  28.             self.grid[i,j] = 'o' 
  29.             return True 
  30.  
  31.     def get_pos_string(self,i,j): 
  32.         # 返回一個字符串,表示單元格(i,j)中機器人“可見”的單元格 
  33.         return self.grid[i-1,j] + self.grid[i,j+1] + self.grid[i+1,j] + self.grid[i,j-1] + self.grid[i,j] 

接下來,我們創(chuàng)建一個類來表示我們的機器人。這個類包括執(zhí)行動作、計算擬合度和從一對父機器人生成新DNA的方法。 

  1. class Robot: 
  2.     ""
  3.     用于表示垃圾收集機器人 
  4.     ""
  5.     def __init__(self, p1_dna=None, p2_dna=None, m_rate=mutation_rate, w_pen=wall_penalty, nr_pen=no_rub_penalty, r_score=rubbish_score): 
  6.         self.m_rate = m_rate # 突變率 
  7.         self.wall_penalty = w_pen # 因撞到墻上而受罰 
  8.         self.no_rub_penalty = nr_pen # 在空方塊撿垃圾的處罰 
  9.         self.rubbish_score = r_score # 撿垃圾的獎勵 
  10.         self.p1_dna = p1_dna # 父母2的DNA 
  11.         self.p2_dna = p2_dna # 父母2的DNA 
  12.          
  13.         # 生成字典來從場景字符串中查找基因索引 
  14.         con = ['w','o','x'] # 墻,空,垃圾 
  15.         self.situ_dict = dict() 
  16.         count = 0 
  17.         for up in con: 
  18.             for right in con: 
  19.                 for down in con: 
  20.                     for left in con: 
  21.                         for pos in con: 
  22.                             self.situ_dict[up+right+down+left+pos] = count 
  23.                             count += 1 
  24.          
  25.         # 初始化DNA 
  26.         self.get_dna() 
  27.  
  28.     def get_dna(self): 
  29.         # 初始化機器人的dna字符串 
  30.         if self.p1_dna is None: 
  31.             # 沒有父母的時候隨機生成DNA 
  32.             self.dna = ''.join([str(x) for x in np.random.randint(7,size=243)]) 
  33.         else
  34.             self.dna = self.mix_dna() 
  35.  
  36.     def mix_dna(self): 
  37.         # 從父母的DNA生成機器人的DNA 
  38.         mix_dna = ''.join([np.random.choice([self.p1_dna,self.p2_dna])[i] for i in range(243)]) 
  39.  
  40.         #添加變異 
  41.         for i in range(243): 
  42.             if np.random.rand() > 1 - self.m_rate: 
  43.                 mix_dna = mix_dna[:i] + str(np.random.randint(7)) + mix_dna[i+1:] 
  44.  
  45.         return mix_dna 
  46.  
  47.     def simulate(self, n_iterations, n_moves, debug=False): 
  48.         # 仿真垃圾收集 
  49.         tot_score = 0 
  50.         for it in range(n_iterations): 
  51.             self.score = 0 # 擬合度分數(shù) 
  52.             self.envir = Environment() 
  53.             self.i, self.j = np.random.randint(1,self.envir.g_size+1, size=2) # 隨機分配初始位置 
  54.             if debug: 
  55.                 print('before'
  56.                 print('start position:',self.i, self.j) 
  57.                 self.envir.show_grid() 
  58.             for move in range(n_moves): 
  59.                 self.act() 
  60.             tot_score += self.score 
  61.             if debug: 
  62.                 print('after'
  63.                 print('end position:',self.i, self.j) 
  64.                 self.envir.show_grid() 
  65.                 print('score:',self.score) 
  66.         return tot_score / n_iterations # n次迭代的平均得分 
  67.  
  68.     def act(self): 
  69.         # 根據(jù)DNA和機器人位置執(zhí)行動作 
  70.         post_str = self.envir.get_pos_string(self.i, self.j) # 機器人當前位置 
  71.         gene_idx = self.situ_dict[post_str] # 當前位置DNA的相關索引 
  72.         act_key = self.dna[gene_idx] # 從DNA中讀取行動 
  73.         if act_key == '5'
  74.             # 隨機移動 
  75.             act_key = np.random.choice(['0','1','2','3']) 
  76.  
  77.         if act_key == '0'
  78.             self.mv_up() 
  79.         elif act_key == '1'
  80.             self.mv_right() 
  81.         elif act_key == '2'
  82.             self.mv_down() 
  83.         elif act_key == '3'
  84.             self.mv_left() 
  85.         elif act_key == '6'
  86.             self.pickup() 
  87.  
  88.     def mv_up(self): 
  89.         # 向上移動 
  90.         if self.i == 1: 
  91.             self.score += self.wall_penalty 
  92.         else
  93.             self.i -= 1 
  94.  
  95.     def mv_right(self): 
  96.         # 向右移動 
  97.         if self.j == self.envir.g_size: 
  98.             self.score += self.wall_penalty 
  99.         else
  100.             self.j += 1 
  101.  
  102.     def mv_down(self): 
  103.         # 向下移動 
  104.         if self.i == self.envir.g_size: 
  105.             self.score += self.wall_penalty 
  106.         else
  107.             self.i += 1 
  108.  
  109.     def mv_left(self): 
  110.         # 向左移動 
  111.         if self.j == 1: 
  112.             self.score += self.wall_penalty 
  113.         else
  114.             self.j -= 1 
  115.  
  116.     def pickup(self): 
  117.         # 撿垃圾 
  118.         success = self.envir.remove_rubbish(self.i, self.j) 
  119.         if success: 
  120.             # 成功撿到垃圾 
  121.             self.score += self.rubbish_score 
  122.         else
  123.             # 當前方塊沒有撿到垃圾 
  124.             self.score += self.no_rub_penalty 

最后是運行遺傳算法的時候了。在下面的代碼中,我們生成一個初始的機器人種群,讓自然選擇來運行它的過程。我應該提到的是,當然有更快的方法來實現(xiàn)這個算法(例如利用并行化),但是為了本教程的目的,我犧牲了速度來實現(xiàn)清晰。 

  1. # 初始種群 
  2. pop = [Robot() for x in range(pop_size)] 
  3. results = [] 
  4.  
  5. # 執(zhí)行進化 
  6. for i in tqdm(range(num_gen)): 
  7.     scores = np.zeros(pop_size) 
  8.      
  9.     # 遍歷所有機器人 
  10.     for idx, rob in enumerate(pop): 
  11.         # 運行垃圾收集模擬并計算擬合度 
  12.         score = rob.simulate(iter_per_sim, moves_per_iter) 
  13.         scores[idx] = score 
  14.  
  15.     results.append([scores.mean(),scores.max()]) # 保存每一代的平均值和最大值 
  16.  
  17.     best_robot = pop[scores.argmax()] # 保存最好的機器人 
  18.  
  19.     # 限制那些能夠交配的機器人的數(shù)量 
  20.     inds = np.argpartition(scores, -num_breeders)[-num_breeders:] # 基于擬合度得到頂級機器人的索引 
  21.     subpop = [] 
  22.     for idx in inds: 
  23.         subpop.append(pop[idx]) 
  24.     scores = scores[inds] 
  25.  
  26.     # 平方并標準化 
  27.     norm_scores = (scores - scores.min()) ** 2  
  28.     norm_scores = norm_scores / norm_scores.sum() 
  29.  
  30.     # 創(chuàng)造下一代機器人 
  31.     new_pop = [] 
  32.     for child in range(pop_size): 
  33.         # 選擇擬合度優(yōu)秀的父母 
  34.         p1, p2 = np.random.choice(subpop, p=norm_scores, size=2, replace=False
  35.         new_pop.append(Robot(p1.dna, p2.dna)) 
  36.  
  37.     pop = new_pop 

雖然最初大多數(shù)機器人不撿垃圾,總是撞到墻上,但幾代人之后,我們開始看到一些簡單的策略(例如“如果與垃圾在一起,就撿起來”和“如果挨著墻,就不要移到墻里”)。經(jīng)過幾百次的反復,我們只剩下一代不可思議的垃圾收集天才!

結果

下面的圖表表明,我們能夠在400代機器人種群中“進化”出一種成功的垃圾收集策略。 

為了評估進化控制策略的質量,我手動創(chuàng)建了一個基準策略,其中包含一些直觀合理的規(guī)則:

  • 如果垃圾在當前方塊,撿起來
  • 如果在相鄰的方塊上可以看到垃圾,移到那個方塊
  • 如果靠近墻,則向相反方向移動
  • 否則,隨意移動

平均而言,這一基準策略達到了426.9的擬合度,但我們最終的“進化”機器人的平均擬合度為475.9。

戰(zhàn)略分析

這種優(yōu)化方法最酷的一點是,你可以找到反直覺的解決方案。機器人不僅能夠學習人類可能設計的合理規(guī)則,而且還自發(fā)地想出了人類可能永遠不會考慮的策略。一種先進的技術出現(xiàn)了,就是使用“標記物”來克服近視和記憶不足。

例如,如果一個機器人現(xiàn)在在一個有垃圾的方塊上,并且可以看到東西方方塊上的垃圾,那么一個天真的方法就是立即撿起當前方塊上的垃圾,然后移動到那個有垃圾的方塊。這種策略的問題是,一旦機器人移動(比如向西),他就無法記住東邊還有1個垃圾。為了克服這個問題,我們觀察了我們的進化機器人執(zhí)行以下步驟:

  • 向西移動(在當前方塊留下垃圾作為標記)
  • 撿起垃圾往東走(它可以看到垃圾作為標記)
  • 把垃圾撿起來,搬到東邊去
  • 撿起最后一塊垃圾 

從這種優(yōu)化中產(chǎn)生的另一個反直覺策略的例子如下所示。OpenAI使用強化學習(一種更復雜的優(yōu)化方法)教代理玩捉迷藏。我們看到,這些代理一開始學習“人類”策略,但最終學會了新的解決方案。

結論

遺傳算法以一種獨特的方式將生物學和計算機科學結合在一起,雖然不一定是最快的算法,但在我看來,它們是最美麗的算法之一。

 

責任編輯:未麗燕 來源: segmentfault.com
相關推薦

2025-01-16 07:10:00

2017-10-17 14:25:56

機器學習算法優(yōu)化

2014-11-28 16:08:33

射頻識別RFID

2009-06-15 16:14:40

Java垃圾收集算法GC

2021-03-10 15:49:20

人工智能遺傳算法

2024-07-03 08:00:00

2017-11-16 15:25:54

Go語言算法代碼

2021-03-16 11:30:33

2020-06-11 08:32:50

Python遺傳算法代碼

2024-01-15 11:12:28

Go內(nèi)存開發(fā)

2009-08-14 09:41:03

C#遺傳算法

2017-09-22 15:03:08

Python遺傳算法GAFT框架

2010-02-22 08:58:35

JVM內(nèi)存模型垃圾收集

2024-09-12 10:06:21

2010-01-06 16:33:50

.Net Framew

2024-07-15 08:00:00

2017-08-21 10:00:23

遺傳算法Python生物學

2017-08-03 10:05:01

Python遺傳算法GAFT

2010-03-04 10:08:54

.Net垃圾收集

2017-09-21 14:40:06

jvm算法收集器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线观看日本网站 | 日日日视频| 91九色视频在线 | 成人在线视频观看 | 国产精品99久久久久久动医院 | 99久久婷婷国产综合精品首页 | 精品国产乱码久久久久久88av | 毛片在线视频 | 国产成人免费 | 精品国产乱码久久久久久牛牛 | 国产精品99久久久久久久vr | 9色网站 | 福利国产| 在线免费观看a级片 | 亚洲精品v日韩精品 | 伊人一区 | 中文字幕 在线观看 | 亚洲综合色自拍一区 | 国产特级毛片 | 久久91 | av黄色在线播放 | 亚洲欧美视频在线观看 | 欧美日韩中文在线 | 天天天操 | 国产精品99久久久久久动医院 | 中文字幕精品一区久久久久 | 中文字幕免费在线 | 91大神在线资源观看无广告 | 国产在线小视频 | 日本不卡一区二区 | 免费国产视频在线观看 | 颜色网站在线观看 | 伊人一区| 日本特黄a级高清免费大片 特黄色一级毛片 | 久久噜噜噜精品国产亚洲综合 | 91精品久久久久久久久 | 久久这里有精品 | 午夜网站视频 | 久久一级大片 | 午夜免费网站 | 国产精品久久久久久久久久东京 |