用「最好的語言」PHP,做一個機器學習數據集
機器學習是一門通過數據來教計算機解決問題的科學,而不是編寫序列算法,讓指令逐個執行。
一般來說,數據準備是機器學習的首要任務,通常包括兩個子步驟:創建數據集和轉換數據。
如果想構建一個類似人類的 AI 象棋游戲,首要問題就是創建一個數據庫,并且該數據庫需要盡可能多的包含象棋大師玩游戲的數據。通常情況下,大多數人使用 Python 構建數據集,并且在一定程度上認為 Python 是數據科學的唯一編程語言。
但是,項目作者 Jordi Bassaganas 打破流行觀點(該觀點認為 Python 是世界上唯一用于數據科學的編程語言),不使用 Python,而是在構建數據中使用了 MySQL、PHP 和 Rubix ML,其中 Rubix ML 是一個高級機器學習庫,可構建使用 PHP 語言從數據中學習的程序。

項目地址:https://github.com/programarivm/chess-data
項目介紹
該項目是一組命令行界面(Command-Line Interface,CLI)工具,可幫助管理 PGN 游戲中的象棋數據庫,此外,該工具還可以進行數據準備、可視化數據和使用 Rubix ML 訓練監督模型。
所謂的 PGN 就是「可移植式棋局記號法」(Portable Game Notation),是一種以 ASCII 文本文件表示國際象棋棋局數據的標準設定。PGN 設計成使人們很容易進行閱讀和編寫,電腦程序很容易進行解析和產生。定義和傳播 PGN 的目的,是為了促進公開對局數據的共享交流,包括來自全世界的棋手 (不管有無組織)、出版人和電腦國際象棋研究的。
接下來真正的問題是:應該給計算機提供哪些示例以使機器學習變得更容易?
這個數據準備存儲庫主要任務是將數百萬個象棋游戲加載到 SQL 數據庫中。作者從 PGN Mentor 中下載了 PGN 文件,PGN Mentor 是一個用于國際象棋研究的軟件應用程序,同時還提供了一個包含數百萬個游戲的文件集合,并將這些文件復制到 programarivm/chess-data/data/players 文件夾中。
其實使用 PHP 為機器學習準備數據集并沒有什么簡單方法。但實現過程涉及到不同的技術,這是關于對處理問題的理解、收集和過濾數據的最好實踐過程。
例如,當涉及國際象棋時,首先你需要過濾和驗證游戲,這意味著要刪除那些語法上無效或包含錯誤的游戲。cli/pgn-validate.php 命令查找 PGN 文件中錯誤,這條命令在將信息加載到數據庫時會被廣泛使用。
示例展示
下面展示了使用該項目設置和運行 MySQL 國際象棋數據庫,第一步是創建如下所示的象棋數據庫:
- $ php cli/db-create.php
然后,按照下面的描述,games 表將被植入有效數據。
- $ time php cli/db-seed.php data/players
- ✗ 15 games did not pass the validation.
- ✓ 3234 games out of a total of 3249 are OK.
- ✓ 1353 games out of a total of 1353 are OK.
- ✓ 1900 games out of a total of 1900 are OK.
- ✓ 776 games out of a total of 776 are OK.
- ✗ 1 games did not pass the validation.
- ✓ 1660 games out of a total of 1661 are OK.
- ✗ 4 games did not pass the validation.
- ...
- ✓ 1124 games out of a total of 1124 are OK.
- ✓ 265 games out of a total of 265 are OK.
- ✗ 1 games did not pass the validation.
- ✓ 2099 games out of a total of 2100 are OK.
cli/db-seed.php 命令需要大約 40 分鐘才能加載大約 400,000 個游戲。
- mysql> select count(*) from games;
- +----------+
- | count(*) |
- +----------+
- | 402658 |
- +----------+
- 1 row in set (0,23 sec)
值得一提的是,所有這些都是用 PHP 語言實現的!
建立好國際象棋數據庫后,就可以為機器學習算法準備數據。在接下來的文章中,項目作者將詳細說明如何通過使用多層感知器分類器和該數據庫,進行國際象棋防守、戰術等的開發。