2018年哪些開源AI項目將一路領跑?
譯文【51CTO.com快譯】如今很難躲過人工智能(AI)和機器學習方面的炒作新聞。據IDC公司在2017年9月份的預測,2017年全球認知和AI解決方案支出在120億美元左右。這個數字可能會以50.1%的年復合增長率(CAGR)增長,一直持續到2021年,到時市場規模會達到驚人的576億美元。
弗雷斯特研究公司在2018年預測中預測,今年,“AI將重塑數據分析和企業創新”,“AI將幫20%的公司做出決定、提供實時指導。”不過該公司也提醒,“CIO們會在2018年認識到AI等新技術需要付出艱辛的工作。”
對許多企業組織來說,這艱辛的工作大部分需要先了解機器學習和人工智能框架。據Gartner聲稱,“59%的企業組織仍在收集信息以制定AI戰略。”
這種信息收集大部分可能會緊緊圍繞開源解決方案。市面上有許多領先的AI工具采用開源許可證,最前沿的研發大多數出現在這些開源項目上。
那么企業的IT經理應調查研究哪些開源AI解決方案?本文著重介紹了已變得極其流行的十大開源AI和機器學習工具。
1. TensorFlow
谷歌開發的TensorFlow已成為如今使用最廣泛的機器學習框架之一。該項目的GitHub頁面上有87700多顆星,分支次數超過了42700次。2017年GitHub Octoverse報告將這個開源AI工具列為分支最多的頭號項目、貢獻者數量方面的第五大項目和評論人數方面的第十大項目。
它尤其廣泛用于基于云的應用,比如亞馬遜網絡服務、微軟Azure和谷歌云平臺都提供支持及/或與TensorFlow兼容的服務。據項目官網介紹,使用它的公司包括Airbnb、英偉達、優步、SAP、Dropbox、eBay、谷歌、英特爾、可口可樂、Twitter及其他許多公司。
相關鏈接:https://www.tensorflow.org/
2. Scikit-Learn
Scikit-learn 基于另外三個開源項目:NumPy、SciPy和matplotlibe,它是一種基于Python的機器學習工具,側重數據挖掘和數據分析。它提供諸多算法:分類、遞歸、聚類、降維、模型選擇和預處理。用戶包括Spotify、Evernote、OKCupid、Change.org及其他許多公司。它開始是谷歌的Summer of Code項目,后續開發得到了幾家組織的資助,包括法國國家信息與自動化研究所(INRIA)、巴黎-薩克雷數據科學中心、紐約大學、巴黎高等電信學院、哥倫比亞大學、Alfred P. Sloan基金會和悉尼大學。在GitHub上,它有25300多顆星和12900多個分支。
相關鏈接:http://scikit-learn.org/stable/
3. Caffe
Caffe是賈揚清的杰作,他在加州大學伯克利分校攻讀博士學位期間開發了這個項目。伯克利人工智能研究中心(BAIR)現在處理日常開發工作。項目官網聲稱這是一種“開發當初著眼于表達式、速度和模塊化的深度學習框架。”主要功能包括:表達式架構、可擴展代碼、高速性能以及學術用戶和行業用戶組成的龐大社區。在GitHub上,該項目有22600多顆星和13800多個分支。
相關鏈接:http://caffe.berkeleyvision.org/
4. 微軟認知工具包
微軟認知工具包(之前名為CNTK)自稱是“一種免費、易于使用、開源、商業級的工具包,可以訓練深度學習算法,像人腦那樣來學習”。這款AI解決方案是在微軟內部開發出來的,微軟在2016年發布了開源版。
這款工具的主要功能包括:支持Python、C++和BrainScript;強化學習、生成式對抗網絡以及監督學習和無監督學習;高效使用資源;與NumPy協同運行;并與微軟Azure集成。它在GitHub上有13700多顆星和3600多個分支。
相關鏈接:https://www.microsoft.com/en-us/cognitive-toolkit/
5. PredictionIO
Apache項目 PredictionIO是一種開源機器學習服務器系統,它充分利用了其他許多Apache大數據工具,比如Hadoop、HBase和Spark。企業組織常常用它來實施lambda架構,官網將它作為包括Apache Spark、MLlib、HBase、Spray和Elasticsearch的整個機器學習堆棧的一部分來提供。該項目的目的是幫助數據科學家和開發人員迅速創建可以作為一項Web服務來部署的預測引擎。GitHub頁面顯示有10900多顆星和1777多個分支。
相關鏈接:http://predictionio.incubator.apache.org/index.html
6. Deeplearn.js
顧名思義,deeplearn.js是一種面向深度學習的JavaScript庫。它讓用戶可以在瀏覽器中訓練神經網絡。與本文介紹的另外幾個開源AI項目一樣,它同樣源于谷歌Brain團隊,谷歌繼續在支持該項目。Deeplearn.js包括兩套獨立的API:類似NumPy的直接執行模型和更像TensorFlow的延遲執行模型。在GitHub上,它有6000多顆星和550多個分支。
相關鏈接:https://deeplearnjs.org/
7. Pattern
Pattern由安特衛普大學的計算語言學和語言心理學(CLiPS)研究中心開發。它提供諸多人工智能功能,包括數據挖掘、自然語言處理、機器學習、網絡分析和可視化。它基于Python,隨帶50多個示例和350多個單元測試。GitHub用戶對它標星了6000多次,分支了1100多次。
相關鏈接:https://www.clips.uantwerpen.be/pages/pattern
8. Turi Create
Turi Create旨在讓不是專家的人不必編寫大量代碼,也能構建自己的機器學習模型。它適用于創建推薦引擎、圖像分析工具和文本分類引擎,它包括眾多方面的算法:分類、遞歸、圖形分析、聚類、近鄰、主題模型及更多。蘋果最近(2017年12月)才在GitHub上發布了該工具,但已經備受關注,積聚了5700多顆星和490多個分支。
相關鏈接:https://github.com/apple/turicreate
9. Aerosolve
Aerosolve由Airbnb開發,這款人工智能工具尤其擅長處理地理數據。賴以成名的地方是,它是為“對人類友好”而設計的。主要功能包括:基于Thrift(Thrift 是Apache開發的多語言協作平臺)的特征表示、特征轉換語言、可調試模型、支持Java和Scala,還包括圖像內容分析代碼。在GitHub頁面上,它有4200多顆星和550多個分支。
相關鏈接:http://airbnb.io/aerosolve/
10. DSSTNE
DSSTNE的全稱是“深度可擴展稀疏張量網絡引擎”,它由亞馬遜開發。這家網上購物巨頭用DSSTNE來構建自己的推薦引擎,該AI工具引起了其他零售商和網上企業的濃厚興趣。其開發人員表示,它特別適合機器學習訓練數據***的使用場合。在GitHub上,它有4000多顆星和660多個分支。
相關鏈接:https://github.com/amzn/amazon-dsstne
原文標題:Top 10 Open Source AI Projects in 2018,作者:Cynthia Harvey
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】