15款頂級(jí)的開(kāi)源人工智能工具推薦
譯文【51CTO.com快譯】這些開(kāi)源人工智能應(yīng)用軟件處在人工智能研究領(lǐng)域的最前沿。
人工智能是技術(shù)研究領(lǐng)域最炙手可熱的領(lǐng)域之一。IBM、谷歌、微軟、Facebook和亞馬遜等公司正投入巨資進(jìn)行研發(fā),并紛紛收購(gòu)在機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、神經(jīng)語(yǔ)言和圖像處理等領(lǐng)域取得進(jìn)展的初創(chuàng)公司。考慮到人工智能如此受關(guān)注,斯坦福大學(xué)的專(zhuān)家最近撰寫(xiě)的一份智能研究報(bào)告得出結(jié)論:“現(xiàn)在到2030年人工智能可能會(huì)出現(xiàn)越來(lái)越有用的應(yīng)用,有可能給我們的社會(huì)和經(jīng)濟(jì)帶來(lái)深遠(yuǎn)的積極影響,”也就不足為奇了。
我們?cè)诒疚闹袑?zhuān)注于開(kāi)源人工智能工具,著重介紹15個(gè)知名度最大的開(kāi)源人工智能項(xiàng)目。
1. Caffe
Caffe是加州大學(xué)伯克利分校攻讀博士學(xué)位者的杰作,這是一種深度學(xué)習(xí)框架,基于表達(dá)式架構(gòu)和可擴(kuò)展代碼。速度快是它賴(lài)以成名的特點(diǎn),因而在研究人員和企業(yè)用戶(hù)當(dāng)中都備受歡迎。據(jù)官方網(wǎng)站聲稱(chēng),僅僅使用一個(gè)英偉達(dá)K40 GPU,它在短短一天內(nèi)就能夠處理6000多萬(wàn)個(gè)圖像。它由伯克利視覺(jué)和學(xué)習(xí)中心(BVLC)管理,英偉達(dá)和亞馬遜等公司提供了撥款,支持它的發(fā)展。
相關(guān)鏈接:http://caffe.berkeleyvision.org
2. CNTK
CNTK的全稱(chēng)是計(jì)算網(wǎng)絡(luò)工具包,它是微軟的開(kāi)源人工智能工具之一。它聲稱(chēng)擁有出眾的性能,無(wú)論在只有CPU的系統(tǒng)上運(yùn)行,在只有一個(gè)CPU的系統(tǒng)上運(yùn)行,在擁有多個(gè)GPU的系統(tǒng)上運(yùn)行,還是在擁有多個(gè)GPU的多臺(tái)機(jī)器上運(yùn)行,都是如此。微軟主要用它來(lái)研究語(yǔ)音識(shí)別,但是它同樣適用于其他應(yīng)用領(lǐng)域,比如機(jī)器翻譯、圖像識(shí)別、圖像字幕、文本處理、語(yǔ)言理解和語(yǔ)言建模。
相關(guān)鏈接:https://www.cntk.ai
3. Deeplearning4j
Deeplearning4j是一種面向Java虛擬機(jī)(JVM)的開(kāi)源深度學(xué)習(xí)庫(kù)。它在分布式環(huán)境中運(yùn)行,可與Hadoop和Apache Spark整合起來(lái)。它讓用戶(hù)可以配置深度神經(jīng)網(wǎng)絡(luò),與Java、Scala及其他JVM語(yǔ)言兼容。
該項(xiàng)目由一家名為Skymind的商業(yè)公司管理,該公司提供收費(fèi)的支持、培訓(xùn)和Deeplearning4j的企業(yè)發(fā)行版。
相關(guān)鏈接:http://deeplearning4j.org
4. 分布式機(jī)器學(xué)習(xí)工具包
與CNTK一樣,分布式機(jī)器學(xué)習(xí)工具包(DMTK)是微軟的開(kāi)源人工智能工具之一。它是為大數(shù)據(jù)應(yīng)用領(lǐng)域設(shè)計(jì),旨在更快地訓(xùn)練人工智能系統(tǒng)。它包括三大部分:DMTK框架、LightLDA主題模型算法以及分布式(Multisense)單詞嵌入算法。微軟聲稱(chēng),在8個(gè)集群機(jī)器上,它能夠“針對(duì)擁有1000多億個(gè)權(quán)標(biāo)的文檔集合,訓(xùn)練擁有100萬(wàn)個(gè)主題和1000萬(wàn)個(gè)單詞詞匯表(共有10萬(wàn)億個(gè)參數(shù))的主題模型,”這個(gè)成績(jī)是其他工具無(wú)法比擬的,這也證明了DMTK的速度有多快。
相關(guān)鏈接:http://www.dmtk.io
5. H2O
H2O更加專(zhuān)注于人工智能在企業(yè)領(lǐng)域的應(yīng)用,而不是在研究領(lǐng)域的應(yīng)用,它的用戶(hù)包括諸多大公司:第一資本、思科、尼爾森Catalina、貝寶及Transamerica。它聲稱(chēng)讓任何人都可以使用機(jī)器學(xué)習(xí)和預(yù)測(cè)分析的強(qiáng)大功能,解決業(yè)務(wù)問(wèn)題。它可用于預(yù)測(cè)建模、風(fēng)險(xiǎn)及欺詐分析、保險(xiǎn)分析、廣告技術(shù)、醫(yī)療保健和客戶(hù)情報(bào)。
它有兩種開(kāi)源版本:標(biāo)準(zhǔn)的H2O和Sparkling Water,后者與Apache Spark集成起來(lái)。它還提供收費(fèi)的企業(yè)支持。
相關(guān)鏈接:http://www.h2o.ai
6. Mahout
Mahout是Apache基金會(huì)下面的一個(gè)項(xiàng)目,是一種開(kāi)源機(jī)器學(xué)習(xí)框架。據(jù)官方網(wǎng)站聲稱(chēng),它提供三種主要的特性:用于構(gòu)建可擴(kuò)展算法的編程環(huán)境、面向Spark和H2O等工具的預(yù)制算法,以及名為Samsara的向量數(shù)學(xué)試驗(yàn)環(huán)境。使用Mahout的公司包括:Adobe、埃森哲、Foursquare、英特爾、領(lǐng)英、推特、雅虎及其他許多公司。可通過(guò)官方網(wǎng)站上所列的第三方獲得專(zhuān)業(yè)支持。
相關(guān)鏈接:http://mahout.apache.org
7. MLlib
Apache Spark以速度快著稱(chēng),它已成為最流行的大數(shù)據(jù)處理工具之一。MLlib是Spark的可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)。它與Hadoop整合起來(lái),可與NumPy和R協(xié)同操作。它包括一大批機(jī)器學(xué)習(xí)算法,可用于分類(lèi)、回歸、決策樹(shù)、推薦、聚類(lèi)、主題建模、特性轉(zhuǎn)換、模型評(píng)估、機(jī)器學(xué)習(xí)管道構(gòu)建、機(jī)器學(xué)習(xí)持久性、生存分析、頻繁項(xiàng)集、順序模式挖掘、分布式線(xiàn)性代數(shù)和統(tǒng)計(jì)。
相關(guān)鏈接:https://spark.apache.org/mllib/
8. NuPIC
NuPIC由一家名為Numenta的公司管理,這是一種開(kāi)源人工智能項(xiàng)目,基于一種名為分層式即時(shí)記憶(即HTM)的理論。實(shí)際上,HTM試圖建立一種模仿人類(lèi)大腦新皮層而建的計(jì)算機(jī)系統(tǒng)。目的在于制造“處理許多認(rèn)知任務(wù)時(shí)接近或勝過(guò)人類(lèi)表現(xiàn)”的機(jī)器。
除了開(kāi)源許可證外,Numenta還提供采用商業(yè)許可證的NuPic,它還提供作為它技術(shù)底層的專(zhuān)利方面的許可證。
相關(guān)鏈接:http://numenta.org
9. OpenNN
OpenNN為深入了解人工智能的研究人員和開(kāi)發(fā)人員而設(shè)計(jì),這是一種用于實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的C++編程庫(kù)。主要特性包括:深度架構(gòu)和卓越性能。官方網(wǎng)站上有全面的說(shuō)明文檔,包括解釋神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)的入門(mén)教程。可通過(guò)Artelnics獲得OpenNN的收費(fèi)支持,總部位于西班牙的這家公司主攻預(yù)測(cè)分析。
相關(guān)鏈接:http://www.opennn.net
10. OpenCyc
OpenCyc由一家名為Cycorp的公司開(kāi)發(fā),它讓用戶(hù)可以訪(fǎng)問(wèn)Cyc知識(shí)庫(kù)和常識(shí)推理引擎。它包括239000多個(gè)術(shù)語(yǔ)、約2093000個(gè)三元組以及大約69000個(gè)owl:sameAs鏈接(指向外部語(yǔ)義數(shù)據(jù)命名空間)。它用于豐富域名建模、語(yǔ)義數(shù)據(jù)整合、文本理解、特定領(lǐng)域?qū)<蚁到y(tǒng)和游戲人工智能。這家公司還提供Cyc的另外兩個(gè)版本:一個(gè)是非開(kāi)源免費(fèi)版本,面向研究人員;另一個(gè)面向企業(yè)用戶(hù),需要收費(fèi)。
相關(guān)鏈接:http://www.cyc.com/platform/opencyc/
11. Oryx 2
Oryx 2建立在Apache Spark和Kafka上,這是一種專(zhuān)門(mén)的應(yīng)用開(kāi)發(fā)框架,面向大規(guī)模的機(jī)器學(xué)習(xí)。它使用了一種獨(dú)特的lambda架構(gòu),有三個(gè)層次。開(kāi)發(fā)人員可使用Oryx 2來(lái)構(gòu)建新的應(yīng)用程序,它還包括一些預(yù)制應(yīng)用程序,處理常見(jiàn)的大數(shù)據(jù)任務(wù),比如協(xié)作過(guò)濾、分類(lèi)、回歸和聚類(lèi)。大數(shù)據(jù)工具廠(chǎng)商Cloudera建立了最初的Oryx 1項(xiàng)目,一直大力參與持續(xù)開(kāi)發(fā)工作。
相關(guān)鏈接:http://oryx.io
12. PredictionIO
今年2月份,Salesforce收購(gòu)了PredictionIO,后來(lái)在7月份,它把該平臺(tái)連同商標(biāo)一起捐獻(xiàn)給了Apache基金會(huì),該基金會(huì)將它列為孵化器項(xiàng)目。所以,雖然Salesforce使用PredictionIO技術(shù)來(lái)完善自己的機(jī)器學(xué)習(xí)功能,但是開(kāi)源版本方面的工作也會(huì)繼續(xù)下去。它可幫助用戶(hù)構(gòu)建擁有機(jī)器學(xué)習(xí)功能的預(yù)測(cè)引擎,這些功能可用來(lái)部署實(shí)時(shí)響應(yīng)動(dòng)態(tài)查詢(xún)的Web服務(wù)。
相關(guān)鏈接:https://prediction.io
13. SystemML
SystemML最初由IBM開(kāi)發(fā),現(xiàn)在它是Apache旗下的一個(gè)大數(shù)據(jù)項(xiàng)目。它提供了一種高度可擴(kuò)展的平臺(tái),可以實(shí)施用R或類(lèi)似Python的語(yǔ)法編寫(xiě)的高級(jí)運(yùn)算和算法。企業(yè)已經(jīng)在用它來(lái)跟蹤汽車(chē)維修方面的客戶(hù)服務(wù),引導(dǎo)機(jī)場(chǎng)客流量,或者將社交媒體數(shù)據(jù)與銀行客戶(hù)聯(lián)系起來(lái)。它可以在Spark或Hadoop上運(yùn)行。
相關(guān)鏈接:http://systemml.apache.org
14. TensorFlow
TensorFlow是谷歌的開(kāi)源人工智能工具之一。它提供了用于數(shù)字計(jì)算的庫(kù),使用數(shù)據(jù)流圖。它可以在眾多不同的搭載單一或多個(gè)CPU和GPU的系統(tǒng)上運(yùn)行,甚至可以在移動(dòng)設(shè)備上運(yùn)行。它擁有深度靈活性、真正的可移植性、自動(dòng)差分功能,并支持Python和C++。官方網(wǎng)站上列有非常豐富的教程和實(shí)用文章,可供有興趣使用或擴(kuò)展其功能的開(kāi)發(fā)人員或研究人員使用。
相關(guān)鏈接:https://www.tensorflow.org
15. Torch
Torch自稱(chēng)是“一種科學(xué)計(jì)算框架,廣泛支持把GPU放在首位的機(jī)器學(xué)習(xí)算法。”這里的重點(diǎn)在于靈活性和速度。此外,很容易與眾多方面的軟件包結(jié)合使用:機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、信號(hào)處理、并行處理、圖像、視頻、音頻和網(wǎng)絡(luò)。它依賴(lài)一種名為L(zhǎng)uaJIT的腳本語(yǔ)言,這種語(yǔ)言基于Lua。
相關(guān)鏈接:http://torch.ch
原文標(biāo)題:15 Top Open Source Artificial Intelligence Tools,作者:Cynthia Harvey
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】