人工智能是目前最熱門的科研領域之一。諸如IBM、谷歌、微軟、臉書和亞馬遜這類大型公司不僅加大了對旗下發展研究部門的資金投入,同時也開始并購一些在機器學習、神經網絡、自然語言與圖像處理領域小有所成的初創公司。鑒于目前人工智能研究領域的火爆程度,斯坦福大學的教授們不久前作出了這樣一份報告:“人工智能軟件的作用越來越強大,而對人類社會、經濟有強大影響力的人工智能軟件將于2030年前面世”。
國外網站Datamation今日整理了目前熱門的15款開源人工智能軟件,雷鋒網(公眾號:雷鋒網)對全文進行了編譯介紹如下:
1.Caffe
Caffe軟件由加州大學伯克利分校的一名博士生開發,是一個基于表達構架與可擴展編碼的深度學習框架。因其出色的處理速度而廣受研究人員與企業的喜愛。根據其主頁的介紹,只使用一顆NVIDIA K40 GPU,該軟件一天就可處理超過6000萬張圖片。Caffe軟件項目由BVLC運作,由NVIDIA和亞馬遜等公司資助其發展研究。
2.CNTK
CNTK是Computational Network Toolkit(計算網絡工具包)的縮寫,是微軟旗下開源人工智能軟件之一。它的過人之處在于:無論是只有CPU工作,還是單科GPU,或是或多顆GPU,亦或是多臺機器配備多顆GPU工作,它的性能都十分優秀。雖然微軟主要用它進行語音識別的研究,但它還可以進行機器翻譯、圖像識別、圖像抓取、文本處理、語言識別與語言建模等工作。
3.Deeplearning4j
Deeplearning4j是一款JVM開源深度學習庫軟件。它能在分布式環境中運行,并整合hadoop與Apache Spark.而這使得它可以配置深度神經網絡,還可運行Java、Scala等其他JVM語言。
Deeplearning4j軟件項目由Skymind商業公司運作,directadmin下載 美國虛擬主機,由Skymind負責項目的資金支持、人員培訓與產品推廣。
4.DMTK
與CNTK一樣,DMTK是Distributed Machine Learning Toolkit的縮寫(分布式機器學習工具),是微軟旗下的另一款開源人工智能軟件。為大數據研究而設計,旨在縮短人工智能系統的訓練時間。DMTK包括三大主要部分:DMTK框架、LightLDA模型算法與分布式(多感)字嵌入算法。為了說明DMTK的處理速度,微軟聲稱其可通過一臺8節點計算機集群,在有著超過1000億個標記的文檔合集中處理出一個包含100萬主題與1000萬文字(總計10萬億個參數)的主題模型,而這是同類軟件無法匹敵的。
5.H2O
更專注于企業使用體驗而不是科學研究的H2O收獲了如Capital One、思科、Nielsen Catalina、PayPal和Transamerica等大型企業的訂單。Oxdata稱所有人都可使用H2O機器學習與預測分析能力解決商業問題。H2O還可用于預測建模、欺詐與風險分析、保險分析、廣告工藝、醫療保健與客戶智能等方面。
H2O有兩個開源版本:標準版H2O和Sparkling Water版H2O,兩個版本都整合在Apache Spark中,Oxdata將為付費企業提供技術支持。
6.Mahout
Mahout 是 ASF(Apache軟件基金會)旗下的一個開源項目,提供開源機器學習框架。據其官方主頁描述,Mahout有三大主要特點:可擴展算法編程環境、事先寫有如Spark和H2O等工具的算法、內置名為“Samsara”的矢量運算環境。Mahout用戶的包括Adobe、Accenture、Foursquare、英特爾、領英、Twitter和雅虎等公司。
7.MLlib
以處理速度而聞名的Apache Spark已成為大數據處理中最常用的軟件之一。MLlib算法是一個Spark的可擴展機器學習庫。它與Hadoop融為一體,可與NumPy和NumPy.R跨平臺操作。它囊括了大量機器學習算法類型,包括:分類、回歸、決策樹、建議、聚集、主題建模、特點轉換、模型評價、ML pipeline構建、ML持久性、生存分析、頻繁集、序列模式挖掘、離散線性代數和數據統計分析。
8.NuPIC
NuPIC由Numenta公司運作,吉隆坡服務器 大馬伺服器,是一個基于HTM(分層時間記憶)理論的開源人工智能項目。實際上,HTM理論是想根據人大腦新皮質結構設計一個電腦系統,旨在打造一臺“在處理認知型任務上,接近或超過人類能力的電腦。”
Numenta不僅擁有NuPic的開放源代碼許可,還有其商業授權與專利證書。
9.OpenNN