我們將去向何處?
微軟數據科學家和 Azure 數據 /AI 技術專家 Marck Vaisman 在他的演講中提出了替代方案,他使用了 Python 和 R,而不使用 Spark。他介紹了 Dask,一個 Python 開源庫。Dask 承諾為分析提供高級并行性,可以與 Numpy、Pandas 和 Scikit-Learn 等項目協同工作。
在 AI 采用頻譜的一邊是谷歌和微軟這樣的領導者:他們將 AI 作為其戰略和運營的核心要素。他們的資源、數據和技術成為他們領導 AI 競賽的先決條件。然后是 AI 采用者,他們在自己的領域中應用 AI。然后是落后者,他們陷于技術債務之中,無法在 AI 采用方面做出任何有意義的事情。
Pablo Carrier 在演講指出,如果你嘗試線性提高 DL 的準確率,計算量將呈指數級增長。在過去六年中,計算量增加了 1000 萬倍。即使是谷歌云也很難跟上,更不用說其他的了。
Google Cloud AI 技術主管 Viacheslav Kovalevskyi 在開始他的“分布式 DL 理論和實踐”演講之前,警告說:如果有可能,請避免使用它。如果你真的必須這么做,請注意與分布式相關的開銷,并準備在計算和復雜性以及基礎賬單方面付出代價。
很明顯,他們在向我們傳達這樣的一個信息:讓我們來操心模型和培訓的事,你只要專注在你領域內的細節上。我們可以識別機械部件——只需要提供給我們特定的機械部件就可以了,然后你該干什么干什么去。
讓我們回顧一下 Big Data Spain(BDS)大會,它是歐洲最大和最具前瞻性的大會之一,標志著從大數據到 AI 的轉變,并嘗試回答一些與 AI 相關的問題。
更具體地說:不要忘了組織中的數據素養和數據治理。如果你認為可以通過某種方式跨過數據分析的演化鏈在你的組織中開發 AI 解決方案,那么請三思。
Kovalevskyi 提供了一些不同的使用分布式 DL 的歷史視角——分布數據、模型或二者。分布數據是最簡單的方法,分布兩者是最難的。但是,美國站群服務器 亞洲服務器,無論如何,分布式 DL 仍然是一個“童話之地”——通過增加 k 倍計算時間,你并不會獲得 k 倍的性能提升。
谷歌還在 BDS 上發布了一些新產品:Kubeflow 和 AI Hub。它們背后的想法是編排 ML 管道,類似于 Kubernetes 為 Docker 容器提供的應用程序。這些并不是唯一能夠帶來類似優勢的產品。它們看起來有點誘人,但你應該使用它們嗎?
然而,智能并非只是關于模式匹配。推理能力不能只通過 ML 方法來建立——至少現在不行。因此,我們需要整合遠離炒作的 AI 方法:知識表示和推理、本體論等。這是我們一直在倡導的,并且看到了它在 BDS 上很受推崇,這是一種正面的肯定。
在真正成功之前,我們能先假裝成功嗎?
誰不想直接跳過 AI 這道坎,拿到想要的結果,而且不需要面對那么多麻煩?這確實是一種可以讓你領先于競爭對手的方法。但問題是,如果你完全將 AI 外包,那么你就無法獲得在中長期內自給自足所需的技能。
事實證明,從大數據到數據分析再到 AI 的轉變是一個很自然的過程。這不僅是因為這個過程有助于調整人類的思維模型,或者因為大數據和數據分析在被 AI 奪去光彩之前浸淫在 AI 的各種炒作中,主要還是因為我們需要通過大數據來構建 AI。
簡單地說:就像登月一樣。ML 反饋閉環似乎正在全面展開,因此,采用者試圖跟上,落后者保持滯后,但領導者卻越來越領先。
這不僅是因為這個過程有助于調整人類的思維模型,或者因為大數據和數據分析在被 AI 奪去光彩之前浸淫在 AI 的各種炒作中,主要還是因為我們需要通過大數據來構建 AI。