大數據、分析、物聯網、云技術……最近的幾年里,沒有這些術語你就無法參與到關于科技的討論和對話中。它們已經成了科技中主要的參與者,影響著商務的方方面面。變化似乎正在以極快的速度發生著,九江服務器 東莞服務器,并且沒有減速的跡象。 如今,香港服務器 香港服務器租用,科技中唯一不變的就是變化本身了。不斷的變化需要不斷的創新,因此就需要引入更多的新技術。進入科技話題的新技術之一是機器學習。加特納指出機器學習是2016年十大技術趨勢之一。毫無疑問這是一個熱點話題。
一切舊的又是新的
我發現有趣的是機器學習的基本原理可追溯到70年代和80年代早期的人工智能研究。當時的工作受到計算機性能和數據利用量的限制。 突破這些約束是近年來機器學習取得飛躍性進展的關鍵。計算周期和數據利用水平在幾十年前是無法想象的。
機器學習的目標聽起來很簡單: 提供系統基于信息上學習的能力。盡管它聽起來簡單, 這是在挑戰經典的軟件工程。大多數我們所熟悉的“硬編碼”軟件開發系統的行為都是基于計劃和預期的用戶數據交互。標準的“if – then – else”模型。
人工智能/機器學習的算法要求更為復雜。它們需要允許系統形成它自己以輸入為依據的分析模式。這些模式根據提供的信息不斷變化。以數據和這些模式為依據,行為被決定。正如你從描述中了解到的,這將導致非常不確定的行為。系統將會根據提供的信息分析,理解并做出反應,根據更多的信息調整行為,然后提供反饋。分析和行為不斷的改變,隨著時間過去被改進。想象一下進行一個適合這個系統的測試!(即將討論的主題)
你有網飛公司的賬戶嗎?亞馬遜呢?每次你登錄時,網飛和亞馬遜都給你提供一個推薦列表。這兩個公司都有非常復雜的,專有的算法。通過這些算法,就可以分析蘊含著你和所有其他成員交易的龐大的信息群?;谶@些數據,他們建立了你的預期行為模型,并提出了一系列的建議給你。你對這些建議的反應也被反饋到算法中,然后算法會不斷調整以適應你的行為模式。
那你的智能手機呢?想一下“先生,今天天氣怎么樣?”這句簡單語句的復雜度。首先,軟件為了確定你實際說的話,需要識別你的語音,口音以及你說話的方式。如果這不是很確定,軟件要求確認,它從你的確認中學習。每次你使用語音識別的時候,你的手機會更好的理解你說了什么。一旦理解你說的話,它會將自然語言處理成有意義的語言到系統中。這又需要復雜的算法來分析語音信息,創建模型,然后在其翻譯結果上執行指令。當解析語音的時候,如果不是很確定,軟件會立馬提示確認。你說話方式所用的模型以及你使用語言的上下文會給予系統反饋。
這都是數據在起作用
最近TechCrunch上的一篇文章, ‘創業公司如何在人工智能和機器學習領域中與企業競爭’ John Melas-Kyriazi 談到數據:‘’我們投入資源到訓練機器學習模型中,它將創造巨大的網絡效應。‘ 我發現一個非常恰當的比喻。復雜的算法和模型是機器學習的引擎,但是如果沒有燃料,引擎-數據-不會很好地工作。我的一個同事,John Williams, ( Collaborative Consulting 的首席戰略官)多年來一直喜歡說,“這都是數據在起作用。”在機器學習的世界里再真實不過了。
考慮到數據對任何成功的機器學習實現的重要性, 有幾個關鍵因素需要考慮:
數據質量 – 在數據的世界中,這一直是一個重要的考量。 數據清洗在許多組織形式中都已成為了一種標準實踐。 它對機器學習的實現已經變得至關重要了。將骯臟不純的燃料放入到即使最好的引擎中也會導致其停止工作.
數據體量 – 大數據是為機器學習量身定制的。算法和后續的模型使用的信息越多,結果就越好. 這里的關鍵詞是學習。我們作為個人,當被提供給我們越多的信息時就能學習得越多。 這個道理也可直接用于機器學習的世界。
數據時效性 – 除了體量之外,最新的、及時的數據也是一個考量因素。假如機器學習是基于完全過時的大體量數據, 結果模型就沒有那么有用了.
數據譜系 – 數據是從哪里來的? 是有效的來源嗎? 當使用內部系統的時候數據譜系沒有那么重要,因為數據來源是眾所周知的, 但是許多機器學習系統會從公共源來獲取數據。 或者潛在的從互聯網上的許多設備上獲取. 來源于人群的數據 (例如Waze, 一個手機GPS 應用) 要求作出額外的努力來確保你可以信任你所使用的的數據。想象一種新型的網絡攻擊, 給你機器學習系統以錯誤的數據而影響你的結果。還記得微軟的人工聊天機器人 AI Chatbot Tay被引導為一個種族主義者的麻煩事情嗎?
沒有技術能夠否定好的設計和規劃的需要