如今,當組織需要從數據中獲得一些見解時,他們首先傾向于尋找數據科學家的幫助。但這真的是一個更好的選擇嗎?人們需要了解數據科學家和數據分析師的角色有何不同,以及為什么希望聘用數據分析師。
那么,數據科學家和數據分析師之間的區別是什么?這些角色的定義可能有所不同,但通常認為數據科學家結合了三個關鍵學科的知識——數據分析、統計、機器學習。機器學習涉及到數據分析的過程,以學習和生成分析模型,這些模型可以對看不見的數據執行智能操作,并且人為干預最少。有了這樣的期望,很明顯具有這三方面技能的數據科學家也越來越受到企業的青睞。
但是,數據科學家在這三個方面的表現都是完美的嗎?更重要的是,所有這些角色都需要類似的技能嗎?或者說數據分析師和機器學習工程師使用的技能和方法是完全不同的嗎?
事實上,這些專家的方法確實有很大不同。谷歌公司首席決策科學家Cassie Kozyrkov對這種差異提供了一個精辟的解釋。她聲稱,組織的數據分析師是為了提供快速的結果,例如分析數據中有趣的相關性。
為了滿足決策者對快速和簡短答案的期望,數據分析師使用相應的編碼風格——使用更少的代碼行,并為管理者生成易于理解的相關矩陣。機器學習工程師有一個完全不同的編碼風格,他們的目標是建立一個完美的模型,這通常需要很多時間。
統計學家也無法提供快速結果,他們會說,“等等,我們無法從這些數據中得出任何因果關系。我們甚至不知道其結果是否具有統計意義!”是的,有時組織需要擅長統計數據的統計學家或數據科學家來回答這類問題。但是真的需要知道這些答案才能了解數據中的相關性嗎?
實際上沒有。在獲得數據分析師的初步結果后,組織應聘請領域專家,他們可以決定哪些已識別的模式對業務確實很重要,站群服務器,值得進一步調查。人們可能已經看到數據分析師在某些情況下比數據科學家更令人滿意。但現在需要澄清數據分析師應該具備哪些技能來滿足決策者的需求,并成為組織的資產。
組織真正需要什么樣的數據分析師?
數據分析師在組織中的主要作用是通過識別數據中有趣且重要的模式,并提供隱藏在大量表格、圖表和日志文件中的快速答案來幫助決策者。簡而言之,如果領域專家發現這些領域很重要,數據分析師會確定統計人員和機器學習工程師需要注意的領域。
因此,人們希望在數據分析師中看到以下品質:
講述數據故事:優秀的數據分析師可以閱讀數據,并圍繞數據講述故事。數據專家從不超越數據,總是提供多種可能的解釋。
例如,他們可以說:“我們在Facebook上推出一個廣告活動后,我們似乎獲得了更多的潛在客戶。這可能是關于此活動有效性的信號,但潛在客戶數量的增長也可能是由季節性變化引起的。需要進行更深入的分析。”
數據可視化技能:創建具有視覺吸引力、具有意義、易于解釋的圖形的能力對數據分析師也非常重要。其故事總是受益于出色的可視化,這使得決策者的工作變得更加容易。 技術專長:專業數據分析師可以使用電子表格為組織提供隱藏在數據中的洞察力。但是,為了提供快速的結果,并創建專業的可視化,數據分析師通常需要電子表格之外的技術專業知識。
因此,人們期望數據分析師熟悉Python編程語言,并熟練使用Tableau或Microsoft Power BI等工具。
針對速度優化的編碼樣式:組織不需要數據分析師具有與軟件工程師或機器學習工程師相同的編程技能。數據分析師應該知道如何使用Python清理數據,如何執行數據分析,以及如何使用清晰的可視化和表格來呈現信息。
網上有一些很好的課程可以培訓這些技能。此外,數據分析師應該熟悉為數據分析創建的流行的數據包,并使用這些數據包以最有效的方式分析數據。
領域專業知識:并非所有公司都需要數據分析師的領域專業知識,但這絕對是專業數據分析師的一項關鍵優勢技能。換句話說,如果有人想成為好的數據分析師,他們應該熟悉某個領域。這種技能將幫助他們區分對業務真正重要的模式和不值得數據專家和決策者花費時間的發現。
既然人們知道什么樣的數據分析師可以成為組織的寶貴資產,那么總結一下人們對優秀數據分析師的期望,以及為什么每個組織都需要這樣的專家。
每個公司都需要數據分析師
如果組織的管理者做出數據驅動的決策,那么該組織肯定需要數據分析師。組織希望招募具有上述技能的優秀專家,他們可以: