數據科學家是當今科技組織中最受追捧的角色之一,并且薪酬不斷上漲。在一些IT組織中,首席信息官可能只有雇用一名數據科學家的預算。所以在招聘數據科學家的時候,可能會希望他像搖滾明星多才多藝,令人關注。
但是當數據科學家進行面試時,應該具備的一項關鍵技能可能在提交審查的簡歷上并不能看到。這不是熟悉Python或R或Spark或其他一些新技術或平臺,也不是了解最新的機器學習方法或新算法;也不是從頭開始編寫人工智能算法,或在幾分鐘內分析數TB的數據的能力。
雖然這些知識非常重要,但它們不是軟技能。事實上,使數據科學家成為搖滾明星的一項技能根本不是技術,而是所謂的軟技能:溝通能力。
在創建一些瘋狂的機器學習系統來構建推薦引擎時,企業正在面試的數據科學家可能是世界上最聰明的人之一,但如果他們沒有這種軟技能就很難取得成功。他們將會遇到一些困難,無法充分挖掘他們的潛力。
其“戰略”是什么?當企業傳達輸出/結果時,數據科學家需要能夠討論的不僅僅是標準信息(錯誤率/指標等)。他們還需要能夠達到關鍵的“W”點:什么,為什么,何時,何地,以及是誰。他們必須能夠清楚地定義他們做了什么,為什么這樣做,他們的方法何時起作用(或者不起作用),他們的數據來自何處,以及誰將受到他們所做的影響。如果他不能以一個外行能理解的方式簡潔地回答這些問題,那么就是一個失敗的數據科學家。
兩個現實世界的例子
有兩個例子可以幫助了解出色的數據科學家(即溝通良好的人)和一個不那么出色的數據科學家之間的區別,例子提供了兩者的背景知識,讓企業自己決定聘請哪一位數據科學家。并假設這兩位數據科學家都在同一個組織工作。
她從事數據科學工作已經四年。她在數據探索、功能工程、機器學習和數據管理方面擁有豐富的經驗。在她的職業生涯中,她實施了多個需要深入研究大型數據集的項目,在分析過程中她使用不同的系統、平臺和語言。
對于她所從事的每個項目,她都會在筆記本上留下評論、想法、變化以及她正在做的事情的理由,畢竟她是一名科學家。當她向團隊成員和管理層提供更新時,她不僅僅關注數據,還關注數據能夠傳達的內容。她對自己的所有工作都作了詳盡的描述,域名購買,并詳細說明了為什么事情是按自己的方式進行的,以及潛在的變化可能如何影響她工作的結果。
對于項目“總結”文檔,她提供了一個執行摘要,其中包含許多直觀的描述,簡要描述項目、她所做的工作、為什么這么做,做了什么、她認為可以做什么來改進事情,以及如何改進項目。除了執行摘要之外,她還提供了一份詳盡的報告,描述了整個過程,其中包含多個附錄和解釋性陳述,供那些想深入了解項目的人使用。當人們選擇人們從事他們的項目時,當他們開始談論團隊成員時,想到的人第一個人就是她。
第二位數據科學家:
他從事數據科學工作已經四年多(比第一個人多了一個月)。他的技術背景非常專業,他是團隊中算法和編程語言的“專家”。考慮很全面,能解決很多困難。他在項目上非常成功,并受到全公司人士的青睞。
當他在項目上工作時自行其事,很少記錄做了什么,以及為什么選擇。例如,如果同事問他為什么在一個項目中選擇隨機森林而不是支持向量機時,他會告訴,“因為它工作得更好”,但他無法解釋其“更好”的含義。雖然很少有人反對他在項目上的選擇,他的工作也很少受到質疑,也沒有人質疑他的技術,但同事總是在項目中/項目后質疑“他在做什么?”“他做了什么?”這樣的問題。
對于結果的記錄和呈現,他將預期的基本報告與適當的信息放在一起,而人們總是有問題向他請教。但在考慮新項目時,他通常會排在最后,因為同事評價說,國內服務器,和他一起工作并不知道他在做哪些事情。
那么會選誰?
假設人們知道這兩位哪一個是出色的數據科學家。雖然第二人在技術上比第一人更精湛,但他的溝通技巧有點落后。第一個人是每個人在組織中提供“最佳”數據科學成果的人。而溝通就是差別。第一位數據科學家不僅能夠完成技術工作,還能以組織可以輕松理解的方式分享成果。