在不算太遙遠的過去,業界對數據科學家的評判主要依據于他們發現、理解、管理和綜合信息的能力。隨著數據環境的不斷發展和計算能力的不斷提高,編碼技能變得越來越重要。隨著時間的推移,又出現了更加細致入微的技能要求,包括人工智能方法的專業知識、判斷數據真實性以及許多其他的能力。
最近,隨著許多組織開始認識到某些高級數據科學技能的重要性,通常最缺乏的是在數據信息和業務需求之間進行轉換的能力。這種從大量數據和分析中獲得實際意義的能力,以及以一種通俗易懂的方式向其他與數據分析無關的人傳達這種理解的能力,有時被稱為數據科學故事化。通常情況下,數據科學家掌握這一技能時可能會遇到一些困難。
為銷售提供論點
現在請思考一個典型的場景:試著給出一個充分的理由來爭取一項投資。不管需要什么樣的正式流程,在開始階段,通常會有一場對話——有時也稱為“推銷”——其中一個或多個相關方試圖提出價值主張以承諾資金和其他資源。很多時候,在這個演講之前,我們會請一些擁有數據分析技能的人來創建一個支持性的論點。
有了對他們試圖證明的東西的一些理解,數據科學家可以用現有的數據構建模型來支持結論。他們可以使用優秀的工具來創建可視化數據,這有助于數據信息的交付。團隊按照要求完成分析并將其結果交付給原始涉眾。所有這些工作都是為論點服務的。
但即使是這個簡單的場景,也包含了幾個常見的數據故事化的挑戰。
在一開始,往往會先有一個眾所周知的先驗結論,也就是在進行任何分析之前得出的關于結論的假設。數據科學家被要求得出一個預先確定的結論。在這種情況下,分析工作是獨立于數據科學的公式之外進行的,免備案主機,然后,那些被要求從數據中獲取支撐性論點的人,只是參與進來而已。
在這個關鍵的階段,信息的丟失,公式被忽略,往往會導致一種認知偏差——這種偏差通常來自于一個人理解問題的方式。
基于團隊所達成的對問題的理解,分析工作繼續進行,另外一個挑戰就出現了——使用現有的數據。在這個階段,如果沒有考慮到手頭的數據是否足夠,云服務器租用,甚至數據對分析工作是否具有代表性。僅僅因為可以立即獲得數據就使用數據——有時被稱為方便抽樣,經常會帶來錯誤或不完整的結論。
最后,數據科學團隊通過數據可視化將分析結果傳遞給那些做陳述的人。任何對分析的深刻理解都丟失了,或者,在陳述時無法利用的結果。即使假設與涉眾就問題和關注點進行了一些討論,這些復雜的因素也可能在最終的演示中丟失,至少部分丟失。簡化是有效決策的關鍵,但是過度簡化可能會帶來錯誤的決策。
因此,記住關于數據科學故事化的三個有用的實踐辦法是很重要的:
讓利益相關者參與分析性敘述的創建。這有助于減少信息損失,確保對結論有清晰的理解,并減少最終決策中潛在的關鍵細微差別的損失。
仔細考慮數據分析方法。這支持實證的嚴謹性——例如,結果是否可以復制——并防止抽樣和其他一些偏差。
以簡化為目標,從而做出正確的決定。過于簡化以至于忽略可能改變決策的細節,可能會是一個關鍵的缺點。可視化應該用來講述一個故事,而不是模糊論證中的關鍵點——例如,做了什么假設,為什么這些數據是得出結論的正確數據等等。
“死”于數據
在我們考慮哪些技能與未來企業決策的方式相關時,我們應該仔細考慮一些重要的趨勢,比如聯合。
隨著數據和分析在企業中的應用越來越廣泛,越來越多的人被要求使用數據科學技能來支持他們的工作,這是很自然的。就像當PPT變得流行起來時,非圖形專業的人員也突然被要求了解字體、圖形表示和其他技能,但是許多人可能還沒有做好轉變的準備,因而“死于PPT”。與此相對應的,可以稱之為“死于數據”。
隨著數據和分析的聯合趨勢在企業中持續發展,企業領導者應該仔細思考要采取哪些步驟來確保員工擁有合適的技能——例如問題公式化、理解偏差和基本前提——并且為員工提供正確的專用分析資源。
以問題為導向