大多數組織都難以解鎖數據科學以優化其操作流程,讓數據科學家、分析師和業務團隊采用一致的語言:不同的團隊和數據科學流程常常是形成摩擦的根源。 健康的數據科學組織框架是一系列方法論、技術和資源的組合,它們將幫助你的組織 (從業務理解、數據生成和獲取、建模,到模型部署和管理) 變得更為數據驅動。 為了成功地將愿景和業務目標轉化為切實有效的結果,建立清晰的績效指標非常重要。 組織需要更有機地考慮其端到端的數據流和體系結構,它們將是數據科學解決方案的支撐。 基于 Azure 機器學習服務,團隊構建了一個人員部署推薦方案,為新項目推薦最優的員工組合和具有對口經驗和專業知識的人員。
在過去的幾年里,來自無數不同來源的數據變得更加可用和可消費,許多組織都在開始尋找使用最新數據分析技術的方法,以滿足他們的業務需求和尋求新的機會。除了數據變得更加可用和可訪問外,還出現了大量工具和應用程序,使團隊有能力構建復雜的數據分析解決方案。鑒于以上種種,組織越來越多地圍繞數據科學的職能組建團隊。
數據科學是一個結合數學、編程和可視化技術的領域,它將科學方法應用于特定的業務領域或問題,如預測未來的客戶行為、規劃空中交通路線或識別語音模式等。但是,成為一個數據驅動的組織究竟意味著什么呢?
通過本文,業務和技術領導者將學到一些評估他們的組織是否是數據驅動的方法,以及對其數據科學成熟度進行基準測試的方法。此外,通過現實世界中已經應用過的用例,他們將學習如何使用健康的數據科學組織框架在組織內培養健康的數據科學思維。作為一名數據科學家,我基于自身的經驗創建了這個框架,我正在從事端到端數據科學和機器學習解決方案的工作,與許多不同類型行業的外部客戶合作,包括能源、石油和天然氣、零售、航空航天、醫療保健和職業勞務。該框架提供了一個構建數據科學項目的開發生命周期。這個生命周期概述了項目在運行時從開始到結束要遵循的步驟。
成為一個數據驅動的組織意味著要嵌入數據科學團隊,以充分參與業務,并調整公司的運營骨架 (技術、流程、基礎設施和文化)。健康的數據科學組織框架是一系列方法論、技術和資源的組合,如果正確使用,這些方法論、技術和資源將幫助你的組織 (從業務理解、數據生成和獲取、建模,到模型部署和管理) 變得更為數據驅動。這個框架包括六個關鍵原則。
了解業務和制定決策的過程 建立績效指標 構建端到端解決方案 構建你的數據科學技巧工具箱 統一組織的數據科學愿景 讓人類參與其中
考慮到該領域的快速發展,組織通常需要指導如何應用最新的數據科學技術來滿足其業務需求或尋求新的機會。
原則 1:了解業務和制定決策的過程
對于大多數組織來說,缺乏數據并不是問題。事實恰恰相反:通常在制定決策時手里掌握太多的信息。有這么多的數據需要分類,組織需要充分定義一個策略在以下各方面對業務加以闡述:
數據科學如何幫助企業做業務轉變,更好地管理成本,并驅動更卓越的運營? 組織對想要完成的事情是否有一個明確定義并予以清晰表達的目標和愿景? 組織如何獲得 C 級管理人員和涉眾的支持,以實現數據驅動的愿景,并推動它貫穿至業務的各個部分?
簡而言之,公司需要對其業務決策過程有一個清晰的理解,以及一個更好的數據科學策略來支持該過程。有了正確的數據科學思維,以往大量不同的信息就變成了一個簡單清晰的決策點。推動轉型需要公司對他們想要實現的事情有一個明確定義并予以清晰表達的目標和愿景。它通常需要 c 級主管的支持,以實現該愿景,并推動它貫穿至業務的各個部分。
組織必須從正確的問題著手。該問題應該是可度量的、清晰的、簡潔的,并與他們的核心業務有直接的關聯。在此階段,設計問題就特定業務問題或機會的潛在解決方案加以限定(或取消限定)非常重要。例如,從一個明確定義的問題開始:一家零售公司的成本正在不斷上升,無法再向客戶提供有競爭力的價格。要解決這一業務問題,可能會引出許多的問題,其中之一可能是:公司能否在不影響質量的情況下減少運營?
要回答這類問題,組織需要解決兩項主要任務:
定義業務目標:數據科學團隊需要與業務專家和其他涉眾合作,以理解和識別業務問題。 提出正確的問題:公司需要提出明確的問題,定義數據科學團隊可以瞄向的業務目標。