創造或產生的信息量或數據量每天都在迅速增加。醫療、零售、資訊科技、咨詢,甚至政府機構等多個業界的數據量都在快速增長。這種增長的基本原因是,越來越多的人擁有比以往更多的工具來創建和共享信息。消費者不是唯一創造數據的人員,企業也在產生大量數據。
在不久的過去,行業和組織在做出關鍵決策時,國內服務器,很大程度上依賴于猜測。而大數據和數據科學讓他們能夠瀏覽大量的信息,并在解決各自行業的問題時感到自信。
隨著可用數據量的增加,管理信息或數據的問題變得更加困難。為了處理這些不斷增長的數據并理解這些數據,需要越來越多的數據科學專家,以便組織能夠對其業務做出明智的決策。
由于最近幾年數據量的爆發式增長,全球數據科學專家的數量也在增加。所以,問題來了,如果數據科學專家的數量逐年增加,那么專家們在哪里存在,比例又是多少呢?
本文我們將嘗試用 2011-2018年 Stack Overflow 的調查數據來尋找答案。多年來的調查數據可以在 https://insights.stackoverflow.com/survey ) 找到。
Stack Overflow 是一個每月都有大量的活躍用戶的在線技術論壇。利用調查結果,我們可以發現一般軟件工程師社區以及數據科學社區的見解。在這次分析中,我使用 “2011-2018年 Stack Overflow 開發者調查” 的數據來了解數據科學社區的增長情況。
一般來說,數據科學社區包括“數據庫管理員”、“商業智能專家”、“數據倉庫專家”、“機器學習專家”、“數據科學家”和“具有統計或數學背景的開發人員”。
本文分析了全球不同國家、不同行業和不同規模企業的數據科學社區增長的比例和趨勢。
因此,我們可以先問自己以下幾個問題:
從2011年到2018年,數據科學社區的增長趨勢是什么? 數據科學社區在哪些國家發展? 近年來各國數據科學社區的發展趨勢是什么? 數據科學社區在哪些行業增長,占多大比例? 近年來,不同行業的數據科學社區的發展趨勢是什么? 在哪種類型企業(小型、中型和大型)中,數據科學社區增長了? 比例是多少? 近年來,不同規模的企業在數據科學領域的增長趨勢是什么?
以上問題的答案均以調查數據為依據。讓我們逐一回答這些問題。
1. 從2011年到2018年,數據科學社區的增長趨勢是什么?
從上面的可視化結果我們可以看出,近年來,數據科學社區在軟件開發人員中發展迅速。它從2014年才開始顯著增長,但2015年后開始呈指數級增長。這與最近幾年的也是指數級的數據爆炸是同步發生的。
從那以后,數據爆炸越來越多。為了從每天產生的新數據中進行處理和分析,全球每年都在創造越來越多的數據科學工作。
2. 數據科學社區在哪些國家發展?
從上圖我們可以觀察得到數據科學專家數量排名前十的國家中數據科學社區的發展趨勢。美國引領了增長的趨勢,其次是印度、德國、英國等。
美國數據科學社區的增長趨勢呈指數級,處于全盛時期;其次是印度、德國和英國的數據科學社區,增長趨勢也呈指數級,但尚未達到全盛時期。對于加拿大、巴西、俄羅斯、法國、澳大利亞和西班牙等其他國家來說,數據科學社區的人數有所增加,但與前四個國家相比增速緩慢。
從美國擁有硅谷時起,它就成為了大型軟件和IT組織、銀行、金融和保險公司、醫療服務提供商、教育機構、更好的基礎設施的領軍者和技術家園,并始終處于技術和 IT 先進程度的頂端,這些行業及其創建的日常服務僅在美國就創建了大量的數據。因此,與其他國家相比,美國需要更多的數據科學專家,這是具有指數增長合理性的。