一年多前聽說了“大數據”這個詞,以為就是“數據大”的意思,隨著媒體不斷地曝光,以及今年阿爾法狗升級版橫掃當今圍棋第一人年輕的柯潔之后,對“大數據”的好奇油然而生。
于是從書櫥里翻出來這本由舍恩伯格寫的“大數據時代”,不指望自己能夠讀懂讀通,但是讀總比不讀要強,遵循“開卷有益”的傳統吧。
今天讀的是引言部分。這本書號稱“一場生活、工作與思維的大變革”。本書開門見山地說明,大數據在變革公共衛生,變革商業以及變革思維方面,已經出現在我們的生活當中了。大數據開啟時代轉型。
“大數據時代”舉了一個在流行疾病防控的例子。說谷歌公司通過5000萬條最頻繁檢索的詞條,與流行病流行傳播時期的數據進行了比較,通過分析人們搜索的記錄來判斷這些人是否患上了流感。
谷歌的研究人員去找到這些特定的檢索詞條,至于這些詞條是否必須是“咳嗽”“發熱藥物”不是關注重點,這同我們尋找事發原因的常用手法不同,他們關心的是這些特定檢索詞條的被使用頻率與流感在時間與空間上的傳播之間的聯系。
谷歌公司正好是一個其他公司都無法具備擁有的龐大數據源以及處理能力和統計技術的公司,他們找到了這45個檢索詞條組合,他們的預測結果的相關性高達97%,同疾控中心一樣也能判斷它從哪里傳播出來,關鍵是相當及時,可比疾控中心早一兩周,這一兩周時間的金貴可想而知。
另一個是在商業運用的例子。一位計算機工程師在網上預訂機票,坐上飛機后,他發現他的左鄰右舍機票都比他訂的晚,卻比他便宜。
顛覆了他的“機票訂的愈早愈便宜”的概念。下了飛機后,他開發了一個預測機票價格的系統。這個系統不需要知道哪些因素導致了機票價格的波動。
比如“周六晚上不出門”之類的原因,比如季節性原因,比如還有很多座位沒賣掉的原因。這個系統只是通過其他航班的數據來預測未來機票價格的趨勢。
幫助消費者抓住最佳購買時機。它擁有每一條航線每一架飛機內的每一個座位一年內的綜合票價的記錄的數據,海量的數據支持,為消費者節省了一大筆錢。
這些例子告訴我們都需要海量的數據支持以及存儲與處理能力,在五年前或十年前“這都是不可能的”,從這個角度講,我的理解大數據就是數據大。
大數據的意義并不僅在于此,它是有生命力的。通常數據使用之后就結束了他的使命,比如,飛機降落后,票價數據就沒有用了。
但它被收集起來,用于機票預測系統。死了的,沒用的數據,英國服務器 俄羅斯主機,可以被巧妙地用來激發新產品和新型服務。
可見只要你改變思維,了解數據的奧秘,而數據只為那些愿意聆聽的人所掌握。所以,大數據真正的含義,就是從那些從“靜止的,陳舊的”數據中獲得新的認知,并創造出新價值。
從信息爆炸的二十世紀以來,隨著數據處理能力的爆發式增長,大數據時代的到來已經無可回避。
大數據的核心是什么?作者告訴我們是預測。它有點類似人工智能(機器學習),在書中,預測被定義為把算法運用到海量的數據上來預測事情發生的可能性。
好吧,在之后的章節或許會解釋得更清楚。但從人機大戰的情況來看,阿爾法狗每一步棋的海量運算后都會給出一個勝率,自動找出一個最好的下法。
沒讀這本書前,我會把大數據與人工智能當做兩個事情,現在看來人工智能只是大數據這頂王冠上的一顆明珠,二而一。
引言的最后一部分講的是“大數據是大挑戰”。大挑戰,挑戰的是什么?我看就是挑戰我們過去的傳統思維,固有思維,只有變革思維才能適應大數據時代的到來。
書中說到三個轉變,第一個轉變隨機采樣趨于死亡;第二個轉變數據之大追求精確度失去意義;第三個轉變不再熱衷尋找因果關系。
前兩個轉變依賴于高度發展的數據儲存能力與處理能力,我們尚能理解并主動地去適應,但第三個轉變卻想當頭棒喝,馬來西亞主機 日本服務器,我腦海里只有一個詞“第三只眼看世界”,已經不是換角度看世界那么簡單了。
書中舉了兩個例子來說明,大數據只告訴我們“是什么”而不是“為什么”。比如機票的例子,你只要知道什么時候買最便宜,無須知道價格漲跌背后的原因;比如有幾百萬條醫療記錄顯示“橙汁+阿司匹林”的組合能治療癌癥,找出具體的藥理機制就沒有這種治療方法本身來得重要。