魯迅評價諸葛亮“多智而近妖”,此話見諸《中國小說史略》,意思說諸葛亮足智多謀,像個魔鬼。
而如今,從大數據的角度看,諸葛亮的足智多謀是因為他把握了數據建模的步伐。
本日,我們就來說說這諸葛先生的“數據建模”之道。
建模里的“模”是指模子。使質料成為必然形狀的東西,就屬于“模子”,這些模子看得見摸得著,叫做“具象模子”。可是也有些模子看不見摸不著,屬于“抽象模子”,數據模子就是這個中一類。
“數據建模”是對混亂無序的數據舉辦處理懲罰,篩選出有代價的數據功效的進程,其要害步調有兩個:一是邏輯建模;二是物理建模。
我們以諸葛亮的“草船借箭”為例,講講如何“數據建模”。
數據建模的偏向、用途
《三國演義》第四十六回講到,周瑜問孔明:“近日將與曹軍征戰,水路交兵,當以何武器為先?”
孔明曰:“大江之上,以弓箭為先。”
瑜曰:“但今軍中正缺箭用,敢煩先生監造十萬支箭,覺得應敵之具。此系公務,先生幸勿辭謝。”
孔明曰:“都督見委,自當效勞。”
為什么要借箭?因為諸葛亮承諾周瑜造十萬支箭來攻打曹操。這說的是數據建模的偏向和用途。
數據源收集
孔明曰:“為將而不通天文,,不識地利,不知奇門,不曉陰陽,不看陣圖,不明兵勢,是庸才也。”
可見,全方位的信息收集和積聚何等的重要。
而這個進程,在數據建模中叫做數據源收集。
邏輯梳理
數據收集上來之后,諸葛亮通過梳理得出如下結論:
1,“今天有大霧”,這是說天氣;
2,“吾料曹操于重霧中必不敢出”,這是說曹操的心理特點;
3,“子敬只得就我”,這是說魯肅的權利;
這都需要對數據源有充實的認知和領略,在數據建模中,這個進程叫做邏輯梳理
這一進程固然十分抽象,但它能輔佐我們確定方案。
接著,諸葛亮對魯肅說:“望子敬借我二十只船,每船要軍士三十人,船上皆用青布為幔,各束草千余個,漫衍雙方。”這就是草船借箭的方案。
到這里,邏輯建模就完成了。
判定尺度
接下來,是把邏輯建模轉化為物理建模。針對梳理好的邏輯:
1,霧有多濃才氣不袒露方針?“是夜大霧漫天,長江之中,霧氣愈甚,劈面不相見。”
2,曹操多疑才會按兵不動?“重霧迷江,彼軍忽至”。
3,魯肅能調來幾多船只和人?“卻說魯肅私自撥輕快船二十只,各船三十余人。”
這都是條件級別;而它們在建模中各占多大比重,叫做權重配置。二者統稱為“判定尺度”。它是數據量化的進程,也是物理建模的第一步。
校驗模子
諸葛亮搭船擂鼓叫囂,軍士匆忙飛報曹操。
曹操說:“可撥水軍弓弩手亂箭射之。”差人靈敏到江邊助射。
曹操公然被諸葛亮推測不敢出帳,只是射箭防止,這在數據建模中叫做“校驗模子”。
模子試點、模子確定
接下來,就是重點了。
“二十只船,用長索相連,徑望北岸進發。當夜五更時候,船已近曹操水寨。孔明教把船只頭西尾東,一帶擺開,就船上擂鼓叫囂。少頃,旱寨內弓弩手亦到,約一萬余人,盡皆向江中放箭:箭如雨發”。
先讓船只一面受箭,這是“模子試點”;
萬箭齊發,這說明試點樂成,由此模子確定,可以舉辦輸出和實際應用了;
“孔明教把船吊回,頭東尾西,迫近水寨受箭,一面擂鼓叫囂。待至日高霧散,孔明令收船急回。
最后,“草船借箭”樂成了,“魯肅人見周瑜,備說孔明取箭之事。瑜大驚,慨然嘆曰:”孔明神機神算,吾不如也!‘“這么看來孔明的神機神算還真是數據建模的成就!
實際上,數據建模的范例是多種多樣的,好比:從算法上看,它包羅定向邏輯算法和非定向邏輯算法;別的,非定向邏輯算法中還包括聚類和決定樹等模子。上面講的例子就屬于定向邏輯算法中的打分算法啦。
海爾SCRM數據建模
海爾有一個會員俱樂部,叫夢享+.用戶注冊夢享+會員后,會發生很大都據,數據存放的平臺叫SCRM:社交化客戶干系打點平臺。此刻,SCRM數據平臺內里已經存放著1.2億海爾老用戶數據。
這1.2億海爾老用戶,最近購置了什么家電、打了屢次售后電話、到海爾網站欣賞了哪些海爾產物、在哪個產物頁面逗留了幾分鐘、分開海爾官網后去了哪個外部網站看了哪個頁面內容、打開海爾會員郵件點擊了哪個版塊、在微博上議論了哪些家電信息……用戶的每一個行為,都釀成數據動態進入了SCRM平臺。
其實,用戶每一個行為背后,都代表一個新需求,好比說:
近期購置了油煙機、燃氣灶,說明在裝修,大概成套購置家電;
打售后電話申請空調移機,說明在搬遷,大概對家電更新換代;
到海爾官網欣賞洗衣機,在一款洗衣機圖片上逗留高出30秒,大概想買這款洗衣機……