欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數(shù)據(jù)技術

利用大數(shù)據(jù)預測,先要避免“冷啟動偏差”!|數(shù)據(jù)科普

作為商業(yè)工具,數(shù)據(jù)及其應用的價值早已成為社會共識,我們逐漸進入了數(shù)據(jù)的“成熟期”。

這個階段的典型特征是——討論數(shù)據(jù)的聲音不是越來越多,而是越來越理性。這意味著市場的成熟度在變大,與之相應的,數(shù)據(jù)作為一種工具,在應用層面也愈發(fā)完善。

往往在這樣的時刻,工具化的嫻熟會帶來認知的另一層壁壘:人們開始淡化對數(shù)據(jù)邊界的思考——究竟什么結論是數(shù)據(jù)真正所能達到的?

從即日起,CTR洞察推出“CTR數(shù)據(jù)科普系列”內(nèi)容,我們會關注一切與數(shù)據(jù)有關的話題,并為你一一拆解現(xiàn)象之下的數(shù)據(jù)內(nèi)核,為大家解惑。

新年伊始,很多企業(yè)都在制定新一年的戰(zhàn)略和計劃,這其中當然離不開對數(shù)據(jù)的運用。

對此,有很多決策者會說:我們要盡量掌握更大量級和更多維度的數(shù)據(jù)資源,來更準確地定義消費者和受眾。

這背后其實暗含著這樣的理解:大規(guī)模地運用數(shù)據(jù),可以提升結論的可靠性。

換言之,如果數(shù)據(jù)的量級足夠大,覆蓋的范圍足夠廣,通過分析它們所得出的結論就會更趨近于事實。

那么,這是不是一種準確的認知呢?我們在這里先打上一個問號。

1、“冷啟動偏差”

很多人在應用數(shù)據(jù)的時候,會忽略一個事實:大數(shù)據(jù)分析是典型的單純從數(shù)據(jù)出發(fā)的分析。

也就是說,我們往往是通過不帶有目的性地掌握了某些數(shù)據(jù)事實(注意,是否帶有目的性地搜集數(shù)據(jù)是一個重要的區(qū)分點),再據(jù)此去進行一系列相關的分析,這個過程被形象地稱為數(shù)據(jù)的“冷啟動”。但是這樣的做法卻很容易出現(xiàn)問題。

有一個典型的案例:Google曾經(jīng)基于其所掌握的幾十億條檢索記錄,利用尚未公開的某些算法模型,構造出一個“流感預測指數(shù)”。

他們的前提假設是,通過用戶搜索流感關鍵詞得到的大數(shù)據(jù)必定包含流感疾病的全數(shù)據(jù)

工程師們認為,這些數(shù)據(jù)可以完全取代傳統(tǒng)數(shù)據(jù)抽樣統(tǒng)計,并把“采集到的用戶搜索”數(shù)據(jù)與 “某流感疫情涉及的人群”這個總體對等。

但遺憾的是,其對美國流感趨勢開展的預測遠遠高于美國CDC(美國疾病控制與預防中心)公布的結果。

很多人不明白,流感搜索大數(shù)據(jù)必定包含流感全數(shù)據(jù)的設定究竟出了什么問題?

從統(tǒng)計學的角度來看,這種基于搜索關鍵詞預測流感發(fā)病率的方法,只滿足了數(shù)據(jù)的相關性,而缺少了重要的一環(huán)——對數(shù)據(jù)之間因果性的考察,或者說,缺乏對樣本背景先驗分布的掌握。

什么是先驗分布呢?

可以這樣做一個簡單的理解:在進行一項調(diào)查之前,研究人員需要對研究本身所涉及的樣本屬性進行基本的設定,并在此基礎上進行抽樣。

舉個例子,如果我們想預測一個新品未來可能形成的銷售情況,按照統(tǒng)計學的方法,我們應該先根據(jù)產(chǎn)品的屬性等基本要素設計這次研究所應該覆蓋的人群,然后再進行相關的抽樣調(diào)查和數(shù)據(jù)分析。而不是采取相反的路徑——先找到已有的數(shù)據(jù),再按照需求進行篩選。

統(tǒng)計學中的貝葉斯學派認為,在任何統(tǒng)計推斷問題中,必須對調(diào)查總體規(guī)定一個先驗分布,它是在進行推斷時不可或缺的一個要素。

缺少對數(shù)據(jù)先驗分布的認知,很容易導致預測分析偏離實際情況,并且有很多案例已經(jīng)證明,這種偏離會真實地反應在調(diào)查結果上。

這是再龐大的數(shù)據(jù)量也無力解決的問題,而且,通過優(yōu)化算法也沒辦法真正解決整體性的系統(tǒng)誤差。

2、看不見的“總體”

——海量數(shù)據(jù)就是總體嗎?

上面的例子告訴我們,存在一個比海量數(shù)據(jù)更宏觀、更根本的概念,那就是——“總體”。

在統(tǒng)計學中,總體是指所要研究對象的全體。它是根據(jù)一定研究目的而規(guī)定的所要調(diào)查對象的全體所組成的集合。技術的進步創(chuàng)造了海量數(shù)據(jù),這很容易給人造成一種海量數(shù)據(jù)即可以代表總體的假象。

如果說大數(shù)據(jù)是樹木,那么總體就是它背后的森林。

為了避免“只見樹木,國內(nèi)服務器,不見森林”的困境,就需要在研究啟動前就有效解決什么才是研究總體的問題。

統(tǒng)計學告訴我們,在某個專項領域的研究中,我們無法在不進行研究預設的情況下,將任何單一渠道獲得的已知數(shù)據(jù)等同于包含了豐富先驗分布的那個復雜的“總體”本身。不管這個數(shù)據(jù)的量級有多龐大,即便是互聯(lián)網(wǎng)巨頭們覆蓋十億級用戶的超級應用生態(tài)也是如此。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 资兴市| 闽侯县| 延庆县| 卓尼县| 河曲县| 邯郸县| 达日县| 普兰店市| 延长县| 永德县| 德兴市| 娱乐| 竹溪县| 顺昌县| 江安县| 武夷山市| 个旧市| 疏附县| 海阳市| 宜君县| 分宜县| 绩溪县| 郴州市| 来宾市| 稻城县| 阳曲县| 依安县| 舞阳县| 民县| 临高县| 闽侯县| 永安市| 嘉荫县| 怀安县| 临泽县| 盐亭县| 彭泽县| 元朗区| 清丰县| 乡宁县| 武隆县|