云計較的應用,更快的數據處理懲罰速度,以及從物聯網輸入大量的數據,這些意味著,企業此刻正在收集前所未見的數據量。此刻大數據比以往任何時候都大。可是如何組織、處理懲罰和領略數據仍然是很多組織面對的一個主要挑戰。
你的公司是否仍然在盡力領略大數據是什么,以及如何打點嗎?這里有6個關于大數據的誤區,行業專家將輔佐你把真相從虛構的大數據規模中疏散出來。
1.大數據意味著“許多”數據
今朝,大數據已經成為一個風行詞。但人們凡是對它真正的寄義照舊不清楚。有些人將大數據簡樸地認為是大量的數據。可是,這并不完全正確,它比這稍微巨大一些。大數據是指一個數據集,無論是布局(如數據表)或非布局化(如元數據從電子郵件)團結的數據,如社會媒體闡明或物聯網數據,形成一個更大的故事。大數據故事說明組織很難用傳統的闡明技能來捕捉產生的趨勢。
豐田研究院的數據研究總監吉姆•阿德勒表達了一個很好的概念:“數據也有質量。這就像水一樣:玻璃容器中的水長短常易于打點。可是,假如稠濁在大水中,這將是壓倒性的災害。”他說,“在數據闡明系統中,事情在一臺呆板的的數據將被沖走時,其數據局限將增長100或1000倍。所以,雖然,原型雖小,但其架構卻很大。”
2.數據需要潔凈
“最大的誤區就是你必需要有清潔的數據舉辦闡明。”BeyondCore公司首席執行官阿里吉特•森古普塔說,“沒有人有清潔的數據,必需將數據舉辦清理,不然闡明是行不通的。這是一個猖獗的想法。你要做的就是舉辦一個足夠好的闡明。你要闡明所有的數據,盡量這些數據是骯臟的,這只說明你有數據質量問題。我可以匯報你一些模式,盡量數據存在質量問題,但完全可以舉辦正常闡明。此刻,你可以會合舉辦數據質量事情,只是提高數據可以獲得稍微好一點的洞察力。”
InOutsource貿易智能和闡明總監梅根•布茨梅因對此暗示附和,“許多時候,企業就會將這些事情能拖就拖,因為他們認為數據是不清潔的,這是沒有須要的。陳設的闡明應用措施將可以找到數據的單薄環節,”她說。“一旦這些問題已經確定,清理打算可以投入到位。然后,闡明應用措施可以操作一種機制,加大清理力度,并監測希望環境。”
布茨梅因說。“一旦你把這些數據整合在一起,你將在一個應用措施中賦予它生命的視覺,你可以看到這些搜集在一起的數據的關聯,你會很快看到你的資料不敷。”她說,“你可以看到數據的問題在于要提供一個清理數據的基準。”
3.期待,讓你的數據完美
你不該該期待清理你的數據,這里尚有一個原因,森古普塔說,“在你完全排除數據之后,這大概需要三個月的時間,然而三個月后,這些數據已經陳舊過期了。”因此,這些信息將不再合用。
森古普塔暗示,第一州際銀行的喬希•巴特曼在集會會議提出了一個重要概念。喬希展示了他是如何運行闡明,發明問題,闡明變革,從頭運行闡明的。他說,“你看,我的闡明時間只有約莫四到五分鐘。所以,假如我可以運行闡明,發明問題,辦理問題,再從頭舉辦闡明,并在四、五分鐘后查察陳訴,改變如那里理懲罰闡明的要領。”
森古普塔用編碼來比喻那些舊方法。“我的一切都是正確的,然后我舉辦編碼。但此刻,每小我私家舉辦編碼都不太機動。”他說。“你寫好措施之后,你必需要測試它,并查察如何能使它更好,那么等它變得更好之后。世界產生了變革,人們仍然回收的是舊的干事要領。”
4.數據湖
數據湖是持有大量的原始布局化和布局化數據的松散的存儲庫,常常在大數據的配景下提到。
獨一的問題是,盡量他們是如何常常被引用,但它們卻不存在,阿德勒說,“一個組織的數據不被倒入一個數據湖中。這是經心籌謀的一個部分的數據庫。勉勵會合利用專業常識。他們還提供了精采的數據管理和合規性所需的問責性和透明度。”
5.闡明數據是昂貴的
假如假定在數據闡明東西涉及一些用度的話,你大概會畏懼得到數據。而可以匯報你的有好動靜是,如今有很多免費的數據東西,任何人都可以開始利用這些東西來闡明大數據。
同時,森古普塔暗示,,當今云計較的低本錢意味著“你真的可以做那些以前從來不行能實現的的工作。”
6.呆板算法將代替人類闡明