欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據資訊

真正的大數據問題以及為什么只有機器學習才能解決它

為什么很多公司仍在努力構建從采集數據到獲得洞察力的平穩運行的管道?他們希望投資和采用機器學習算法來分析數據,并做出商業預測。

但是,不可避免的是,他們應該意識到算法并不是魔法:如果采用的是垃圾數據,得出的就不會是一流的見解。因此,他們雇傭了一些數據科學家,但通常他們90%的時間都花在數據清潔上,只剩下10%的時間來完成分析工作。

這個過程的缺點還在于企業喜歡采用終端算法的機器學習。Tamr公司的聯合創始人兼首席執行官Andy Palmer表示,他們應該在數據早期清潔階段盡可能地應用機器學習,而不是依靠工作人員來處理龐大的數據集。該公司幫助組織使用機器學習突破他們的數據孤島。

許多公司在大數據收集系統上花費了大量資金。他們強調的是數據數量而非質量,這是顯而易見的。

Palmer說:“任何在大公司工作的人都可以告訴你,他們從大多數內部系統獲得的數據很簡單,簡單明了。”

Tamr公司聯合創始人兼首席技術官Andy Palmer和SiliconSLE Media公司移動直播工作室CUBE的主持人Michael Stonebraker與Dave Vellante和Paul Gillin在會上進行了探討,他們最近參加了在馬薩諸塞州劍橋舉行的麻省理工學院CDOIQ研討會。他們探討了大數據采用機器學習技術,以及為什么Tamr認為初創公司會比傳統公司提供更好、更具可擴展性的大數據解決方案的原因。

數據的清理和組織

Palmer和Stonebraker多年來一直關注大數據技術。早在2007年,他們就預測ApacheHadoop大數據框架不會帶來很多人所期望的結果。

Palmer說,“有人說大數據將是一場災難,這有些太激進了。”

他表示,這并不是說大數據集不好,顯然大數據是訓練分析模型和人工智能的必要工具。有些人認為,只要數據量夠大,其余的分析或人工智能方面就會到位,但這讓很多公司都感到失望。

企業現在意識到數據質量不可忽視。他們還知道,數據科學家不應該花費80%到90%或更多的時間清理數據,必須采用一種更好、更快的人工智能方法用于分析數據。

Palmer表示,其答案是將機器學習視為一種非常實用的工具,用于執行這些龐大而無趣的任務。許多供應商使用機器學習來使預測、推薦引擎等軟件的營銷更具吸引力。Tamr公司將其用于最不具吸引力的事情:在任何人分析、預測、營銷或銷售任何東西之前清理和組織大數據

機器學習可以大規模處理數據

如今,并不缺乏針對數據沼澤問題的建議解決方案。許多科技公司正在推出或更新其原始產品。然而,Stonebraker指出,這些系統中通常使用的主要技術存在關鍵缺陷。這些傳統技術包括ETL(提取、轉換、加載)系統和主數據管理系統。但其缺點是不能擴展。

ETL基于這樣一個前提:明智的企業會為用戶想要的所有數據源提供全局數據模型。然后讓每個業務部門查看他們獲得了哪些數據,如何在全局數據模型中獲取數據,將其加載到數據倉庫中等等。Stonebraker表示,人工密集型流程往往無法擴展。他們通常會在數據倉庫中集成10或20個數據源。

那么這些數據足夠嗎?以現實世界中的一家公司為例。TAMR公司的客戶豐田汽車歐洲(TME)公司在各國都有經銷商。如果有人在西班牙買了一輛豐田汽車,然后將其開到法國,那么其在法國的經銷商對此一無所知。

總的來說,豐田汽車歐洲(TME)公司擁有250個獨立的客戶數據庫,擁有使用50種語言的4000萬條記錄。該公司正在將它們集成到單個客戶數據庫中,以解決此客戶的服務問題機器學習提供了一種合理的方法來實現這一目標。Stonebraker說,“我從未見過能夠處理這種規模的ETL系統。”

Stonebraker解釋說,主數據管理(MDM)無法擴展的原因主要是因為它是基于規則的。通用電氣公司是Tamr公司的另一家客戶,希望對其交易支出進行分析,該公司在去年有2000萬筆交易支出,希望將所有這些分類為基于規則的層次結構。

“所以通用電氣公司制定了500條規則,只采用了18條規則就將2000萬筆交易中的200萬筆進行了分類,但其余的400多條規則并不會像那18條規則那樣更快地進行分類。”

他指出,這是收益遞減規律。他說,“企業將不得不寫出大量無法理解的規則,如果不使用機器學習技術,那么將會不堪重負。”

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 孟村| 新建县| 阿拉善左旗| 尤溪县| 霍林郭勒市| 二手房| 金昌市| 松潘县| 永定县| 乌拉特中旗| 延安市| 沁阳市| 海晏县| 兰西县| 裕民县| 博爱县| 勐海县| 定结县| 黄骅市| 张家界市| 彭阳县| 葵青区| 汉中市| 定安县| 连平县| 文昌市| 永定县| 黑龙江省| 溧阳市| 阜康市| 海盐县| 四子王旗| 抚松县| 陆良县| 邹城市| 通河县| 彭山县| 桐乡市| 平昌县| 杂多县| 河南省|