欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據平臺

2016年頭大數據、云計較的漫談

自主研發 VS 開源系統

我的概念始終保持穩定的,當能用社區產物辦理問題的,完全就可以用社區的產物,最近1年,spark、docker等技能成長迅速,完全沒有須要去本身寫一套。我認為有兩個環境下需要本身寫,第一,今朝的產物無法滿意此刻的需求,在阿里(就今朝),好比:付出寶大局限圖數據庫,阿里媽媽、搜索場景下超高緯度特征呆板進修。今朝內部用開源的產物做了許多實驗,均沒有很好辦理問題,最后照舊自研一套平臺(雖然實現也不是完全本身搞,部件能用開源的照舊用開源)。第二,為了領先研究,有革命性的,好比:量子計較,GPU計較,也就是從理論開始,并沒有出格的業務場景,最后能超過一個時代的,不外這個出格難,根基也只有公司營收沒有問題才大概創立研究院之類的部分。今朝在大數據規模,華為、星壞,甚至海外的微軟、IBM之類的巨頭都根基是投資hadoop之類的軟件棧,可以說大數據系統是你中有我,我中有你的,小公司照舊請直接用hadoop可能用大公司的產物,大公司照舊用了hadoop,阿云當年投資做飛天的時候,hadoop照舊嬰兒,只是如今成長實在太快。

sql vs sql+雷同spark用scala等作為編程語言

微軟開拓出了T-SQL可能雷同的sql script,用戶可以用其實現本身的業務邏輯,優化層可以優化。假如是spark之類的,那么優化層不能感知udf層面的邏輯,無法優化,其二中間的會有串行執行的部門,不能做到最優。假如用戶都能用sql script實現業務邏輯,那么怎么講都能做到最優。

不外今朝社區的spark、hadoop、flink均不是sql script去實現,只能說只管能讓優化層優化。為什么呢?大概因為措施員喜歡用java、python之類的語言,照舊因為開始業務系統利用java、python之類的,所以順理成章就這么去實現開拓了。雖然是否可以造一個大數據語言,讓各人用此語言,優化層直接就是包括表明器了。理論上必定是可以的,不外難度確實也很不小,要害照舊需要得到市場的承認。有句話說,最風行的未必是最優的。別的,最優帶來的本錢誰也說不清楚。

統一闡明型引擎

spark、flink等產物作為統一引擎,能處理懲罰ETL、流、計較進修、圖計較等各類百般的場景,這個是甚好的。許多業務為了辦理問題往往需要投資許多技能,產物。如:呆板學慣用mpi,你得去進修寫c/c++ , 流式計較得進修jstorm,一套新的api。這個還不是最大的問題,最大的問題往往是差異產物之間往往需要跟尾,數據需要用戶感知的落地,從而系統做起來很巨大。不外對付一些場景,往往是一些出格的場景照舊需要專有系統的,如:低延遲的流 高緯度計較 出格的機能的呆板進修等。

  統一OLTP與OLAP

今朝星壞也是號稱可以在大數據引擎上支持傳統數據庫的語法的,甚至可以支持部門的事務。阿里內部一些產物也在實驗統一。今朝OLTP與OLAP的邊界也在逐步恍惚,OLTP也可以支持快上TB的數據查詢。一般有兩個做法,一套語法,兩個差異的實現,也就是ifelse,對付用戶看起來大概是一個。別的就是完全一套代碼實現,此我還沒有看到。對付第一種,大概的實現方案根基是底層用mysql等傳統數據庫作為存儲,上層有DAG等決定調治,做到能跨機join。不外今朝明晰是OLAP不只僅就是SQL,也許這個工作能辦理一部門的需求,可是不行能完全替代傳統的hadoop的。

自建hadoop、EMR、ODPS

今朝阿里也是支持EMR的,在阿里云官網都有EMR、ODPS的產物先容。一般來看,EMR、ODPS必定比自建hadoop本錢低的,因為從道理來講是彈性的,且本身都無需運維,除非公司太黑,收費過高。EMR就是hadoop生態的托管處事,用戶可以申請幾多個虛擬機,啥時候多啥時候少來彈性計較的。ODPS是阿里巴巴自主研發的產物,ODPS是在物理呆板上,用戶租用幾多cpu,幾多內存為資源,在運行中也可以調解quota來實現彈性計較的。今朝我是好處相關方,所以就不答復這個問題了。

數據分享

常常跟一些同學聊,用戶會把數據分享出來嗎?在阿里內部,差異部分之間是常常共享數據的。可是社會呢?不知道,也許會,也許不會。也許2016年會火,也許再過10年吧。?大數據應用也不料味著必然需要互換,數據互換往往意味著會發生更大的代價。云計較,云是載體,計較發揮代價,阿里云的宣傳語是為了無法的計較的代價。一是,傳統企業的業務系統上云及新的企業的業務系統直接發展在云上,發生數據,后到大數據系統中闡明,一般給利用者決定,反哺業務系統。此點業務系統是焦點,大數據闡明系統是幫助的。二是,業務系統還在在線下,數據上云,闡明。三是,物聯網發生的數據直接上云,闡明。四是,大數據業務闡明,也就是大數據闡明系統就是其焦點業務。前面三者根基都是闡明自生的數據,一般無需互換。最后一類,自己沒有數據,根基都是別人的數據,要么是民眾的社會的數據,要么是購置別家的數據,數據互換的代價在此產生。

公有云,私有云,殽雜云

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 广汉市| 潮州市| 十堰市| 万安县| 普定县| 嘉善县| 蒙城县| 舞钢市| 芜湖县| 囊谦县| 宝丰县| 靖远县| 洪洞县| 古田县| 海阳市| 大竹县| 浪卡子县| 罗城| 中山市| 泰兴市| 拉孜县| 惠安县| 宾川县| 监利县| 宁波市| 沾益县| 岫岩| 宜兰市| 墨竹工卡县| 资源县| 叙永县| 大渡口区| 永济市| 聂拉木县| 清水河县| 桐庐县| 视频| 乐安县| 巨鹿县| 武宁县| 房产|