收集數(shù)據(jù)對(duì)服務(wù)器的各種配置要求很高具體要視實(shí)際情況而定。根據(jù)收集的數(shù)據(jù)量或收集的數(shù)據(jù)類型,適當(dāng)?shù)?a href='http://www.qzkangyuan.com/' target='_blank'>服務(wù)器配置彼此相距甚遠(yuǎn)。租用獨(dú)立服務(wù)器是最便宜有效的。租獨(dú)立服務(wù)器更便宜更穩(wěn)定,配置可以隨時(shí)調(diào)整。那么收集數(shù)據(jù)對(duì)服務(wù)器配置有什么要求呢?
租用服務(wù)器哪個(gè)好?小編帶你了解夢飛云。
1、收集數(shù)據(jù)占用的帶寬也很高。其實(shí)收集數(shù)據(jù)相當(dāng)于把數(shù)據(jù)從數(shù)據(jù)源下載到本地的過程,所以帶寬越大收集速度會(huì)越快相應(yīng)的效率就會(huì)越高。需要注意收集用的服務(wù)器和一般網(wǎng)站用的服務(wù)器是差別不大的,收集需要占用大量的下行帶寬,和網(wǎng)站服務(wù)器正好相反。
2、配置高帶寬大的服務(wù)器,還有擺在我們面前的就是IP解決方案的問題。理論上收集相關(guān)數(shù)據(jù)一個(gè)IP就夠了。應(yīng)該考慮到現(xiàn)在大多數(shù)網(wǎng)站都限制單個(gè)ip的高頻訪問和下載。想要快速高效持續(xù)地在一個(gè)網(wǎng)站上收集數(shù)據(jù),就必須不斷地切換IP。最好的解決方案是使用多ip服務(wù)器。一般多IP服務(wù)器可以提供幾十個(gè)甚至上百個(gè)不同的獨(dú)立公網(wǎng)IP。我們?cè)谑占绦蛑兄恍枰砑右粋€(gè)代碼來切換出口IP,完美解決了IP限制的問題。
3、收集數(shù)據(jù)是要很高的服務(wù)器配置,打開更多收藏后,會(huì)給內(nèi)存和CPU帶來很大壓力。在用低分配服務(wù)器收集的過程中,經(jīng)常會(huì)出現(xiàn)CPU滿或者內(nèi)存不足的情況。開放的集合越多內(nèi)存越大cpu線程越多。大量收集的數(shù)據(jù)需要占用大量硬盤空間才能保存。所以收集數(shù)據(jù)對(duì)服務(wù)器的硬件配置要求很高,CPU、內(nèi)存、硬盤都要慎重考慮。有不懂的請(qǐng)咨詢夢飛云idc了解。
什么是數(shù)據(jù)采集?
數(shù)據(jù)采集是大數(shù)據(jù)的基石,不論是現(xiàn)在的互聯(lián)網(wǎng)公司,物聯(lián)網(wǎng)公司或者傳統(tǒng)的IT公司,每個(gè)業(yè)務(wù)流程環(huán)節(jié)都會(huì)產(chǎn)生大量的數(shù)據(jù),同時(shí)用戶操作的日志也會(huì)產(chǎn)生大量的數(shù)據(jù),為了將這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集,我們必須要有一套完整的數(shù)據(jù)采集方案流程,為后續(xù)的數(shù)據(jù)分析應(yīng)用提供數(shù)據(jù)基礎(chǔ)。根據(jù)不同業(yè)務(wù)場景,對(duì)于數(shù)據(jù)采集的時(shí)效性要求也是不一樣的,一般分為離線數(shù)據(jù)采集和實(shí)時(shí)數(shù)據(jù)采集。
離線數(shù)據(jù)采集
離線數(shù)據(jù)采集主要包括從數(shù)據(jù)庫中采集,如MySQL、Oracle、MongoDB等;從離線文件采集,如外部系統(tǒng)數(shù)據(jù)。每天凌晨會(huì)抽取前一天的數(shù)據(jù)(T+1),對(duì)于維度數(shù)據(jù)一般采用每次全量采集,對(duì)于業(yè)務(wù)數(shù)據(jù),為了提高采集效率,同時(shí)也為了保住業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性,采用每天增量采集,然后將T+1的數(shù)據(jù)合并成新的全量數(shù)據(jù)。對(duì)于關(guān)系型數(shù)據(jù)庫,如MySQL,一般是有主從數(shù)據(jù)庫的,為了保住穩(wěn)定和不影響主庫的查詢性能,我們一般抽取從庫數(shù)據(jù)。對(duì)于文件數(shù)據(jù)抽取前需要先檢測文件是否存在,源系統(tǒng)提供文件的時(shí)候需要提供對(duì)應(yīng)的校驗(yàn)文件,校驗(yàn)文件里一般包含文件的記錄數(shù)、字段格式等信息。采集到文件后需要對(duì)文件進(jìn)行校驗(yàn),文件完整的情況下才能繼續(xù)后續(xù)數(shù)據(jù)處理程序。