欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數(shù)據(jù)技術

基于大數(shù)據(jù)的輿情分析系統(tǒng)架構(架構篇)

互聯(lián)網(wǎng)的飛速發(fā)展促進了很多新媒體的發(fā)展,不論是知名的大 V,明星還是圍觀群眾都可以通過手機在微博,朋友圈或者點評網(wǎng)站上發(fā)表狀態(tài),分享自己的所見所想,使得“人人都有了麥克風”。不論是熱點新聞還是娛樂八卦,傳播速度遠超我們的想象。可以在短短數(shù)分鐘內,有數(shù)萬計轉發(fā),數(shù)百萬的閱讀。如此海量的信息可以得到爆炸式的傳播,如何能夠實時的把握民情并作出對應的處理對很多企業(yè)來說都是至關重要的。大數(shù)據(jù)時代,除了媒體信息以外,商品在各類電商平臺的訂單量,用戶的購買評論也都對后續(xù)的消費者產生很大的影響。商家的產品設計者需要匯總統(tǒng)計和分析各類平臺的數(shù)據(jù)做為依據(jù),決定后續(xù)的產品發(fā)展,公司的公關和市場部門也需要根據(jù)輿情作出相應的及時處理,而這一切也意味著傳統(tǒng)的輿情系統(tǒng)升級成為大數(shù)據(jù)輿情采集和分析系統(tǒng)

分析完輿情場景后,我們再來具體細化看下大數(shù)據(jù)輿情系統(tǒng),對我們的數(shù)據(jù)存儲和計算系統(tǒng)提出哪些需求:

海量原始數(shù)據(jù)的實時入庫:為了實現(xiàn)一整套輿情系統(tǒng),需要有上游原始輸出的采集,也就是爬蟲系統(tǒng)。爬蟲需要采集各類門戶,自媒體的網(wǎng)頁內容。在抓取前需要去重,抓取后還需要分析提取,例如進行子網(wǎng)頁的抓取。 原始網(wǎng)頁數(shù)據(jù)的處理:不論是主流門戶還是自媒體的網(wǎng)頁信息,抓取后我們需要做一定的數(shù)據(jù)提取,把原始的網(wǎng)頁內容轉化為結構化數(shù)據(jù),例如文章的標題,摘要等,如果是商品點評類消息也需要提取有效的點評。 結構化數(shù)據(jù)的輿情分析:當各類原始輸出變成結構化的數(shù)據(jù)后,我們需要有一個實時的計算產品把各類輸出做合理的分類,進一步對分類后的內容進行情感打標。根據(jù)業(yè)務的需求這里可能會產生不同的輸出,例如品牌當下是否有熱點話題,輿情影響力分析,轉播路徑分析,參與用戶統(tǒng)計和畫像,輿論情感分析或者是否有重大預警。 輿情分析系統(tǒng)中間和結果數(shù)據(jù)的存儲,交互分析查詢:從網(wǎng)頁原始數(shù)據(jù)清洗到最終的輿情報表這中間會產生很多類型的數(shù)據(jù)。這些數(shù)據(jù)有的會提供給數(shù)據(jù)分析同學進行輿情分析系統(tǒng)的調優(yōu),有的數(shù)據(jù)會提供給業(yè)務部門根據(jù)輿情結果進行決策。這些查詢可能會很靈活,需要我們的存儲系統(tǒng)具備全文檢索,多字段組合靈活的交互分析能力。 重大輿情事件的實時預警:對于輿情的結果除了正常的搜索和展示需求以外,當有重大事件出現(xiàn)我們需要能做到實時的預警。

我們計劃分兩篇介紹完整的輿情新架構,第一篇主要是提供架構設計,會先介紹時下主流的大數(shù)據(jù)計算架構,并分析一些優(yōu)缺點,然后引入輿情大數(shù)據(jù)架構。第二篇會有完整的數(shù)據(jù)庫表設計和部分示例代碼。大家敬請期待。

系統(tǒng)設計 需求分析

結合文章開頭對輿情系統(tǒng)的描述,海量大數(shù)據(jù)輿情分析系統(tǒng)流程圖大體如下:

圖 1 輿情系統(tǒng)業(yè)務流程 原始網(wǎng)頁存儲庫,這個庫需要能支持海量數(shù)據(jù),低成本,低延時寫入。網(wǎng)頁數(shù)據(jù)寫入后,要做實時結構化提取,提取出來的數(shù)據(jù)再進行降噪,分詞,圖片 ocr 處理等。對分詞文本,圖片進行情感識別產生輿情數(shù)據(jù)結果集。傳統(tǒng)的離線全量計算很難滿足輿情系統(tǒng)的時效性需求。 計算引擎在做數(shù)據(jù)處理時,可能還需要從存儲庫中獲取一些元數(shù)據(jù),例如用戶信息,情感詞元數(shù)據(jù)信息等。 除了實時的計算鏈路,對存量數(shù)據(jù)定期要做一些聚類,優(yōu)化我們的情感詞識別庫,或者上游根據(jù)業(yè)務需要觸發(fā)情感處理規(guī)則更新,根據(jù)新的情感打標庫對存量數(shù)據(jù)做一次輿情計算。 輿情的結果數(shù)據(jù)集有不同類的使用需求。對于重大輿情,需要做實時的預警。完整的輿情結果數(shù)據(jù)展示層需要支持全文檢索,靈活的屬性字段組合查詢。業(yè)務上可能根據(jù)屬性字段中的置信度,輿情時間,或者關鍵詞組合進行分析

根據(jù)前面的介紹,輿情大數(shù)據(jù)分析系統(tǒng)需要兩類計算,一類是實時計算包括海量網(wǎng)頁內容實時抽取,情感詞分析并進行網(wǎng)頁輿情結果存儲。另一類是離線計算,系統(tǒng)需要對歷史數(shù)據(jù)進行回溯,結合人工標注等方式優(yōu)化情感詞庫,對一些實時計算的結果進行矯正等。所以在系統(tǒng)設計上,需要選擇一套既可以做實時計算又能做批量離線計算的系統(tǒng)。在開源大數(shù)據(jù)解決方案中,Lambda 架構恰好可以滿足這些需求,下面我們來介紹下 Lambda 的架構

Lambda 架構 (wiki)

圖 2 Lambda 架構

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 昆山市| 东源县| 怀安县| 丹凤县| 朝阳市| 依安县| 梅州市| 大同县| 广安市| 霸州市| 民县| 绥江县| 闻喜县| 铁岭市| 昌平区| 克什克腾旗| 吴忠市| 鹤庆县| 松江区| 平顶山市| 慈利县| 阿克苏市| 武鸣县| 九寨沟县| 昌邑市| 邵阳县| 信丰县| 麻城市| 姜堰市| 行唐县| 罗城| 旬邑县| 特克斯县| 鲁山县| 曲靖市| 关岭| 荣成市| 宜章县| 绥化市| 孟村| 九龙城区|