數據的 采集技術
看起來比SQL更加友好,完全不懂技術的業務人員也可以操作。但是他解決的只是易用性的問題,功能和傳統SQL比起來不會更好,甚至不如SQL。
開拓新業務
A3 :根據面試崗位進行相對的準備
現在都沒有想出來,看來數據服務本身還是比較敏感,服務模式也不太成熟,大部分停留在對內服務階段,還遠沒有達到拓展出公司新業態的程度。
負責數據智能部數據產品的規劃設計和系統架構。 在保險行業業務數據的基礎上,研究如何將數據轉化為服務,讓數據為企業的業務服務,為企業的客戶服務,同時為整個行業以及為社會服務。
最常見的兩類監管:
當指標不止一層的時候,一些指標是另一些指標加工而來的,從最終的報表到基礎數據之間隔著好幾層指標,每次算報表的時候都層層往下去算指標,開銷太大了,所以中間很多相對穩定的指標就放在緩存里,以提供給上游的指標使用。
作為數據分析工程師,使用數據的部分往往意味著前端展示技術。傳統的BI系統里的數據展示在大數據的時代過時了嗎?有哪些不同呢?我個人感覺,就外觀來說,沒什么不同,各種大屏展示,現在流行的說法是駕駛艙。
咱們看電話銷售,粗略估計一下,一個公司壽險電銷行業的銷售如果有3萬,每天要打8小時電話,按照3-5分鐘產生1M音頻文件算,每秒鐘大約300M的音頻。這些音頻數據如果不能在產生的時候就實時處理掉,而是積累起來,一天就是24T,后期再想從這些數據里去挖掘價值,就特別困難了。
這兩點要求,傳統的BI系統就不容易實現了,需要利用到大數據平臺作為支撐,才能提供實時的數據查詢展示,展示的數據可以實時下鉆,發現一個指標的關聯指標。
分析技術是大頭,也是現在公司里耗費人力最多的地方,業務需求最集中的地方。先說說傳統的,現在已有的分析方式是什么樣呢?
另外一方面對現有分析技術的改進,是引入 流式處理的模式 ,處理的不是靜態保存起來的結構化數據,而是處理的在一個數據流中的數據。
數據采集技術最大的作用是豐富了數據來來源,和大數據分析技術關系不大,但是往往是和大數據分析平臺集成在一塊兒,形成特定場景的整體解決方案。
*數據倉庫:和普通數據一樣的結構化數據,把業務線重新組織后重新放在另一個結構化數據庫里面,規整好的新數據庫即為數據倉庫。
傳統的持久化存儲技術,有傳統的數據庫,數據倉庫,nosql數據庫,在數據分析中都要用到。這一系列的技術比較成熟,應用場景也很穩定。
就目前保險行業而言,就算完全不使用大數據技術,對保險行業的日常運營來說,沒有任何影響,但是如果不使用大數據技術,那么對未來的運營,一定會有很大的影響。我們在這一部分,聊一聊保險行業里大數據分析的應用場景。
承保是新建保單,投保的時候填寫的,投保人和保險公司簽訂的合同。里面有投保人信息被保人信息,保障內容,賠付條款,免責條款,等等。保全和理賠是修改保單,變更保單的內容,或者拿著保單去理賠。
電商上的客戶大部分都是個人信息,而保險公司記錄了很多用戶生活中的社交關系信息,家庭人員關系,投保被保人關系,這就更加敏感了。
傳統的報表系統的實現方式是什么樣的呢?最底層是基礎數據,在基礎數據的基礎上加工為很多指標,將不同的指標拉到一個表里,生成報表。
大數據分析:在hadoop平臺上實現各式算法
業務數據都是結構化的數據,都是要錄入到業務系統里的,使用關系數據庫保存的結構化數據。
但是在這樣外觀下,大數據的數據展示至少有兩點不同:
光是聽到有這么多的數據,數據分析科學家們一定就很開心了。
數據還是這些數據,但是咱們換個角度看,數據會不一樣。這些保單相關的數據,也可以說全是用戶數據,用來記錄用戶的個人信息和個人行為信息的數據。
* 插碼:我們在瀏覽網頁,例如京東或者淘寶時,一些操作行為、習慣會被記錄下來,這些記錄的工具一般是網頁中的一段代碼,這些預先寫好的代碼被植入已有的系統后,就會具有相應的功能,這個被稱為“插碼系統”。
主要是數據展現相關的技術,數據可視化,多維度展現,數據展現和數據探索結合。