温州麻将技巧
您的位置 > 首頁 > 技術干貨 > 大數據體系,一般分為哪幾大層次?

大數據體系,一般分為哪幾大層次?

來源:大數據中國 | 2019-07-14 | 發布:經管之家

大數據之數據采集

大數據體系一般分為:數據采集、數據計算、數據服務、以及數據應用 幾大層次。

在數據采集層,主要分為 日志采集 和 數據源數據同步。

日志采集

根據產品的類型 又有可以分為:

- 瀏覽器頁面 的日志采集

- 客戶端 的日志采集

瀏覽器頁面采集:

主要是收集頁面的 瀏覽日志(PV/UV等) 和 交互操作日志(操作事件)。

這些日志的采集,一般是在頁面上植入標準的統計JS代碼來進執行。但這個植入代碼的過程,可以在頁面功能開發階段由開發同學手動寫入,也可以在項目運行的時候,由服務器在相應頁面請求的時候動態的植入。

事實上,統計JS在采集到數據之后,可以立即發送到數據中心,也可以進行適當的匯聚之后,延遲發送到數據中心,這個策略取決于不同場景的需求來定。

頁面日志在收集上來之后,需要在服務端進行一定的清晰和預處理。

比如 清洗假流量數據、識別攻擊、數據的正常補全、無效數據的剔除、數據格式化、數據隔離等。

客戶端日志采集:

一般會開發專用統計SDK用于APP客戶端的數據采集。

客戶端數據的采集,因為具有高度的業務特征,自定義要求比較高,因此除應用環境的一些基本數據以外,更多的是從 “按事件”的角度來采集數據,比如 點擊事件、登陸事件、業務操作事件 等等。

基礎數據可由SDK默認采集即可,其它事件由業務側來定義后,按照規范調用SDK接口。

因為現在越來越多APP采用Hybrid方案,即 H5 與 Native相結合的方式,因此對于日志采集來說,既涉及到H5頁面的日志,也涉及到Native客戶端上的日志。在這種情況下,可以分開采集分開發送,也可以將數據合并到一起之后再發送。

常規情況下是推薦將 H5上的數據往Native上合并,然后通過SDK統一的發送。這樣的好處是 既可以保證采集到的用戶行為數據在行為鏈上是完整的,也可以通過SDK采取一些壓縮處理方案來減少日志量,提高效率。

APP上的數據采集,還有一點比較重要的就是唯一ID了,所有的數據都必須跟唯一ID相關聯,才能起到更好的分析作用,至于移動設備唯一ID我在上一篇文章中有詳細講到。

日志收集,還有很重要的一條原則就是 “標準化”、“規范化”,只有采集的方式標準化、規范化,才能最大限度的減少收集成本,提高日志收集效率、更高效的實現接下來的統計計算。

數據源數據同步

根據同步的方式 可以分為:

- 直接數據源同步

- 生成數據文件同步

- 數據庫日志同步

直接數據源同步:

是指直接的連接業務數據庫,通過規范的接口(如JDBC)去讀取目標數據庫的數據。這種方式比較容易實現,但是如果業務量比較大的數據源,可能會對性能有所影響。

生成數據文件同步:

是指從數據源系統現生成數據文件,然后通過文件系統同步到目標數據庫里。

這種方式適合數據源比較分散的場景,在數據文件傳輸前后必須做校驗,同時還需要適當進行文件的壓縮和加密,以提高效率、保障安全。

數據庫日志同步:

是指基于源數據庫的日志文件進行同步。現在大多數數據庫都支持生成數據日志文件,并且支持用數據日志文件來恢復數據。因此可以使用這個數據日志文件來進行增量同步。

這種方式對系統性能影響較小,同步效率也較高。

數據采集本身不是目的,只有采集到的數據是可用、能用,且能服務于最終應用分析的數據采集才是根本。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、云計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來!
本文已經過優化顯示,查看原文請點擊以下鏈接:
查看原文:https://www.bigdatas.cn/article-2896-1.html

看圖學經濟more

京ICP備11001960號  京ICP證090565號 京公網安備1101084107號 論壇法律顧問:王進律師知識產權保護聲明免責及隱私聲明   主辦單位:人大經濟論壇 版權所有
聯系QQ:2881989700  郵箱:[email protected]
合作咨詢電話:(010)62719935 廣告合作電話:13661292478(劉老師)

投訴電話:(010)68466864 不良信息處理電話:(010)68466864
温州麻将技巧 吉林十一选五遗漏一定牛 中超电缆股份有限公司 北单 石膏娃娃怎么卖赚钱 中国福利彩票双色球开奖公告 冰球打架的衣服 电竞比分网1zplay api 时时彩开奖结果 双色球2014年开奖号码查询 飞龙体育比分