<listing id="zpvbj"></listing>
<var id="zpvbj"><strike id="zpvbj"></strike></var><cite id="zpvbj"><video id="zpvbj"><thead id="zpvbj"></thead></video></cite>
<cite id="zpvbj"></cite>
<menuitem id="zpvbj"></menuitem>
<menuitem id="zpvbj"></menuitem><var id="zpvbj"><video id="zpvbj"><thead id="zpvbj"></thead></video></var>
<var id="zpvbj"><video id="zpvbj"></video></var><cite id="zpvbj"></cite><var id="zpvbj"></var>
<var id="zpvbj"><strike id="zpvbj"></strike></var>
<var id="zpvbj"></var>
<cite id="zpvbj"></cite><var id="zpvbj"><dl id="zpvbj"></dl></var>
<var id="zpvbj"></var><var id="zpvbj"><strike id="zpvbj"></strike></var>
<var id="zpvbj"></var>

手機版 歡迎訪問人人都是自媒體網站

當前位置:主頁 > 體驗 >

十問十答,帶你了解數據倉庫

時間:2021-02-26 09:29|來源:網絡整理|編輯:|點擊:

此篇內容主要以數據倉庫的介紹說明為主,并展開了10個基礎問題與關鍵問題的問答分析。

 十問十答,帶你了解數據倉庫

寫此篇的原因是因為關于數據倉庫這方面的單個書籍翻譯不夠友好,書寫結構不夠清晰以及當前現實環境的數據倉庫搭建并非僅來自某個架構思想。

同時單單看一本書很難對數據倉庫方面的知識進行全面的理解吸收。因此我想通過主動提問的方式從多本書籍結合自身經驗以及與數倉專業人員的咨詢請教中獲取的知識進行理解、思考,最終得出結論來,并且一一回答數據倉庫方面的知識內容。

此篇內容主要以數據倉庫的介紹說明為主。也可以理解為語文中的說明文,幾乎不涉及具體數據倉庫搭建的方法論和技術細節。并且本篇文章為數據倉庫方面知識的一個開始,后續遵循循序漸進,由淺入深的原則,對數據倉庫進行深入了解和掌握。

此篇文章的撰寫視角定位在對數據倉庫客觀的描述和說明,不涉及面向特定群體的說服而展開。

問題一: 數據倉庫是什么?

數據倉庫是對業務系統的數據進行同步接入、歷史存儲、清洗加工、關聯打通、有效管理、分層建設、貼合需求;最終以提供滿足業務場景數據使用需求的一種數據庫。

參見數據倉庫整個作業圖便可進一步理解:

 十問十答,帶你了解數據倉庫

數據倉庫作業流程圖

以下為每個環節的概述:

1. 同步接入

同步接入是指從各個業務系統抽取數據存入數倉。

一般分為離線抽取和實時抽取。抽取的數據來自多個業務系統和多種數據類型,關系型數據用sqoop來抽取,非關系型用kafka來抽取。

比如:一家金融公司的業務流程有 用戶注冊、貸款申請、風控審核、放款、貸后還款、催收等,這些業務環節的事務會在不同的系統完成;催收有催收系統,貸款申請有CRM系統等;這些圍繞業務主線,涉及用戶,內部員工,三方機構從而產生的業務數據,行為數據等都會通過每天定時或者實時存入數倉系統。

2. 歷史存儲

歷史存儲是指數倉會存儲公司內所有保存的歷史數據(前提是數據有接入數倉且之前有保存歷史),可方便商業分析應用和其他業務訴求對歷史數據的洞察。

比如:電商的物流數據,從下單到收貨期間的運輸狀態可能每天都會不一樣,那么數倉就會保存該訂單物流每天的狀態數據。

3. 清洗加工

清洗加工是指數倉會通過ETL(抽取、轉換、加載)操作對業務系統的原始數據進行清洗,根據數據使用的便捷,干凈,和業務訴求通過去重亂碼,填補空值,維度拆分,行列轉換等一系列操作。

比如:“地址”這個字段的值可能會拆分出多個維度來,國家、省、市、區、路、小區等等。 “身份證號”可以拆分出 出生年、月、日、性別等。

4. 關聯打通

關聯打通是指圍繞業務主線及用戶唯一識別,將不同業務系統的數據進行打通關聯,將業務數據和行為數據進行關聯打通;最終可形成完整的用戶生命周期數據鏈路追蹤。

5. 有效管理

有效管理是指對數據的在整個數倉內作業生命周期內的管理,包括對元數據的管理,對數據本身的作業管理,對數據關聯角色人員的管理等。

比如:元數據管理這塊,因為業務開發的人員流動,就會存在某些字段沒有注釋,沒有明確的釋義,當人員離開又加上需要了解該數據時就會遇到無人可問的情況,需要耗費較大的精力去想辦法了解。

6. 分層建設

分層建設是指對進入數倉的數據進行層次劃分(ODS 操作數據層、DWD明細數據層、DWS匯總數據層、ADS應用數據層),以滿足數據使用便捷,高效,不耦合、符合業務需求等問題。(此處關于各個層次的細節介紹先不做說明,因為不在這個問題的討論范圍內)

7. 貼合需求

貼合需求是指所有的最終都需要業務化,為業務的分析決策,事務應用提供支持,而并非僅僅數據資產化;那么這就需要了解業務的數據需求來進行數據的加工開發,最終實現數據價值最大化。

問題二:數據倉庫解決什么問題? 1. 數據打通提升數據價值

試想,現在某一電商產品做了一個版本迭代后,發現成交額有所下滑;目前知道成交額這種業務數據下滑,也知道都改了什么一系列功能,但并不清楚用戶是在哪個環節流失的,他們操作了什么?停留了多少時間? 是產品Bug還是用戶不會用?在這種場景下如果沒有行為數據做支撐,則很難定位到原因進行精準優化。

Copyright © 2018 DEDE97. 織夢97 版權所有 京ICP

淘宝av国产福利资源-欧美成人影院-怎样观看网红直播app定制-啪啪啪国产-1024你懂的国产首页-国产精品偷拍人妻-勾魂尤物-av撸啪啪在线-制服下的诱惑全文-在线视频?国产?亚洲?素人-国产情侣负免费视频-偷拍巨乳欧美日韩国产-久久免费网国产_久久免费网站_久久免费无修韩国漫画网站,国产素人女同人妻,沈艺语麻豆传媒,中文字幕朝鲜歌曲 日韩萝莉 国产萝莉| 国产丝袜无码番号下载 迅雷下载| 麻豆传媒0078| 狂暴2中文字幕| 横恋母全集中文字幕| 国产AV剧情高颜值顾美玲主演| 国产情侣爱爱偷拍系列| 偷拍人妻国产下载 迅雷下载| 日本香港 国产偷拍视频| 国产高清视频一区二区| 制服国产欧美小说| 雪冰 韩国| 国产富二代绿色软件分享| 国产在线视频蜗| 国产日本欧美素人无码| 91影视偷拍国产| 国产 偷拍 网红| 日本jst| 最新网红萌白酱在线app下载| 国产车情侣视频| 韩国净水器| 日本四大城市| 何苗果冻传媒视频种子| 八头身美女 中文字幕| hd中文字幕在线区| 午夜三级私人理论在线观看| 国产女朋友3p手机在线| 国产白拍偷拍免费视| 调教国产一区网址黄| 亚洲日韩国产欧美制服| 国产sm调教迅雷合集| 韩国的衣服贵吗| 欧美咖啡图片| 微信封面图片大全欧美| 出轨的同学聚会2中文字幕| 国产富二代相似app| 国产女神写真在线视频| 最新国产在线视频地址| 99挺超碰精品在线视频| 国产情侣在线看对白| 丝袜品牌排行榜 国产| http://www.wwwljw034.com http://www.wwwjs33375.com http://www.haobt.org http://www.ali1baba.com http://www.666duke.com http://www.wwwj07s.com