新聞中心
數(shù)據(jù)中臺是整個數(shù)據(jù)分析系統(tǒng)的靈魂與核心:
對下要對接每個業(yè)務(wù)系統(tǒng)以及外部數(shù)據(jù);
對上要為企業(yè)整體決策分析服務(wù),還要為其他業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)服務(wù);
對內(nèi)要服務(wù)于企業(yè)內(nèi)的每一個人;
對外服務(wù)于上級單位甚至供應(yīng)鏈上下游伙伴。
這就對數(shù)據(jù)中臺提出了很高的要求,包括但不限于:
1、數(shù)據(jù)準(zhǔn)確性與可靠性
2、數(shù)據(jù)統(tǒng)一性:無論是內(nèi)部還是外部數(shù)據(jù)是統(tǒng)一的,在不同的時間查詢某一特定時間的數(shù)據(jù)是一致的;
3、數(shù)據(jù)安全性:嚴(yán)格的權(quán)限管理,保證數(shù)據(jù)安全沒有外泄風(fēng)險;
4、數(shù)據(jù)可追溯:一旦發(fā)生數(shù)據(jù)錯誤,能夠快速定位錯誤發(fā)生來源,并且知道錯誤影響范圍,包括影響哪些報表,影響哪些人員,哪些人員已經(jīng)看到了錯誤數(shù)據(jù)并做出了決策;
5、良好的解耦性:對于大中型企業(yè),企業(yè)的管理相對固定,一般半年到一年有一次變化,但是信息化系統(tǒng)及數(shù)據(jù)隨時可能發(fā)生變化;對與中小型企業(yè)信息化系統(tǒng)及數(shù)據(jù)相對固定,但是管理模式及需求隨時可能變化,這就要求數(shù)據(jù)的變化與管理的變化互相不干擾,這才能保證數(shù)據(jù)分析服務(wù)能時時為管理提供“貼身”服務(wù);
6、平滑的可擴展性 :數(shù)據(jù)對企業(yè)越來越重要,但是企業(yè)內(nèi)數(shù)據(jù)種類越累越多,數(shù)據(jù)量越來越大,這就要求數(shù)據(jù)中臺一直處于擴充狀態(tài),每次擴充都要在原來基礎(chǔ)上實現(xiàn),而不會對原有架構(gòu)與業(yè)務(wù)產(chǎn)生影響。
7、易維護性 :現(xiàn)代企業(yè)對數(shù)據(jù)依賴性越來越高,已有很多企業(yè)報表與分析動輒在幾千張,而一般傳統(tǒng)企業(yè)往往在IT投入很有限,這就要求數(shù)據(jù)中臺必須很容易被維護,比如1-2人維護幾千人幾千張報表的使用。
因此,數(shù)據(jù)中臺的設(shè)計必須遵循一定的原則,否則數(shù)據(jù)中臺的作用無法體現(xiàn)出來,將把數(shù)據(jù)中臺系統(tǒng)建設(shè)成為數(shù)據(jù)倉庫系統(tǒng)或者報表系統(tǒng)。
設(shè)計原則如下:
1、扁平性原則
傳統(tǒng)數(shù)據(jù)倉庫的顯著特點是面向主題的,比如財務(wù)主題、客戶主題、商品主題,其優(yōu)勢在于同一主題內(nèi)進行數(shù)據(jù)分析非常方便且查詢效率非常高;劣勢在于不同主題之間數(shù)據(jù)分析非常不方便且查詢效率很低,因此現(xiàn)實中為了跨主題使用數(shù)據(jù),往往會使得一份數(shù)據(jù)在不同主題內(nèi)多次存儲,造成了存儲資源的浪費與系統(tǒng)維護的復(fù)雜度,也使得不同主題內(nèi)的數(shù)據(jù)可能無法保持同步。
比如企業(yè)想實現(xiàn)客戶分析(時間、客戶、地區(qū)、商品、要求運送方式、實際運送方式、訂單單據(jù)數(shù)量、訂貨數(shù)量、訂貨金額、發(fā)貨數(shù)量、開票金額、回款金額)、商品分析(時間、商品、訂貨數(shù)量、發(fā)貨數(shù)量、商品成本、毛利)。
如果用數(shù)據(jù)倉庫實現(xiàn),表設(shè)計如下:
客戶分析_Fact(時間、客戶、地區(qū)、商品、要求運送方式、實際運送方式、訂單單據(jù)數(shù)量、訂貨數(shù)量、訂貨金額、發(fā)貨數(shù)量、開票金額、回款金額)
商品分析_Fact(時間、商品、訂貨數(shù)量、發(fā)貨數(shù)量、商品成本、毛利),可以明顯看出,在兩個Fact內(nèi),訂貨數(shù)量、發(fā)貨數(shù)量是重復(fù)的。
如果用數(shù)據(jù)中臺實現(xiàn),表設(shè)計如下:
訂單業(yè)務(wù)表(時間、訂單號、地區(qū)、客戶、商品、要求運送方式、訂貨數(shù)量、訂貨金額)
發(fā)貨業(yè)務(wù)表(時間、訂單號、發(fā)貨單號、客戶、商品、實際運送方式、發(fā)貨數(shù)量)
開票業(yè)務(wù)表(時間、訂單號、發(fā)票號、客戶、開票數(shù)量)
回款業(yè)務(wù)表(時間、訂單號、發(fā)票號、客戶、開票數(shù)量)
成本業(yè)務(wù)表(時間、商品、商品成本)
其中訂單業(yè)務(wù)表、發(fā)貨業(yè)務(wù)表是商品分析與客戶分析公用內(nèi)容,所有業(yè)務(wù)分析表是平行關(guān)系,最后模型層會引用這些業(yè)務(wù)表。
2、唯一性原則
有三層含義:一是數(shù)據(jù)抽取腳本的唯一性,比如訂單業(yè)務(wù)表,需要從原有銷售系統(tǒng)中抽取數(shù)據(jù),這是數(shù)據(jù)分析不可避免的,但是所有涉及到訂單的抽取腳本只能有唯一一份,這樣當(dāng)原有銷售系統(tǒng)升級或者其他原因?qū)е聰?shù)據(jù)庫變化,進而需要更改抽取腳本時,只需要修改一處即可;二是數(shù)據(jù)存儲的唯一性,比如訂單業(yè)務(wù)表,所有跟訂單相關(guān)的數(shù)據(jù)都存儲在該表內(nèi),在空間、查詢效率、維護成本上做了很好的平衡(如果表內(nèi)數(shù)據(jù)量太大,可以用分布式存儲);三是指標(biāo)的唯一性,比如訂貨數(shù)量,所有模型內(nèi)應(yīng)該只有一份訂貨數(shù)量,所有需要使用訂貨數(shù)量的報表都要引用該指標(biāo),如果確實需要有多個指標(biāo),比如預(yù)訂貨數(shù)量,一定在指標(biāo)名稱上明確區(qū)分,以避免使用者之間產(chǎn)生混淆與分歧。
3、數(shù)據(jù)歷史與當(dāng)前并存原則
數(shù)據(jù)中臺與數(shù)據(jù)倉庫很大的一點不同就是對歷史數(shù)據(jù)的處理,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫,則數(shù)據(jù)一般不能發(fā)生變化;但是數(shù)據(jù)中臺不同,既要保留歷史狀態(tài),又要保證當(dāng)前有變化可以對歷史數(shù)據(jù)產(chǎn)生影響,比如前文提到的參照處理方式,數(shù)據(jù)倉庫是在抽取時處理,數(shù)據(jù)中臺是在查詢時處理。
4、細粒度原則
數(shù)據(jù)中臺一要把所有分析打平,又要考慮以后的平滑擴展性,因此數(shù)據(jù)中臺建設(shè)時更多是考慮原有系統(tǒng)的數(shù)據(jù)支撐,而不僅僅是當(dāng)前需求,粒度一般到單據(jù)行(同時要考慮數(shù)據(jù)量問題),這樣才能保證能支撐企業(yè)以后的深入分析。
5、計算分層原則
由于所有分析打平,所以數(shù)據(jù)中臺不能把所有計算都在數(shù)據(jù)中臺內(nèi)實現(xiàn)(有的模型需要計算,有的模型不需要計算,而且計算方式可能有差別),而是要進行分層計算。
第一層數(shù)據(jù)抽取時計算,比如某個訂單內(nèi)某種商品的成本,這要根據(jù)采購、庫存和成本累積方式進行計算得出;
第二層模型計算,比如訂單單據(jù)數(shù)量,直接在模型上設(shè)置公式計算即可;
第三層應(yīng)用服務(wù)器計算,比如某個客戶(購買了多個訂單,多種商品)在2019年一年內(nèi)購買商品的所有成本總和,報表計算引擎就會在應(yīng)用服務(wù)器上自動計算得出;
第四層報表前端計算,比如產(chǎn)品利潤(收入-成本),報表前端自動計算得出。這樣會給予分析展現(xiàn)高的計算效率,同時又能支持應(yīng)用服務(wù)器分離、數(shù)據(jù)庫服務(wù)器支持分布。
6、統(tǒng)一數(shù)據(jù)原則
所有進入數(shù)據(jù)中臺的數(shù)據(jù)都要進行統(tǒng)一處理。但是數(shù)據(jù)統(tǒng)一時既要考慮原業(yè)務(wù)部門需要,又要考慮集團需要。
比如科目體系,集團有標(biāo)準(zhǔn)財務(wù)科目體系,各子公司有自己的科目體系,那么集團進行分析時會使用標(biāo)準(zhǔn)科目體系分析,各子公司自己分析時,將使用自己的科目體系,標(biāo)準(zhǔn)科目體系與各子公司科目體系之間存在映射關(guān)系。
7、非檔案性維度處理原則
有些維度不是檔案,而是隨著業(yè)務(wù)進行不斷增加,但是實際分析時又需要按照這個維度來進行分析,需要進行特殊處理。
比如要求運送方式、實際運送方式,要求運送方式可能是:空運、陸運、快遞-順豐、郵政、快遞-中通;
實際運送方式為:空運、陸運、快遞-順豐、郵政、京東,也可能會隨著訂單有更多的運送方式出現(xiàn)。
要求運送方式實際上以字符的形式存儲在訂單業(yè)務(wù)表內(nèi),實際運送方式實際上以字符方式存儲在發(fā)貨業(yè)務(wù)表內(nèi)。則需要設(shè)計一張維度表,運送方式維度(運送方式編碼、運送方式名稱),其內(nèi)容為:
此表內(nèi)容為所有相關(guān)業(yè)務(wù)表內(nèi)內(nèi)容的全集(去掉重復(fù)的),相關(guān)業(yè)務(wù)表內(nèi)由存儲運送方式名稱轉(zhuǎn)為存儲運送方式編碼,這樣才能保證查詢時的高效率。
維度表的維護在數(shù)據(jù)抽取前后程序自動生成與維護,比如按照運送方式查詢訂單數(shù)量與發(fā)貨數(shù)量:
如果用原有方式,查詢腳本如下:訂單業(yè)務(wù)表 關(guān)聯(lián) 發(fā)貨業(yè)務(wù)表,其中訂單業(yè)務(wù)表有千萬行數(shù)據(jù)、發(fā)貨業(yè)務(wù)表有千萬行數(shù)據(jù),而且關(guān)聯(lián)條件是通過運送方式名稱(字符)關(guān)聯(lián),這個查詢效率是很低的;
如果采用新增維度方式,查詢腳本如下:訂單業(yè)務(wù)表 關(guān)聯(lián) 運送方式表,還有發(fā)貨業(yè)務(wù)表 關(guān)聯(lián) 運送方式表,這樣查詢效率會高很多。
互聯(lián)互通社區(qū)
互聯(lián)互通社區(qū)專注于IT互聯(lián)網(wǎng)交流與學(xué)習(xí),關(guān)注公眾號:互聯(lián)互通社區(qū),每日獲取最新報告并附帶專題內(nèi)容輔助學(xué)習(xí)。方案打造與宣講、架構(gòu)設(shè)計與執(zhí)行、技術(shù)攻堅與培訓(xùn)、數(shù)據(jù)中臺等技術(shù)咨詢與服務(wù)合作請+微信:hulianhutongshequ
分享標(biāo)題:數(shù)據(jù)中臺的設(shè)計原則是什么-創(chuàng)新互聯(lián)
轉(zhuǎn)載來于:http://www.ef60e0e.cn/article/dcdgde.html