數字中國建設規劃之后,兩會(huì )又確定了國務(wù)院機構改革的方案,組建國家數據局,朋友圈紛紛被數據人刷屏,這可能算的上是數據人的一個(gè)高光時(shí)刻了。近期也有粉絲咨詢(xún)數據治理工作的崗位前景,有沒(méi)有必要考數據治理的DAMA證書(shū),今天就花點(diǎn)時(shí)間聊聊數據治理那些事。
大禹治水,是因為洪水泛濫,禍及民生題,修堤建壩河流改道,并且也要防患于未然。百度百科把數據治理定義為組織中涉及數據使用的一整套的管理行為。所以了解數據使用過(guò)程涉及的工作,也就能夠更加準確地理解數據治理到底指的是什么了。
數字中國建設,首先要解決有數據的問(wèn)題,也就是數據基建,連數據都沒(méi)有或者沒(méi)采集,上層建筑也就沒(méi)有根基,都是空談。
其次是,數據準不準,也就是質(zhì)量的問(wèn)題,數據臟亂差,錯誤數據帶來(lái)錯誤的決策指導,還不如沒(méi)有數據拍腦袋。
第三階段就是效率了,想分析個(gè)數據要等個(gè)十天半個(gè)月,決策時(shí)效也過(guò)了。最后是成本,寒冬還沒(méi)過(guò),企業(yè)數字化轉型本質(zhì)是追求依賴(lài)數據進(jìn)行降本增效,而如果數據團隊的人和資產(chǎn)本身成了成本大頭,肯定不是長(cháng)久之計。
所以,一切圍繞這四大目標而進(jìn)行的相關(guān)開(kāi)發(fā)工作或者數據產(chǎn)品工具的建設,都是數據治理的范疇,比如為了獲取數據,需要制定數據采集的流程和規范,對于線(xiàn)上業(yè)務(wù)主要是埋點(diǎn)采集,線(xiàn)下靠傳感器或其他數據導入。
既然數據治理的目的是為了完成數字化應用的四大目標,那么,數據治理日常的工作范疇和全貌主要包含哪些呢?
在數字化轉型意識覺(jué)醒之前,很多企業(yè)數據是缺失不全的,甚至很多人都不知道想要分析用戶(hù)行為數據,必須要先埋點(diǎn)采集。在一些公司中,數據分析、數據產(chǎn)品承擔了制定埋點(diǎn)規范的職責,定義數據采集的規范和標注,一個(gè)功能上線(xiàn),需要采集哪些字段,字段的結果和規范是怎樣的等。
或者散落在不同的業(yè)務(wù)系統,數據是孤島般存在的,數據中臺的概念興起后,首要的任務(wù)就是要打破煙囪和孤島,把數據統一匯聚起來(lái)。不同系統怎么整合和匯聚,不同部門(mén)數據打架時(shí),該聽(tīng)誰(shuí)的也同樣需要制定數據匯聚的標注和規范。
主要是指數據質(zhì)量問(wèn)題,數據從采集、加工處理到應用要經(jīng)歷非常長(cháng)的鏈路和流程,任何環(huán)節出了問(wèn)題,都可能導致數據錯誤,所以需要建立數據質(zhì)量檢查和監控的標準,防患于未然,提前發(fā)現數據問(wèn)題并修復
一致性:一致性是指數據是否遵循了統一的規范,數據集合是否保持了統一的格式。
完整性:完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個(gè)數據記錄缺失,也可能是數據中某個(gè)字段信息的記錄缺失。不完整的數據所能借鑒的價(jià)值就會(huì )大大降低,也是數據質(zhì)量更為基礎的一項評估標準。
及時(shí)性:及時(shí)性是指數據從產(chǎn)生到可以查看的時(shí)間間隔,也叫數據的延時(shí)時(shí)長(cháng)。及時(shí)性對于數據分析本身要求并不高,但如果數據分析周期加上數據建立的時(shí)間過(guò)長(cháng),就可能導致分析得出的結論失去了借鑒意義。
準確性:準確性是指數據記錄的信息是否存在異?;蝈e誤。和一致性不一樣,存在準確性問(wèn)題的數據不僅僅只是規則上的不一致。更為常見(jiàn)的數據準確性錯誤就如亂碼。其次,異常的大或者小的數據也是不符合條件的數據。
有效性:對于數據的值、格式要求符合數據定義或業(yè)務(wù)定義的要求,如某些電話(huà)、郵箱的格式。唯一性:針對某個(gè)數據項或某組數據,沒(méi)有重復的數據值。值必須是唯一的如ID類(lèi)數據。
主要包括數據生產(chǎn)者和數據使用者兩個(gè)方面,即既要高效生產(chǎn),又可以快速輸出業(yè)務(wù)價(jià)值。這就主要涉及數據倉庫的資產(chǎn)化管理和建設,比如元數據管理、主數據管理等。數據生產(chǎn)者:模型開(kāi)發(fā)效率高,可復用,通過(guò)數據倉庫分層建設,提升開(kāi)發(fā)效率和運維效率。
源端業(yè)務(wù)數據變動(dòng)只需要修改一層底表邏輯,而不需要所有任務(wù)全部改一遍。數據消費者:數據找得到,敢使用??梢郧宄闹雷约盒枰臄祿笜舜娣旁谀膫€(gè)指標中,統計邏輯是什么,放心大膽的使用。
這就要求數據資產(chǎn)管理的數據產(chǎn)品,既能滿(mǎn)足數倉建設的高效率,同時(shí)也要具備資產(chǎn)索引地圖的能力,方便業(yè)務(wù)查找和使用數據。
大數據數據量大、價(jià)值密度低導致需要大量的服務(wù)器來(lái)存儲每天海量增長(cháng)的數據,雖然說(shuō)Hadoop分布式的能力支持廉價(jià)服務(wù)器的部署,但每臺4w也架不住幾千幾萬(wàn)臺。
所以,數據不可能只增不減,還需要持續做加法,通過(guò)數據的冷熱分離、無(wú)效數據歸檔刪除,高耗時(shí)任務(wù)的治理來(lái)降低數據的存儲和計算成本。
1)數據埋點(diǎn)管理系統將埋點(diǎn)規范集成到數據管理后臺中,讓整個(gè)埋點(diǎn)流程線(xiàn)上化流轉,提升埋點(diǎn)工作的規范化程度,減少漏埋和錯埋。即使像一些用戶(hù)行為分析系統力推的無(wú)埋點(diǎn)或可視化埋點(diǎn),也都有埋點(diǎn)數據管理模塊提供界面化的指標定義能力。早期的埋點(diǎn)規則主要靠excel世代相傳。
2)數據倉庫開(kāi)發(fā)與管理匯聚入湖的數據需要加工處理才能發(fā)揮其價(jià)值,尤其對于湖倉一體的架構中,涉及到結構化數據的數據倉庫模塊的開(kāi)發(fā)。按照業(yè)務(wù)需求的邏輯對數據進(jìn)行ETL處理,輸出一個(gè)個(gè)的數據模型??梢詫祿P烷_(kāi)發(fā)規范和流程融入到系統當中,是一種低代碼的思想減少數倉建模的開(kāi)發(fā)代碼開(kāi)發(fā),提升模型的規范化和復用性,比如阿里的Datapin,系統化的好處在于方便前置化管理建模過(guò)程,而不是先污染后治理,弊端是可能沒(méi)有開(kāi)發(fā)自己寫(xiě)代碼那么靈活。
數據質(zhì)量監控數據不準可以說(shuō)是業(yè)務(wù)和數據團隊最頭疼的問(wèn)題之一,業(yè)務(wù)拿到數據不敢用,先來(lái)問(wèn)下開(kāi)發(fā)準不準,開(kāi)發(fā)不自信,看了任務(wù)看了代碼說(shuō)應該沒(méi)問(wèn)題。數據質(zhì)量監控圍繞一致性、及時(shí)性、完整性、準確性維度構建豐富靈活的數據質(zhì)量規則配置和自動(dòng)化預警能力,讓數據開(kāi)發(fā)人員更自信,只要監控沒(méi)報警,就可以拍著(zhù)胸脯說(shuō),是不是業(yè)務(wù)上有什么變化。
數據資產(chǎn)管理地圖酒香也怕巷子深,數據模型開(kāi)發(fā)完了,找得到、敢使用才能提升復用性,數據地圖通過(guò)資產(chǎn)目錄共享和強大的數據檢索能力,提供逛數據、找數據的能力,同時(shí)需要具備豐富的模型元數據信息,讓數據消費者快速判斷是不是自己所需要的數據,如何使用。
數據成本治理與優(yōu)化雖然說(shuō)大家默認數據部門(mén)是成本中心,但是在這個(gè)寒冬之下,也要勒緊褲腰帶,雖不能開(kāi)源但總要節流,哪些數據長(cháng)期無(wú)人使用可以歸檔或刪除,哪些任務(wù)SQL性能奇差一個(gè)任務(wù)執行10多個(gè)小時(shí),消耗大量CPU、GPU?
數據成本優(yōu)化核心目標是建立數據健康分評價(jià)體系,自動(dòng)化檢測治理目標,并提供歸檔、刪除等自動(dòng)化治理動(dòng)作,從而釋放服務(wù)器資源,常態(tài)化做減法。
數據血緣主要解決數據的追根溯源的問(wèn)題,例如數據異常,需要通知下游業(yè)務(wù),數據治理時(shí)需要下線(xiàn)或者刪除,下游有沒(méi)有人在使用,沒(méi)有血緣就不敢治理,數據&服務(wù)只增不減統一數據權限數據安全問(wèn)題事關(guān)企業(yè)生死存亡和數據團隊的“錢(qián)途”,統一權限主要是建立數據資產(chǎn)權限申請、授權、審計對應的流程,從而保證數據既共享又安全。
數據治理可以說(shuō)是數字化建設最基礎的根基部分,在數字化建設初期需求量非常大,即使有些企業(yè)追求短期的數據應用價(jià)值快速可見(jiàn),終究還是要回過(guò)頭來(lái)還數據治理的技術(shù)債,所以如果當前從事的是數據治理方向的開(kāi)發(fā)或者產(chǎn)品工作,就先花1-2年把這個(gè)方向的基礎打扎實(shí),然后再向雨后春筍一樣,遇到合適的機會(huì )快速向上。
如果開(kāi)始選擇職業(yè)方向,那就根據自己專(zhuān)業(yè)背景決定是否以這個(gè)方向切入,計算機、統計、算法、數學(xué)等專(zhuān)業(yè)背景的上手數據治理相關(guān)工作相對會(huì )更快。