数据仓库分层模型

优秀可靠的数仓体系,需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。结合这些原则及以往的项目实施经验,我们将分层进行统一定义为三层:

数仓分层

ODS(Operational Data Store 操作数据层)

定义为存储层,仅以技术手段(快照形式)保留历史数据,不做任何转换,与业务侧DB实体保持同构。在结构上其与源系统的增量或者全量数据基本保持一致。

ODS相当于DW数据的一个数据准备区,同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到计算存储中。基于维度建模理念思想,建立整个企业的一致性维度。

CDM(Common Data Model,公共维度模型层)

CDM(Common Data Model,公共维度模型层):又细分为DWD和DWS。它的主要作用是完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。

  • DWD(Data Warehouse Detail,明细数据层):定义为明细层,对数据进行规范化(编码转换、清洗、统一格式、脱敏等),不做横向整合。

以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。你可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理(维度退化)。

  • DWS(Data Warehouse Summary,汇总数据层):汇总层,对dwd各信息进行关联整合,输出主题宽表(面向业务过程,不同业务过程的信息不冗余建设,采用外键形式)。集中建设通用性维度和指标,降低业务需求开发成本。

以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型。

  • DIM:维度表,建立一致数据分析维表,降低数据计算口径和算法不统一风险。

以维度作为建模驱动,基于每个维度的业务含义,通过定义维度及维度主键,添加维度属性、关联维度等定义计算逻辑和雪花模型,完成属性定义的过程并建立一致的数据分析维表。同时你可以定义维度主子关系,子维度的属性将合并至主维度使用,进一步保证维度的一致性和便捷使用性。

ADS(Application Data Service,应用数据层)

应用层,面向业务需求进行定制开发。包含复合派生指标和标签。

results matching ""

    No results matching ""