产品级解决方案

模块 检测项 检测规则 预警信息 异常信息查看 解决策略 备注
数据集 数据集同步数据是否存在异常 检测数据集调度结果,如果为失败则推送预警 消息标题:【客户名称】DMP异常告警(数据集异常)告警对象:DMP告警条件:数据集同步失败告警详细信息:日志报错链接——超链接到对应数据集的调度实例日志详情影响业务系统:DMP报告 查看报错日志详情,入口为DMP平台-流程监控-流程运维-数据集列表中搜索数据集名称和失败状态,查看日志的详情。 数据集同步失败时,通过云运维推送消息给产品和一线。产品或一线检查数据源或者数据集同步流程是否有问题,解决后可以手动执行数据集同步。 非正式使用的数据集请关闭调度配置,以免占用资源,且会引起云运维的无价值告警,浪费一线的排查时间。
数据集 数据内容是否存在异常 数据巡检结果信息,包括条数一致性和条数总数异动检查:1. 条数一致性是指同步前查询的数据条数,与同步到预发布版本的数据总条数进行对比,如果条数不一致则认为巡检失败;2. 条数总数异动是指比对预发布版本和正式版本数据集的总条数,当预发布版本条数增量或者减量高于10%的设置阀值;3. 数据管理员可手动定义数据字段取值范围,每次数据同步时会检查数据内容是否满足配置规则。 消息标题:【客户名称】DMP异常告警(数据集异常)告警对象:DMP告警条件:数据集存在异常告警详细信息:日志报错链接——超链接到对应数据集的巡检详情影响业务系统:DMP报告 查看报错日志详情,入口为DMP平台-创建数据集-数据集列表中搜索数据集名称,查看版本管理中标识预发布版本的状态,点击“巡检失败”查看详情。 自动巡检不通过时,预发布版本状态为异常警告,中止应用为正式版本(该机制通过开关配置),并通过云运维推送消息给产品和一线。一线确认如果数据有异常,追溯数据源头修正数据后,重新触发调度,执行新数据的校验,直到巡检结果为成功,则应用到正式报告上;一线确认如果数据无误,则手动触发预发布版本的应用,应用到正式报告上。 1.数据巡检失败不应用为正式版本的开关默认先关闭,根据一线和客户确认后再开启。2.版本间异动的判断阀值默认为10%,可以根据业务情况手动调整。
报告 报告巡检失败的信息 针对已发布报告进行自动检测,如果需要例行定时检测,请进入 DMP平台-流程监控-报告巡检-报告列表中配置调度时间。报告巡检项包括:(1)报告全局配置和图表配置检查失败,如交互分析配置、图表SQL执行异常;(2)报告巡检中数据集流程检查失败,如数据源连接、数据集调度、报告图表数据查询 消息标题:【客户名称】DMP异常告警(报告巡检异常)告警对象:DMP告警条件:报告巡检存在**(条数)失败项告警详细信息:巡检结果链接——超链接到对应报告的报告巡检详情影响业务系统:DMP报告 查看巡检详情,入口为DMP平台-流程监控-报告巡检-报告列表中搜索报告名称,点击“查看巡检结果”图标查看失败项信息。 报告巡检不通过时,通过云运维推送消息给产品和一线。产品或一线确认是否是问题,分别针对数据类问题和配置类问题解决。 非正式使用的报告请勿设置为发布状态,并且也不要配置报告巡检的定时调度,以免引起云运维的无价值告警,浪费一线的排查时间。

results matching ""

    No results matching ""