健康资讯 > 短篇科学普及:如何处理数据治理?

短篇科学普及:如何处理数据治理?

2020-05-12 03:00阅读(62)

本文与数据产品经理Lao Cao和数据开发工程师Xiong进行了交谈,向您简要介绍了如何处理数据治理? 本文与数据产品经理Lao Cao和数据开发工程师Xiong进行了交谈,

1

本文与数据产品经理Lao Cao和数据开发工程师Xiong进行了交谈,向您简要介绍了如何处理数据治理?

本文与数据产品经理Lao Cao和数据开发工程师Xiong进行了交谈,为您提供了如何处理数据治理的流行观点? 最近,前同事老曹跳槽到一家新的互联网公司。 作为新公司的第一位数据产品经理,他显然对数据质量感到前所未有的焦虑和心痛:

数据分析师崔华:

老曹,今天的数据没有输出,怎么回事? 我还在忙着写分析报告!!!

老曹,今天的数据没有输出,怎么了? 我还在忙着写分析报告!!!

数据产品经理Cao:

er等待一分钟。 我将与数据开发工程师熊一起看一看。

er请稍等。 我将与数据开发工程师熊一起看一看。

如此,曹匆匆向数据开发工程师忍受并喘着粗气:“

熊,今天的数据管道又挂了吗?”?

熊,今天的数据管道是否再次挂断?

数据开发工程师Xiong困惑地看着曹,说道:“

”,我不知道,让我手动检查一下。 “

“我不知道,让我手动检查它。”

数据的产品经理Cao Cao有点脾气暴躁。他脸上带着问号说:

启动了

的全文 数据,没有输出或有问题。您不发出警报吗?

数据没有输出或有问题。您不发出警报吗?

数据开发工程师熊雄低下了头,

老曹再也受不了了,他拖了画板,开始教熊如何处理数据治理。数以千万计的

产品是第一项数据,非标准构造

,作为数据产品经理,在大数据领域工作了多年,我认为数据质量在数据中尤为重要。 爆炸性增长,数据价值不断增长,数据质量问题变得越来越严重。 数据不仅不方便使用,而且还会误导决策,甚至造成灾难性的结果。数据的质量决定了数据是否能够真正发挥其价值。 有数以千万计的

产品,第一项数据,非标准构造,以及两行为公司留下的眼泪。

作为数据产品经理,在大数据领域工作了多年,我认为数据质量在数据中尤为重要。 随着业务的发展,数据量呈爆炸性增长,数据价值不断增长,数据质量问题越来越严重。 低质量的数据不仅使用不便,还会误导决策,甚至造成灾难性的结果。数据的质量决定了数据是否能够真正发挥其价值。

-

的数据开发工程师熊雄低下头说:“

-

,我理解您的意思,但我始终觉得数据质量有点空。我应该怎么测量呢? 我知道您所说的所有内容,但我始终觉得数据质量有点空,我应该从中算出什么呢?曹继续说:

是的,那么如何判断水平 数据质量?高质量的数据是什么?

指的是美国著名质量管理专家JM Juran博士的一句话:如果它们适合整合到运营中,是否可以进行运营,决策和计划 根据这些数据满足先前的期望,则这些数据是高质量的;从另一个角度来看,高质量的数据可以真实地反映它们所代表的主题信息。

结合了大数据和业务经验。 影响数据质量的因素包括数据完整性,数据正确性,数据一致性 数据,数据可用性和数据及时性。 在

中,数据完整性是指业务中涉及的数据的完整性,以及可能对业务的使用产生重大影响的数据的完整性; 数据的准确性应满足准确性和准确性,即如果数据是准确的,则数据的准确性应满足业务需求; 数据的一致性应满足同一指标的要求,并且数据不应模棱两可; 数据的可用性是指在使用数据时,数据被有效地组织并且可以有效地获得; 数据的及时性是指所使用的业务数据是最新的,而不是无效的过期数据。

是的,那么如何判断数据质量呢? 什么样的数据是高质量的?

引用了美国著名质量管理专家JM Juran的一句话:如果它们适合集成到运营中,或者基于这些数据的运营,决策和计划符合先前的期望,则这些数据具有很高的价值。 质量。 从另一个角度看,高质量的数据可以真实地反映它们所代表的主题信息。

结合了大数据和业务经验。 从定性的角度来看,影响数据质量的因素包括数据完整性,数据正确性,数据一致性,数据可用性和数据及时性。 在

中,数据完整性是指业务中涉及的数据的完整性,以及可能对业务的使用产生重大影响的数据的完整性; 数据的准确性应满足准确性和准确性,即如果数据是准确的,则数据的准确性应满足业务需求; 数据的一致性应满足同一指标的要求,并且数据不应模棱两可; 数据的可用性是指在使用数据时,数据被有效地组织并且可以有效地获得; 数据的及时性是指所使用的业务数据是最新的,而不是无效的过期数据。

数据开发工程师熊越来越感兴趣。 他抬起头说:

我们程序员更加关注体系结构和特定的实现。 是否有任何架构和解决方案可以共享?

我们的程序员更关心体系结构和具体实现。 是否有任何架构和解决方案可以共享?

数据产品经理Lao Cao点点头,认为这会产生一定的效果。 快点对他说:

“有许多影响数据质量的因素,包括数据掩埋点的质量,数据传输过程中的问题以及数据口径是否一致。因此,为了确保 在数据质量上,有资源和精力的公司将建立自己的数据管理系统,这是数据管理中心的产品架构,主要包括索引系统管理和全局数据管理,元数据管理等。 数据安全性,也可以通过全局数据接口导出高质量数据。“

”有很多因素会影响数据质量,包括数据掩埋点的质量,数据传输过程中的问题以及是否 数据口径是一致的,因此,为了确保数据质量,拥有资源和精力的公司将构建自己的数据管理系统,这是该产品的体系结构。 数据管理中心,主要包括索引系统管理和全局数据管理,元数据管理等。另外,在数据安全的前提下,可以通过全局数据接口输出高质量的数据。 “

表示曹操绘制了数据管理中心的产品架构图。然后我要告诉熊先生,

以数据管理系统为例,它着重于从两个质量方向确保数据的可读性。 及时性和数据一致性。

首先,我们需要检查数据仓库的及时性。

定义每个级别和每个数据表的最早和最晚生成时间,查找影响表的数据生成延迟的数据表。 一天,并且可以通过数据管理系统回答以下问题:

什么时候生成MySQL表和hive表中的核心指标?哪些表的生产时间比预期的要延迟?哪些表导致任务延迟? 瓶颈?优化哪些层?哪些表可以缩短核心指标的生成时间?

以数据管理系统为例,其重点是从t数据的可读性 及时性和数据一致性这两个质量方向。 首先,我们需要检查数据仓库的及时性。

定义每天每个级别和每个数据表的最早和最晚生成时间,查找影响当天数据生成延迟的数据表,并可以通过数据管理系统回答以下问题:

核心指标在MySQL表和Hive表中生成? 哪些表的生产时间比预期的要晚? 哪些表导致任务延迟? 瓶颈在哪里? 哪些层已优化? 哪些表格可以缩短核心指标的生成时间? 马上问:这不是给我KPI,如果我的任务推迟了,你会给我减薪吗? 您想给我KPI吗? 如果我的工作推迟了,你会扣除我的薪水吗?

的数据产品经理Cao Cao很快补充道:“

您还需要更多,我将为您绘制此原型,您会知道LA的目的是了解任务的延迟,然后可以 用于以后的重放,而不要拉辫子!”!

您想要更多。 我将为您绘制此原型,您将知道LA的目的是了解任务的延迟,然后将其用于将来的重放,而不用拖尾线!

的数据产品经理Cao Cao继续说:

然后是检查数据仓库的数据一致性。 通过数据一致性检查

,在数据质量视图中,我们可以快速了解具有依赖关系的数据表的维度数据的变化。 为了检查数据的一致性,大数据管理系统项目需要执行以下步骤:

第一步是建立数据依赖引擎并实现依赖图。 依赖关系图用于在数据仓库表之间建立分层的依赖关系,然后存储在MySQL表中以支持可视化表示。 第二步是计算数据准备。 每个表和每个分区的数据准备时间按天和小时进行汇总。 根据配置单元仓库的元信息,可以获取配置单元表每个分区的创建时间,并可以根据创建时间确定数据的有效性,用于分析和显示日,小时状态和瓶颈 。 如果需要验证MySQL,则使用SQL语句的查询方法获取