关于数据质量我需要知道些什么?
高质量的数据是有用的数据. 为了获得高质量的数据,数据必须是一致和明确的. 数据质量问题通常是数据库合并或系统/云集成过程的结果,在这些过程中,应该兼容的数据字段并不是因为模式或格式不一致. 对于质量不高的数据,可以进行数据清理以提高其质量.
数据质量的好处是什么?
当数据质量上乘时, 它可以很容易地处理和分析, 引导洞察力,帮助组织做出更好的决策. 高质量的数据对云分析至关重要, 人工智能项目, 商业智能工作, 以及其他类型的数据分析.
除了帮助您的组织从数据中提取更多价值之外, 数据质量管理过程可以提高组织效率和生产力, 同时减少与低质量数据相关的风险和成本. 数据质量, 简而言之, 推动数字化转型的可信数据的基础,以及对数据质量的战略投资,将不断获得回报, 在多个用例中, 整个企业.
数据质量管理涉及哪些活动?
数据质量活动包括数据合理化和验证. 在合并和收购活动中集成不同的应用程序时,通常需要数据质量方面的工作, 而且,当单个组织内的孤立数据系统第一次以一个 云数据仓库 或者数据湖. 数据质量对于横向业务应用程序(如企业资源规划(ERP)或 客户关系管理(CRM).
数据质量的基本组成部分
数据质量管理的成功是由您对分析准确性的信心程度来衡量的, 数据对各种计划的支持程度如何, 以及这些举措带来切实战略价值的速度. 为了实现所有这些目标,您的数据质量工具必须能够:
- 支持所有用例:与下一代分析相比,数据迁移需要不同的数据质量指标. 避免使用“一刀切”的方法,而选择一种集成的解决方案,使您能够为特定的用例选择正确的功能. 例如, 如果您正在迁移数据, 在移动数据之前,您首先需要了解拥有哪些数据(分析). 对于分析用例,您希望清理、解析、标准化和删除重复数据.
- 加速和扩展:数据质量对web服务同样至关重要, 批处理, 大数据, 实时工作负载. 它需要被信任, 安全, 治理, 并且适合使用,无论它驻留在哪里(本地), 云)或它的速度(批), 实时, 传感器/物联网, 等等). 寻找一个可扩展的解决方案,以适应所有部门的任何工作负载. 您可能希望首先关注一个应用程序或流程中的数据质量, 使用开箱即用的业务规则和加速器以及基于角色的自助服务工具进行配置, 准备, 清理你的数据. 然后, 当你准备好扩展项目的时候, 您可以大规模地跨所有应用程序和数据类型部署相同的业务规则和清理流程.
- 提供灵活的用户体验:数据科学家, 数据管家, 数据消费者都有特定的能力, 技能, 以及对处理数据的兴趣. 选择一个按角色定制用户体验的数据质量解决方案,这样所有团队成员都可以在没有IT干预的情况下实现他们的目标.
- 自动执行关键任务:卷, 各种, 当今企业数据的速度使得人工数据质量管理变得不可能. 人工智能解决方案可以自动评估数据质量并提出智能建议,从而简化整个组织的关键任务,如数据发现和数据质量规则创建.
数据质量维度
数据质量有六个核心维度:
- 精度数据反映了现实世界的对象和/或事件,它打算建模. 准确性通常通过值与已知正确的信息源的一致程度来衡量.
- 完整性:该数据使所有需要的记录和值可用.
- 一致性:从多个位置获取的数据值不会相互冲突, 通过记录或消息, 或者沿着单个属性的所有值. 请注意,一致的数据不一定准确或完整.
- 及时性:数据根据需要经常更新, 包括实时的, 确保满足用户对精度的要求, 可访问性和可用性.
- 有效性:数据符合定义的业务规则,并且在应用这些规则时属于允许的参数范围.
- 独特性:没有记录在数据集中存在超过一次,即使它存在于多个位置. 在数据集中和跨应用程序中,每个记录都可以惟一地标识和访问.
数据质量的这六个维度都很重要, 但是您的组织可能需要比其他组织更多地强调一些以支持特定的用例. 例如, 制药业需要准确性, 而金融服务公司必须优先考虑有效性.
数据质量度量的例子
例如,一些数据质量指标在组织和行业之间是一致的, 客户的账单和发货信息是准确的, 网站提供有关产品和服务的所有必要细节, 员工记录是最新的,正确的.
以下是一些与不同行业相关的例子:
医疗保健数据质量指标
医疗保健组织需要完整的, 正确的, 独特的患者记录,以推动正确的治疗, 快速准确的计费, 风险管理, 并且更有效的对产品进行定价和销售.
公共部门数据质量指标
公共部门机构需要完善, 一致的, 准确的成分数据, 提出倡议, 以及当前的项目,以了解他们实现目标的情况.金融服务数据质量指标
金融服务公司必须识别和保护敏感数据, 自动化报告流程, 并监控和纠正法规遵从性.制造数据质量指标
制造商需要保持准确的客户和供应商记录, 及时收到QA问题和维护需求的通知, 跟踪供应商的总体支出,寻找降低运营成本的机会.
数据质量问题
数据质量差的潜在后果从轻微的不便到业务失败. 数据质量问题浪费时间,降低生产力并推高成本. 它们还会降低客户满意度, 损害品牌声誉, 迫使一个组织为不遵守法规而付出沉重的惩罚,甚至威胁到客户或公众的安全. 以下是一些面临数据质量问题的公司的例子,他们找到了解决问题的方法:
- 糟糕的数据质量掩盖了宝贵的交叉销售和追加销售机会,使公司难以发现其产品中的差距,这些差距可能会激发创新产品和服务,或使其能够开拓新市场. 日产欧洲 客户数据不可靠,分散在各种不连接的系统中, 这使得公司很难产生个性化的报价并有效地定位他们. 通过提高数据质量, 该公司现在对其现有和潜在客户有了更好的了解, 是什么帮助它改善了客户沟通,提高了转化率,同时降低了营销成本.
- 糟糕的数据质量浪费了时间,并且在手动流程失败或必须反复检查准确性时,还会强制返工. CA技术 面临着花费几个月的时间手动纠正和增强客户联系数据以进行Salesforce的大规模迁移的前景. 通过将自动电子邮件验证和其他数据质量度量合并到迁移和集成过程中, 该公司能够使用比预期更小的迁移团队,并在分配时间的三分之一内完成项目,并获得更好的数据.
开始提高数据质量的四个步骤
1. 发现
只有了解了起点,才能规划数据质量之旅. 要做到这一点, 您需要评估数据的当前状态:您拥有什么, 它所在的地方, 它的灵敏度, 数据关系, 以及任何质量问题.
2. 定义规则
在发现阶段收集的信息会影响您对所需数据质量度量的决策,以及为实现期望的最终状态而创建的规则. 例如, 您可能需要清理和重复数据删除, 标准化其格式, 或者丢弃某个日期之前的数据. 注意,这是业务和IT之间的协作过程.
3. 应用规则
一旦定义了规则,就可以将它们集成到数据管道中. Don’t get stuck in a silo; your 数据质量工具s need to be integrated across all data sources and targets in order to remediate data quality across the entire organization.
4. 监督和管理
数据质量不是一劳永逸的. 维护它, 您需要能够持续监控和报告所有数据质量过程, 本地和云端, 使用仪表板, 记分卡, 和可视化.
数据质量客户成功案例
芝加哥小熊队
这支传奇的美国职业棒球大联盟球队依靠数据来提供更丰富的球场体验, 最大化品牌商品的市场机会, 并决定如何最好地投资于玩家, 工作人员, 和基础设施. 使用Informatica Data Quality,团队可以清理和改进来自24个本地和云系统以及第三方的数据,从而带来新的收入, 更快地做决定, 并与全球数百万粉丝建立终身关系.
友邦保险新加坡
新加坡领先的金融服务和保险公司之一, 友邦保险新加坡公司部署了Informatica Data Quality来分析其数据, 跟踪关键绩效指标(kpi), 并进行补救. 更高质量的数据可以更深入地理解客户信息和其他关键业务数据, 这反过来又帮助公司优化销售, 决策, 以及运营成本.
开始释放数据的价值
数据无处不在,数据质量对于每个人在任何地方充分利用数据至关重要. 在提高数据质量时,请牢记以下原则:
- 使其成为企业范围内的战略举措.
- 强调数据质量对数据治理的重要性.
- 将数据质量集成到您的操作中.
- 与业务用户协作,将数据置于上下文中并评估其价值.
- 将数据质量扩展到新的领域(数据湖、人工智能、物联网)和新的数据源.
- 利用人工智能/机器学习自动化重复任务,如合并记录和模式匹配.
有了Informatica的集成,所有这些都变得更加容易 智能数据平台,它将数据质量集成到涉及所有企业数据的更广泛的基础设施中.
数据质量资源
- eBbook: 10数据质量红利
- 2022 Gartner数据质量解决方案魔力象限
- 文章: 数据治理如何帮助企业决策
- 博客: 移动的房子=移动的数据:从云数据质量方法中学到的经验教训
- 博客: 机器学习需要数据质量
- 研讨会: 如何通过MDM和数据质量成功成为数据驱动型公司
- 免费试用: Informatica云数据质量