
为什么数据治理是合乎道德的 AI 的基石
Steampunk(一家以人为本的设计公司,服务于美国联邦政府)的高级服务设计师劳伦·马费奥 (Lauren Maffeo) 揭穿了关于人工智能的神话。凭借她的专业知识和富有洞察力的著作《从头开始构建数据治理》,马费奥揭示了公司常常陷入认为 AI 是万能灵药的陷阱。(阅读我们在 评论 她的书的更多内容,或者从 出版商 或 图书馆访问 中找到它。)
她与 OSNet 讨论了如何开始进行数据治理,为什么它是合乎道德的 AI 的基石,以及如何避免常见的陷阱。
请告诉我们您在 Gartner 的经历教会了您关于公司在实施 AI 和其他大数据项目方面遇到的困难?
我在 Gartner 的经历教会了我,公司消费和产生的数据量正在并将继续呈指数级增长。与此同时,大多数组织的数据成熟度仍然非常低,以至于一些调查数据显示,只有四分之一的领导者表示他们是数据驱动的。
因此,随着数据量的增加,组织管理数据的能力下降。这带来了巨大的道德、安全和质量风险。这就是为什么数据治理是不可替代的:它不是锦上添花,而是必不可少的。
是什么促使您写这本书?
我写这本书是因为多年来为希望使用最新和最伟大的人工智能来发展业务的客户写作和合作。在转型为美国政府客户的系统和服务设计工作之前,我曾在 Gartner 担任分析师,负责报道面向中小型企业的云商业智能 (BI) 软件趋势。
这项工作让我看到,无论规模、行业、使命等如何,今天的组织根本没有准备好有效地构建或使用 AI。虽然有些组织比其他组织更成熟,但大多数组织没有工具、人才或战略来产生高质量的数据,这对于使用 AI 至关重要。我写这本书是为那些想要开始进行数据治理并知道他们需要帮助启动战略的领导者而写的。
您能给我们一个数据治理的简短定义吗?
数据治理是用于大规模部署数据的人员、流程和工具的融合。它是合乎道德的 AI 以及广义 AI 的基石——因为没有数据治理,您就无法生产出合乎道德或准确的 AI。
您能指出组织在扩展这些项目时遇到的主要陷阱吗?
- 没有与他们的使命相匹配的数据战略。 您的组织的存在是有原因的,无论是商业组织、开源组织还是非营利组织。有一次,当我问一位首席数据官 (CDO) 他所在组织的使命是什么时,他开始解释他的数据办公室做了什么以及他想要使用的新机器学习工具。他还告诉我,一旦某些模型投入生产,我们就会“稍后进行数据治理”。这向我证明,他的办公室还没有准备好使用机器学习或投资数据治理,因为他不知道他的办公室如何创造有助于实现使命的业务价值。
- 未定义数据质量标准。 至少,您需要为您的数据定义通过和失败条件。我曾与质量保证 (QA) 人员交谈过,他们告诉我,他们基本上无法完成工作,因为他们不知道流经他们审查的管道的数据是否符合组织标准。同样,我经常与数据产品用户交谈,他们告诉我他们不信任其组织产生的数据。如果同事和用户不能确信您的数据已经过审查,他们就没有充分的理由信任它。
- 未定义数据质量标准。 至少,您需要为您的数据定义通过和失败条件。我曾与质量保证 (QA) 人员交谈过,他们告诉我,他们基本上无法完成工作,因为他们不知道流经他们审查的管道的数据是否符合组织标准。同样,我经常与数据产品用户交谈,他们告诉我他们不信任其组织产生的数据。如果同事和用户不能确信您的数据已经过审查,他们就没有充分的理由信任它。
- 不了解其数据的源系统。 我已经数不清有多少次我参与客户项目并询问某些数据集的存储位置,但得到的只是耸耸肩。这是数据沿袭如此重要的众多例子之一:如果您甚至不知道您的数据在哪里,您如何开始使用它来构建 AI?
为什么没有有效的方法来大规模治理数据?是因为这个问题到现在才出现吗?
AI 并非新生事物,但今天产生和摄取的数据量使得比以往任何时候都更容易访问您可以使用的大型数据集来训练大型语言模型 (LLM) 和其他 AI 产品。话虽如此,我不同意没有有效的方法来大规模治理数据的说法,这就是我写这本书的原因。我认为领导者更容易说“这不是我的问题”并继续忽视他们数据中存在的非常真实且日益严重的问题。
一旦您开始分配数据所有权并建立数据驱动的文化,您就可以开始在整个数据架构中自动化您的数据标准。这就是我最常看到的脱节:如果数据治理确实存在,它通常存在于某人本地笔记本电脑上的随机 Word 文档中,没有人看到或关注它。
您所说的“将数据使用与业务战略联系起来”是什么意思?
我的意思是,大多数数据领导者和从业者在解释良好的数据治理对其同事和客户产生的切实影响方面做得不够好。最终,人们不会被数字所感动:我们对故事讲述做出反应。您是否关心只有四分之一的商业领袖表示他们是数据驱动的?这个统计数据是否与以下说法具有相同的冲击力:对员工福利的数据回归分析表明,缺乏产假福利导致女性员工的保留率下降,并且响应此分析提供更多福利有助于扭转这一趋势?
那是我的一位客户的真实案例,它展示了数据治理的强大之处。当您拥有正确的高质量数据来做出业务决策时,您可以做令人惊奇的事情来改善您的同事和客户的生活。我热爱数据及其可能产生的积极影响。这就是为什么我如此热衷于帮助领导者有效地使用它。
为什么让数据科学团队以外的同事参与制定有效的扩展计划很重要?是因为我们基本上一直要求在一个仓库中,由一个团队,远离组织的其余部分来管理越来越多的数据吗?
完全正确。太多人仍然认为数据“不是他们的问题”,“其他人”(可能是在没有指导或方向的情况下雇用的数据科学家)会处理它。事实是,组织产生和摄取的数据太多了,以至于一个人或团队无法管理所有数据。这种方法无法扩展或产生有意义的影响。它还加强了“自上而下”的数据层级结构,其中一些随机的 IT 同事掌握着数据访问的钥匙,但不知道该数据的业务背景。
我在书中分享的另一种方法是找到主题专家,让他们担任各自领域的数据管理员。这些 SME 最适合编写数据定义,就应附加到每条数据的哪些元数据提供建议,为数据集编写上下文摘要以及其他任务。然后,他们可以与数据工程师等技术专家合作,数据工程师管理数据环境并可以实施这些标准。
这就是您如何共同创建数据治理:通过赋予主题专家对其专业领域的数据质量的定义的所有权和自主权,并奖励他们为此项工作,从而提升每个数据领域的主题专家。
在您的研究中,您认为共同创建能够长期持续的数据治理计划的最重要的基本要素是什么?
- 找到一个框架来帮助您的数据战略实现您的组织使命。
- 选择数据管理员担任其领域数据的主题专家。
- 创建一个数据治理委员会来工作/投票决定关键举措并打破团队孤岛。
- 为可以对您的业务产生最大影响的数据产品编写路线图。
- 实践治理驱动的开发,将您的数据质量标准自动化到您的数据环境中。
- 制定计划来监控部署后的数据治理,因为就 AI 而言,度过生产阶段仅仅是开始。
开源在这一切中扮演什么角色?
我认为没有哪个群体比开源社区更能体现良好的治理模式。谁能更有效地为公共利益进行创新,并激励人们为比他们自身更伟大的事物做出贡献?话虽如此,我认为迄今为止,开源仍然更侧重于代码,而忽略了数据,并且开源在开始引领有效标准方面存在巨大的机会。我很高兴看到开源在未来五到十年内如何倡导数据治理。
就我个人而言,我非常感谢开源社区对我的书的支持。2018 年,我参加了我的第一次开源会议(温哥华的北美开源峰会),以获得更多作为年轻分析师的演讲经验。五年后,我回到了同一个会议,在同一个地点,根据我的第一本书(诞生于另一个开源会议:罗利的所有事物开源大会)做了一个闪电演讲。从担任审阅人到在活动中举办签售会,开源今年一直支持我,这对我很重要。我很高兴继续成长、回馈社会并朝着开放的未来努力!