近日,亚马逊云科技宣布Amazon DataZone正式可用。Amazon DataZone让客户能够跨组织边界发现、访问、共享和治理大规模数据,并减少企业内部成员访问数据和使用分析工具时繁重的工作量。通过Amazon DataZone,数据工程师、科学家和分析师等数据使用者可以通过统一的数据分析门户,在亚马逊云科技账户之间共享和访问数据,实现跨部门、跨组织地使用数据及开展数据协作。此外,数据所有者和数据管理者可以通过在用户界面中使用预定义的审批工作流来平衡数据访问治理,以及通过向数据添加业务上下文而简化数据发现。
数据管理和治理的常见问题:
1.数据发现,特别是跨账户及区域分布的数据:企业所拥有的PB级数据往往分散在数十甚至数千个数据源中,为发现可用于分析的数据带来极大挑战。
2.数据访问:不同企业采用不同的数据管理方式,且通常需要手动批准,这导致数据访问控制变得繁琐耗时,而且很难及时同步更新,这让分析师常常无法及时获取所需数据。
3.工具使用:每个工具都以不同的方式管理数据访问,每个用户在治理数据时使用的工具可能各不相同。
4.协作:分析师、数据科学家和数据工程师通常在端到端的分析过程中处于不同的阶段,但没有一种简单的方式可以让他们选择不同的工具来协作处理同一个经过治理的数据。
5.数据治理:数据治理的构建通常隐藏在各个工具中,并由不同的团队以不同方式进行管理,这导致企业无法跟踪谁正在访问什么数据以及为什么访问。
Amazon DataZone的三个核心优势
Amazon DataZone允许客户跨组织边界大规模发现、共享和治理数据。
管理跨组织边界的数据访问:帮助确保正确的用户以符合企业安全规定的方式访问正确的数据,而无需依赖个人凭证;同时,通过经过治理的工作流提供数据资产的透明度,并批准数据订阅;此外,审计功能可监控跨项目的数据资产使用情况。
通过共享数据和工具连接数据用户,驱动业务洞察:通过团队之间无缝协作和提供数据和分析工具的自助访问,提升业务团队的效率;使用业务术语搜索、共享和访问数据目录,使数据对所有授权用户可用,并通过业务词汇表了解他们想要使用的数据。
利用机器学习实现数据发现和编目自动化:缩短了在业务数据目录手动输入数据属性所需的时间,同时减少了错误的发生;数据目录中数据的增多会提升搜索体验,将搜索和使用数据的时间从几周缩短到几天。
为了实现上述优势,Amazon DataZone内置了多项功能,其中包括:
1.业务驱动领域:一个DataZone数据域代表了企业内的一条业务线(LOB)或一个业务领域的明确边界,它可以管理自己的数据,包括数据资产、数据定义或业务术语,以及数据治理标准。数据域是用户开启Amazon DataZone旅程的起点。当用户首次开始使用DataZone时,将创建一个包含所有核心组件的数据域,如业务数据目录、项目和环境。
2.企业内部的业务数据目录:企业可以为数据增加业务上下文,从而增加数据的可见性,以便数据使用者可以更加快速高效地查找和理解数据。目录的核心功能是对不同来源的数据编目,并通过附加的业务背景来增强元数据,为寻找数据的使用者提供更好的决策支持。
3.利用数据项目进行联邦治理:Amazon DataZone 数据项目基于业务用例将用户、数据资产和分析工具进行分组,简化了访问亚马逊云科技分析工具的过程。数据项目提供了可供项目成员一起协作、交换数据和共享工件(artifact)的空间。只有被添加到项目中的用户才能参与协作,因此,整个项目的安全性可以得到最大限度的保证。通过这些项目,Amazon DataZone将数据所有权分散到不同团队中的数据所有者身上,所有者通过访问管理权控制用户的数据访问请求。
4.Amazon DataZone现已提供外部API,以编程的方式与系统交互。用户可以将Amazon DataZone添加到现有架构中。例如,用户可以在Amazon DataZone中使用数据管道编目数据,使客户能够无缝搜索、查找、订阅和访问数据。在此版本中,Amazon DataZone引入了一个新的目录数据模型。编目API支持基于类型系统的模型,允许用户定义和管理目录中实体的类型。通过使用该类型的系统模型,用户将拥有一个灵活且可扩展的目录,在表示不同类型对象的同时可以将其(资产或列)关联到元数据。类似地,用户也可以用编程方式使用Amazon DataZone的API。
Amazon DataZone常见客户应用场景
数据发现
Bristol Myers Squibb研究IT解决方案架构总监David Y. Liu表示:“Bristol Myers Squibb正在积极推进一项计划,旨在将药物发现和研发时间缩短超过30%。这项计划的关键环节是解决数据共享所面临的挑战并优化数据可用性。通过与亚马逊云科技合作,我们发现Amazon DataZone能够帮助我们创建、管理、归类整理我们的数据产品,使数据更容易被找到、访问、进行协作处理和复用。目前我们正在评估Amazon DataZone在企业内更广泛的可用性,以确定是否与我们的运营目标相符。”
共享治理数据以支持生成式AI项目
Guardant Health数据、CRM和分析高级总监Rajesh Kucharlapati表示:“通过在多个业务领域之间协调数据,我们可以培养数据共享的文化。为此,我们一直在使用Amazon DataZone,将开发人员从构建和维护平台的任务中解放出来,使他们能够专注于定制解决方案。亚马逊云托管服务对我们具有重要意义,因为利用亚马逊云科技生态系统功能,我们能够更快地从数据分析中获得业务洞察,标准化数据定义,以及充分利用生成式AI的潜力。我们期待继续与亚马逊云科技合作,为Guardant Health注入活力,并为我们服务的患者提供更优质的服务。与亚马逊云服务的合作已远远超出了数据范畴,这是一段充满活力的旅程。”
联邦式数据治理
Itaú Unibanco数据治理和隐私主管Priscila Cardoso Ferreira表示:“实现数据驱动是我们的战略目标之一。我们始终遵循更优的数据治理、数据隐私保护和安全性实践。在Itaú,数据被视为最主要的资产之一,良好的数据定义和管理是我们解决方案的核心组成部分,这在使用亚马逊云科技分析服务的每一个环节中都得到了体现。与亚马逊云科技团队一起,我们使用Amazon DataZone预览版提出了与Itaú技术和业务需求相匹配的功能——例如按数据域划分的数据可以简化数据治理的流程,并帮助业务部门间分配责任。随着Amazon DataZone的正式可用,我们希望能够迅速而轻松地为团队建立跨数据域工作规则,帮助数据分析师、工程师和科学家在多个业务用例中进行数据假设实验,实现简化治理。”