近日 亚马逊云科技在2022 re:Invent全球大会上宣布,为端到端机器学习服务Amazon SageMaker 推出八项新功能。众多开发人员、数据科学家和业务分析师使用 Amazon SageMaker 提供的全托管基础设施、工具和工作流,轻松快速地构建、训练和部署机器学习模型。客户使用机器学习不断创新,他们创建的模型比以往任何时候都多,因此,他们需要高级功能来有效管理模型的开发、使用和性能。本次发布包括新的 Amazon SageMaker 治理功能,它可以在整个机器学习生命周期中提供对模型性能的可见性。新的 Amazon SageMaker Studio Notebook 功能提供了增强的Notebook体验,让客户只需点击几下即可检查和解决数据质量问题,促进数据科学团队之间的实时协作,通过将Notebook代码转变到自动化作业加速机器学习实验到生产的过程。最后,Amazon SageMaker新功能可自动执行模型验证,并且让地理空间数据处理变得更容易。
“当前,数以万计各种规模和各行各业的客户都在使用 Amazon SageMaker。亚马逊云科技客户每个月都在构建数百万个模型、训练数十亿参数规模的模型、生成数万亿个预测。 许多客户正在以几年前闻所未闻的规模使用机器学习。”亚马逊云科技人工智能和机器学习副总裁Bratin Saha表示, “今天发布的Amazon SageMaker新功能让团队能够更轻松地加快机器学习模型的端到端开发和部署。 从专门构建的治理工具到下一代Notebook体验和简化的模型测试,再到对地理空间数据的增强支持,我们在 Amazon SageMaker 的基础上不断创新,帮助客户大规模利用机器学习。”
对很多用户而言,云计算让机器学习触手可及。但直到几年前,构建、训练和部署模型的过程仍然是艰苦而乏味的,人手不多的数据科学家团队需要进行为期数周或数月的持续迭代,才能使模型达到生产水平。亚马逊云科技在五年前推出 Amazon SageMaker以应对这些挑战,此后陆续增加了250 多项新特性和功能,让客户能够更轻松地在多项业务中使用机器学习。当前,一些客户聘请了数百名专业人员,他们使用 Amazon SageMaker 做出预测,用以在改善客户体验、优化业务流程和加速新产品和服务开发等方面帮助解决最严峻的挑战。随着机器学习应用的增长,客户想要使用的数据类型不断增加,客户需要的治理、自动化和质量保证水平也与日俱增,以期实现对机器学习负责任的应用。Amazon SageMaker一向致力于为全球所有技能水平的专业人员提供支持,此次发布也秉承了这一创新传统。
Amazon SageMaker 机器学习治理新功能
Amazon SageMaker新功能可以帮助客户更轻松地在机器学习模型生命周期中扩大治理规模。 随着企业内模型和用户数量的增长,设置最低权限的访问控制和创建治理流程以记录模型信息(如输入数据集、训练环境信息、模型使用描述和风险评级)都变得愈发困难。模型部署后,客户还需要监测偏差和特征偏移,从而确保模型按预期运行。
Amazon SageMaker Role Manager 可以更轻松地控制访问和权限:适当的用户访问控制是治理的基石,它保护数据隐私,防止信息泄露,确保专业人员可以访问他们完成工作所需的工具。但一旦数据科学团队增加到数十甚至数百人,实施这些控制就会变得越来越复杂。机器学习管理员(创建和监控组织内机器学习系统的人)必须平衡对简化开发的需求和对管控机器学习工作流内任务、资源和数据访问的需求。当前,管理员通常创建电子表格或使用临时列表导览数十种不同活动(如数据准备和训练)和角色(如机器学习工程师和数据科学家)所需的访问策略。这些工具需要手动维护,而且可能需要数周时间才能明确新用户有效完成工作所需的具体任务。Amazon SageMaker Role Manager 让管理员可以更轻松地控制访问并为用户定义权限。管理员可以根据不同的用户角色和职责选择和编辑预建模板。之后,该工具会在几分钟内自动创建具有必要权限的访问策略,持续降低添加和管理用户所投入的时间和精力。
Amazon SageMaker Model Cards简化模型信息收集:当前,大多数专业人员依靠不同的工具(如电子邮件、电子表格和文本文件)记录模型开发和评估期间的业务需求、关键决策和观察结果。专业人员需要用这些信息支持审批工作流、注册、审计、客户查询和监控,但要为每个模型都收集这些详细信息则需要几个月的时间。一些专业人员试图通过构建复杂的记录保存系统来解决问题,但这样的系统需要手动操作、耗时且容易出错。Amazon SageMaker Model Cards在亚马逊云科技控制台提供了单独的位置存储模型信息,从而在整个模型生命周期中简化文档管理。新功能会自动将输入数据集、训练环境和训练结果等详细的训练信息直接输入到 Amazon SageMaker Model Cards。用户还可以使用自助问卷的形式保存模型信息(如精度目标、风险评级)、训练和验证结果(如偏差或精准度指标)以及供将来参考的观察结果,用以进一步提升治理水平、支持负责任地使用机器学习。
Amazon SageMaker Model Dashboard 提供集中界面以跟踪机器学习模型:模型部署到生产环境后,专业人员希望不断跟踪模型以了解其性能、识别潜在问题。这一任务通常针对每个模型单独完成。但当组织开始部署数千个模型时,这种方式会变得越来越复杂,需要大量的时间和资源。 Amazon SageMaker Model Dashboard 可以全面概览已部署的模型和端点,让专业人员只需在一个地方就可以跟踪资源和模型行为。通过模型看板,客户还可以使用内置集成的Amazon SageMaker Model Monitor(具备模型与数据偏移监控功能)和Amazon SageMaker Clarify(具备机器学习偏差检测功能)。这种对模型行为和性能的端到端可见性为简化机器学习治理流程、快速解决模型问题提供了必备的信息。
下一代Notebook
Amazon SageMaker Studio Notebook 为专业人员提供了从数据探索到部署的全托管Notebook体验。 随着团队规模和复杂性的增加,可能有数十名专业人员需要使用Notebook协作开发模型。亚马逊云科技推出三项新功能帮助客户协调和自动化Notebook代码,进一步为用户提供最佳Notebook体验。
简化数据准备:专业人员在准备训练数据时希望直接在Notebook中探索数据集,以发现和纠正潜在的数据质量问题(如信息缺失、极值、数据集失真和偏差)。专业人员可能要花费数月时间编写样板代码将数据集的不同部分可视化,检查数据集,以期识别和修复问题。Amazon SageMaker Studio Notebook提供内置的数据准备功能,让专业人员只需点击几下即可直观地查看数据特征、修复数据质量问题,所有这一切都直接在Notebook环境中进行。当用户在Notebook中显示data frame(即数据的表格形式)时,Amazon SageMaker Studio Notebook 会自动生成图表帮助用户识别数据质量问题,提供数据转换建议帮助解决常见问题。专业人员选择数据转换后,Amazon SageMaker Studio Notebook 会在Notebook中生成相应代码,可供每次运行Notebook时重复应用。
加速整个数据科学团队的协作:准备好数据后,专业人员就可以开始开发模型。这是一个迭代过程,可能需要团队成员在同一个Notebook中进行协作。当前,团队必须通过电子邮件或聊天应用交换Notebook和其它资产(如模型和数据集),以便在Notebook上实时协作,这会导致沟通疲劳、反馈迟滞和版本不统一等问题。 Amazon SageMaker 现在为团队提供了一个工作区,成员可以在其中实时阅读、编辑和运行Notebook,简化协作和沟通。团队成员可以一起查看Notebook结果,立即了解模型性能,无需反复传递信息。Amazon SageMaker Studio Notebook支持 BitBucket 和 Amazon CodeCommit 等服务,团队可以轻松管理不同的Notebook版本,比较版本变更。实验和机器学习模型这样的附加资源也会自动保存,让团队工作井井有条。
Notebook代码自动转换为生产就绪作业:当专业人员要将训练完成的机器学习模型用到生产中时,他们通常将代码片段从Notebook复制到一个脚本,再将脚本及其所有的依赖项打包到容器,最后调度容器运行。要在日程表上重复运行该作业,他们必须搭建、配置和管理持续集成和持续交付 (CI/CD)管道,才能实现自动化部署。搭建所有必要的基础设施可能需要数周时间,这会占用核心的机器学习开发活动时间。Amazon SageMaker Studio Notebook 现在让专业人员可以选择一个Notebook,将其自动化为可以在生产环境运行的作业。Notebook选择完成后,Amazon SageMaker Studio Notebook 会建立整个Notebook的快照,将其依赖项打包到容器,构建基础设施,按照专业人员设定的时间表将Notebook作为自动化作业运行,当作业完成时释放基础设施,如此可以将Notebook投入生产所需的时间从数周缩短到数小时。
使用实时推理请求自动验证新模型
在部署到生产环境之前,专业人员会测试和验证每个模型,检查模型性能、识别可能对业务产生负面影响的错误。专业人员通常使用过去的推理请求数据测试新模型的性能,但这些数据有时无法代表当前的真实推理请求。例如,用于规划最快路线的机器学习模型的历史数据可能无法代表交通事故或突然关闭道路时交通流量的显著改变。为了解决这个问题,专业人员将发送到生产模型的推理请求副本路由到他们想要测试的新模型。他们需要花费数周时间构建这样的测试基础设施、镜像推理请求、比较新模型在关键指标(如延迟和吞吐量)上的表现。虽然这让专业人员对模型的执行情况更有信心,但为数百以至数千个模型实施这些解决方案的成本和复杂性太高,使其无法规模化。
Amazon SageMaker Inference 现在提供了一种功能,让专业人员可以更轻松地实时使用相同的真实推理请求数据,将新模型的性能与生产模型的性能进行比较。现在,他们可以轻松地将测试同时扩展到数千个新模型,无需构建自己的测试基础设施。首先,客户选择想要测试的生产模型,Amazon SageMaker Inference 随后会将新模型部署到具有完全相同条件的托管环境。Amazon SageMaker 将生产模型收到的推理请求副本路由到新模型,并创建控制面板显示关键指标之间的性能差异,客户便可以实时了解每个模型的不同之处。客户一旦验证了新模型的性能并确信它没有潜在错误,就可以安全地部署它。
Amazon SageMaker全新的地理空间功能让客户可以更轻松地使用卫星和位置数据进行预测
当前,大部分收集到的数据都包含地理空间信息(如位置坐标、天气图和交通数据)。但是,已经用于机器学习的只有一小部分,原因是地理空间数据集很难处理,通常达到PB 级的规模,且跨越整个城市或数百公里土地。要开始构建地理空间模型,客户通常会采购卫星图像或地图数据等第三方数据源以补充其专有数据。由于地理空间数据规模庞大,专业人员需要合并这些数据,准备数据用于训练,并编写代码将数据集划分为可管理的子集。当客户准备部署训练好的模型时,他们必须编写更多代码以重新组合多个数据集,将数据和机器学习模型预测关联起来。为了从完成的模型中提取预测结果,专业人员需要花费数天时间使用开源的可视化工具在地图上做渲染。从数据改进到可视化,整个过程可能需要几个月的时间,这使得客户很难利用地理空间数据及时产生机器学习预测。
Amazon SageMaker将客户丰富数据集、训练地理空间模型并将结果可视化的时间从数月缩短到数小时,从而加速和简化地理空间机器学习预测的生成。客户只需几次点击或使用 API就可以使用 Amazon SageMaker访问各种地理空间数据源,例如亚马逊云科技的位置服务Amazon Location Service、开放数据集Amazon Open Data、客户自有数据和来自Planet Labs等第三方供应商的数据。当专业人员选择了想要使用的数据集,他们可以利用内置的运算器将这些数据集与自己的专有数据合并起来。为了加快模型开发,Amazon SageMaker 提供了预训练的深度学习模型,其支持的用例包括通过精准农业提高作物产量、监测自然灾害后区域恢复以及改善城市规划等。训练完成后,内置的可视化工具在地图上显示数据,揭示新的预测。
Capitec Bank 是南非最大的数字银行,拥有超过 1000 万数字客户。 “在 Capitec,我们在各个产品线都拥有大批数据科学家,他们构建不同的机器学习解决方案。”Capitec Bank 机器学习工程师 Dean Matter表示,“我们的机器学习工程师管理着一个基于 Amazon SageMaker 构建的集中式建模平台,支持所有这些机器学习解决方案的开发和部署。在没有任何内置工具的情况下,跟踪建模工作往往发生文档脱节,模型缺乏可见性。借助 Amazon SageMaker Model Cards,我们可以在统一环境中跟踪大量的模型元数据。而Amazon SageMaker Model Dashboard 提供了对每个模型性能的可见性。此外,Amazon SageMaker Role Manager 简化了对不同产品线数据科学家进行的访问管理。每一项功能都有助于我们的模型治理,足以保证客户对我们作为金融服务提供商的信任。”
EarthOptics 是一家土壤数据测量和制图公司,利用专有传感器技术和数据分析精确测量土壤健康状况和土壤结构。 “我们希望使用机器学习帮助客户利用经济实惠的土壤地图提高农业产量。” EarthOptics 首席执行官 Lars Dyrud 表示,“Amazon SageMaker 的地理空间机器学习功能使我们能够使用多个数据源快速构建算法原型,并且将研究和部署生产 API 之间的时间缩短到只有一个月。 得益于 Amazon SageMaker,我们为美国各地的农场和牧场部署了用于土壤固碳的地理空间解决方案。”
HERE Technologies 是一个领先的位置数据和技术平台,可帮助客户创建自定义地图和基于高精度位置数据的位置体验。 “我们的客户需要实时情境信息,利用空间模式和趋势洞察做出业务决策。”HERE Technologies 首席产品和技术官 Giovanni Lanfranchi 表示,“我们依靠机器学习自动从不同数据源获取位置数据,增强数据的情境信息,加速数据分析。Amazon SageMaker 的测试新功能让我们能够在生产中更严格、更主动地测试机器学习模型,避免对客户造成不利影响或者因为部署的模型出错导致任何中断。 这对我们至关重要,因为客户期待我们根据瞬息万变的实时位置数据提供及时的见解。”
Intuit 是全球性金融技术平台,通过 TurboTax、Credit Karma、QuickBooks 和 Mailchimp等产品支持全球超过 1 亿客户的繁荣发展。 “我们正在释放数据的力量,给我们平台上的消费者、个体经营者和小型企业带来金融变革。”Intuit 工程和产品开发总监 Brett Hollman 表示,“为了进一步提高团队效率、将 AI 驱动的产品快速推向市场,我们与亚马逊云科技密切合作,设计了 SageMaker Studio Notebook 中全新的团队协作功能。我们成功实现了简化沟通和协作,让我们的团队能够使用 Amazon SageMaker Studio 将机器学习开发规模化。”