亚马逊云科技推出五项Amazon SageMaker新功能,助力规模化开发应用模型

2023年12月6日 亚马逊云科技在2023 re:Invent全球大会上,宣布推出五项Amazon SageMaker新功能,帮助客户加速构建、训练和部署大语言模型和其他基础模型。随着模型不断改变各行各业的客户体验,Amazon SageMaker让企业更轻松快速地构建、训练和部署支持各种生成式AI使用场景的机器学习模型。为了成功使用模型,客户需要先进的功能来高效管理模型的开发、使用和性能。这就是Falcon 40B和180B、IDEFICS、Jurassic-2、Stable Diffusion以及StarCoder等大多数业内领先的模型都在Amazon SageMaker上训练的原因。

今天的宣布包括了一项新功能,进一步增强了Amazon SageMaker的模型扩展能力并加速了模型的训练。此外,Amazon SageMaker推出的另一项新功能,能够通过降低模型部署成本和延迟时间,优化了管理托管的机器学习基础设施。亚马逊云科技还推出了新的SageMaker Clarify功能,可以让客户在负责任地使用AI的基础上,根据质量参数更轻松地选择正确模型。为了帮助客户在企业范围内应用这些模型,亚马逊云科技还在Amazon SageMaker Canvas中引入了新的无代码功能,让客户更快、更容易地使用自然语言指令准备数据。同时,Amazon SageMaker Canvas继续推动模型构建和定制的普及,让客户更轻松地使用模型提取洞察、进行预测和使用企业专有数据生成内容。

足够的可伸缩算力的就位、海量数据的爆炸,以及机器学习技术的快速进步,正在促使包含数十亿参数模型的兴起,使它们能够执行各种任务,如撰写博客文章、生成图像、解决数学问题、进行对话和根据文档回答问题。如今,成千上万的客户,例如3M、阿斯利康(AstraZeneca)、法拉利(Ferrari)、LG AI Research、瑞安航空(RyanAir)、汤森路透(Thomson Reuters)和先锋领航集团(Vanguard)等,每月在Amazon SageMaker进行超过1.5万亿次的推理请求。此外,像AI21 Labs、Stability AI和Technology Innovation Institute等客户也正借助Amazon SageMaker训练拥有数十亿参数的模型。随着客户从构建主要针对特定任务的模型转向构建支持生成式AI的大型通用模型,他们必须处理大量数据集并进行更复杂的基础设施设置,同时在这个过程中还要不断优化成本和性能。客户还希望能够构建和定制自己的模型,以创造独特的客户体验,体现企业的声音、风格和服务。自2017年推出以来,Amazon SageMaker已经新增了380多个功能和特性,为客户提供了规模化构建、训练和部署可投入生产的大规模模型所需的一切。

“机器学习是近年来影响深远的技术变革之一,所有企业组织都对模型产生了浓厚的兴趣。这也给那些希望快速构建、训练和部署模型的客户带来了新的挑战。” 亚马逊云科技人工智能和机器学习副总裁Bratin Saha表示,“从加速训练、优化托管成本、降低延迟到简化基础模型的评估,再到扩展无代码模型的构建能力,我们的使命是让各种规模的企业平等地使用高质量、高成本效益的机器学习模型。今天,我们再次增强Amazon SageMaker,通过全托管、专门构建的新功能帮助客户充分获得他们在机器学习方面的投资回报。”

新功能客户更轻松快速地训练和操作模型,驱动生成式AI的应 

随着生成式AI的持续发展,许多新兴应用都将依赖于模型。然而,大多数企业在调整基础设施以满足新模型需求时存在困难,很难高效地实现规模化训练和操作。今天,Amazon SageMaker增加了两项全新功能,旨在帮助减轻规模化训练和部署模型的负担。

  • AmazonSageMaker HyperPod加速基础模型规模化训练:许多企业希望以较低的成本使用基于GPU和Trainium的计算实例来训练自己的模型。然而,数据激增、模型规模扩大以及较长的训练时间使模型训练复杂程度呈指数级增长,这要求客户必须进一步调整他们的流程来应对这些新需求。通常客户需要将模型训练分配到数百甚至数千个加速器上。之后,在几周或者几个月的时间内并行运行数万亿次数据计算,这是一项耗时且需要专门机器学习知识的任务。与训练特定任务的模型相比,加速器的数量和训练时间会大大增加。因此,很容易出现如单个加速器故障这样的小错误。这些错误可能会中断整个训练过程,并需要人工干预来识别、隔离、调试、修复和恢复,这将进一步延迟任务进度。在基础模型的训练过程中,客户经常需要暂停训练,评估当前模型性能并优化训练代码。为了不间断地训练模型,开发人员必须不断保存训练进度(通常称为检查点),以便在训练中断后不会丢失进度,并从停止的地方继续训练。这些挑战明显增加了训练模型所需的时间和成本,延迟了新的生成式AI创新的部署。

Amazon SageMaker HyperPod消除了为训练模型而构建、优化机器学习基础设施的繁重工作,将训练时间缩短了高达40%。Amazon SageMaker HyperPod预置了Amazon SageMaker的分布式训练库,使客户能够自动将训练工作负载分布到数千个加速器上,以便并行处理工作负载,提高模型性能。此外,Amazon SageMaker HyperPod通过定期保存检查点以确保用户能够不间断地训练模型。当训练过程中发生硬件故障时,Amazon SageMaker HyperPod会自动检测故障、修复或替换有故障的实例,并从最后保存的检查点恢复训练,无需客户手动管理这一过程,协助客户在分布式环境中进行数周或数月的训练而无需中断。

  • AmazonSageMaker Inference有助于降低模型部署成本并缩短延迟时间:企业在部署模型的过程中一直在寻找优化性能的方法。为了降低部署成本和减少响应延迟,客户使用Amazon SageMaker在新的机器学习基础设施加速器上部署模型,如Amazon Inferentia和GPU。然而,有些模型没有充分利用这些实例提供的加速器,导致硬件资源使用效率低。有些企业还将多个模型部署到同一个实例上,以便更好地利用所有可用的加速器,但这需要复杂的基础设施编排,既耗时又难以管理。当多个模型共享同一个实例时,每个模型都有自己的扩展需求和使用模式,因此很难预测客户何时需要添加或删除实例。例如,一个模型用于支持在特定时间内使用量可能激增的应用程序,而另一个模型可能具有更稳定的使用模式。除了优化成本,客户还希望通过降低延迟来提供理想的用户体验。由于模型的输出范围从一句话到一整篇文章不等,因此完成推理请求所需的时间差异很大。如果请求在实例之间随机路由,就会导致延迟出现不可预测的峰值。Amazon SageMaker现在支持新的推理功能,帮助客户降低部署成本和延迟时间。通过这些新功能,客户可以将多个模型部署到同一个实例上,更好地利用底层加速器,平均部署成本可降低50%。客户还可以分别控制每个模型的扩展策略,使之更适应模型的使用模式,同时优化基础设施成本。Amazon SageMaker能够积极监测正在处理推理请求的实例,并根据可用的实例智能发送请求,平均降低20%的推理延迟。

新功能能够帮助客户评估任意模型根据使用场景选择更适合的模型

 现在,客户在为生成式AI应用程序挑选模型时有很多选择,他们希望能快速比较这些模型,并根据相关质量和负责任的AI参数(如准确性、公平性和鲁棒性)找到更适合的选择。然而,当比较执行相同功能(例如文本生成或摘要)或属于同一系列(例如Falcon 40B与Falcon 180B)的模型时,每个模型在各种负责任的AI参数上表现都不相同。即使是在两个不同数据集上微调相同的模型,性能也存在差异,这将很难确定哪个版本效果更佳。如要开始比较模型,企业必须先花费数天时间识别相关标准,设置评估工具并对每个模型进行评估。尽管客户可以访问公开可用的模型标准,但他们通常无法根据代表特定使用场景的提示词来评估模型的性能。此外,这些标准通常难以理解,也不适用于评估品牌声音、相关性和风格。另外,企业还需经过耗时的手动分析结果的过程,并对每个新使用场景或微调模型重复此过程。

Amazon SageMaker Clarify现在可以帮助客户根据所选参数评估、比较和选择适合特定使用场景的最佳模型,以支持企业负责任地使用AI。借助Amazon SageMaker Clarify的新功能,客户可以轻松提交自己的模型进行评估,或通过Amazon SageMaker JumpStart选择模型。在Amazon SageMaker Studio中,客户可以选择要针对给定任务进行比较的模型,例如问答或内容摘要。然后,客户选择评估参数并上传自己的提示词数据集,或者从内置的公开数据集中进行选择。对于需要复杂人工判断的敏感标准或精细内容,客户可以选择使用自己的员工或由SageMaker Ground Truth提供的托管工作人员,使用反馈机制在几分钟内审查回复。一旦客户完成设置过程,Amazon SageMaker Clarify将会运行评估并生成报告,以便客户可以根据性能标准快速评估、比较和选择最佳模型。

新的Amazon SageMaker Canvas增强功能使客户更轻松、更快速地将生成式AI集成到工作流程中 

Amazon SageMaker Canvas帮助客户构建机器学习模型并生成预测,而无需编写代码。此次发布扩展了Amazon SageMaker Canvas现有的即用功能,帮助客户在无代码环境中使用模型来支持各种使用场景。

 

  • 使用自然语言指令准备数据如今,Amazon SageMaker Canvas中的可视化界面使那些没有机器学习专业知识的人可以轻松准备数据,但有些客户还希望以一种更快、更直观的方式浏览数据集。客户现在可以通过示例查询快速入门,并在整个过程中随时提问以简化数据准备工作。客户还可以使用自然语言指令进行复杂的转换,解决常见的数据问题,例如填充列中的缺失值。通过这个新的无代码界面,客户可以大大简化在Amazon SageMaker Canvas上处理数据的方式,将准备数据所需的时间从数小时缩短至数分钟。

 

  • 利用模型进行大规模业务分析客户使用AmazonSageMaker Canvas构建机器学习模型,并为各种任务生成预测,包括需求预测、客户流失预测和金融投资组合分析等。今年早些时候,客户即可通过Amazon SageMaker Canvas访问Amazon Bedrock上的多个模型,包括来自AI21 Labs、Anthropic和亚马逊的模型,以及来自MosaicML、TII和通过Amazon SageMaker Jumpstart获取的模型。使用与今天相同的无代码界面,客户可以上传数据集并选择模型,Amazon SageMaker Canvas会自动帮助客户构建自定义模型,立即生成预测。Amazon SageMaker Canvas还可以显示性能指标,让客户可以轻松协作,使用模型生成预测并了解基础模型在特定任务上的表现。

Hugging Face是一家领先的机器学习公司和开放平台,它为AI构建提供了开放的基础模型以及创建模型所需的工具。“Hugging Face一直在使用Amazon SageMaker HyperPod创建重要的最新开放基础模型,如StarCoder、IDEFICS和Zephyr,这些模型已被下载了数百万次。”Hugging Face产品负责人Jeff Boudier表示,“Amazon SageMaker HyperPod专为高可用和性能构建的功能使我们的开放科学团队能够专注于创新,并改进基础模型的构建方式,而非管理基础设施。Amazon SageMaker HyperPod能够检测到机器学习硬件故障,并快速替换有故障的硬件,且不会中断正在进行的模型训练。由于我们的团队需要快速创新,该自动化作业恢复功能帮助我们在基础模型训练过程中减少中断情况,让我们在一年内便节省了数百小时的训练时间。”

领先的人工智能客户关系管理(CRM)平台Salesforce,凭借数据、AI和CRM,提高了生产力,创造了可信的客户体验。 “我们对基础模型采用了开放的方式,而Amazon SageMaker是一个至关重要的组成部分,帮助我们扩展架构并加速市场推广。”Salesforce工程副总裁Bhavesh Doshi表示,“利用新的Amazon SageMaker推理功能,我们能够将所有模型放入单一的Amazon SageMaker端点,该端点可以自动处理所有资源分配和计算资源共享,在提高性能的同时降低了基础模型的部署成本。”

汤森路透(Thomson Reuters)是一家领先的信息领域提供商,也是全球值得信赖的新闻机构之一。 “我们的工程师面临的一个挑战是在高峰季节有效管理客户呼叫资源,以确保雇佣合适数量的客服人员来处理激增的咨询。”Thomson Reuters人工智能、商业智能和数据平台副总裁Maria Apazoglou表示,“对包含呼叫量、等待时间、日期等关键指标的呼叫中心数据进行历史分析是一项耗时的任务。我们的团队正在利用Amazon SageMaker Canvas中新的数据准备和定制功能,对公司数据进行模型训练,从而识别影响高峰时段呼叫量的模式和趋势,这让我们使用自有数据构建机器学习模型变得非常简便。我们期待通过Amazon SageMaker Canvas增加对基础模型的使用,而无需编写任何代码。”

为您推荐