安全稳定可信赖亚马逊云科技如何构建可靠的云服务

2024年4月9日越来越多的企业将关键性的工作负载放到云上，如何确保云上业务的连续性即云的韧性对企业来说就越来越重要。在亚马逊云科技，我们从一开始就在基础设施、服务设计与部署、运营模式和机制中将韧性考虑其中。例如，亚马逊云科技在一个区域内三个或更多可用区的设计，可通过更多冗余和更好的隔离来控制故障的影响面。亚马逊云科技将韧性根植于服务的设计之中，不同级别的服务有对应的、隔离的控制面和数据面，并逐层实施隔离。

如今，全球数百万用户选择亚马逊云科技，包括对数据高度敏感的组织如纳斯达克、道琼斯、美国金融监管局（FINRA）、默沙东等，他们信赖亚马逊云科技提供的安全、稳定、可信赖的云服务，满足其业务需求。

将韧性构建到亚马逊云科技的方方面面

为构建和运行世界上最可靠的云，亚马逊云科技持续投入，在服务设计和部署机制中构建保障措施，并将韧性植根于运营文化之中。亚马逊云科技服务的设计中就考虑了如何防止中断和事故的发生，因此当中断确实发生时，对客户和服务的连续性的影响将是最小的。为了避免单点故障，我们最小化全球基础设施之间的互联性。亚马逊云科技全球基础设施地理位置分散，遍及33个地理区域的105个可用区。亚马逊云科技的区域由一个地理区域内的多个相互独立，且在物理上分隔的可用区组成。每个可用区都有独立的电力、制冷和物理安全设施，可用区之间通过冗余的超低延迟网络连接。同一区域内的可用区之间具有足够的距离，最远可达约100公里，既能防止相关故障，但又能实现单位毫秒级延迟的同步复制。亚马逊云科技是唯一在每个区域内提供三个或更多可用区的云提供商，通过更多冗余和更好的隔离来控制故障的影响面。常见故障点，如发电机和冷却设备等，不会在可用区之间共享，并且设计为由独立的电力变电站供电。为了获得高可用性的同时可以实现更大的容错能力，客户可以将他们的应用程序设计为在多个可用区中运行。

韧性根植于亚马逊云科技服务设计之中。在亚马逊云科技构建的服务必须满足极高的可用性目标。我们会仔细考虑我们系统所依赖的因素。即使这些依赖项受到影响，我们的设计也使我们的系统保持韧性；我们使用被称为静态稳定性来实现这种程度的韧性。这意味着系统以静态状态运行，并在发生故障或依赖项不可用时继续正常运行，无需进行任何更改。例如，在Amazon Elastic Compute Cloud (Amazon EC2)中，实例启动后就和数据中心中的物理服务器一样可用。其他亚马逊云科技资源如虚拟私有云(VPC)、Amazon Simple Storage Service (Amazon S3)存储桶以及Amazon Elastic Block Store (Amazon EBS)卷也具有相同的特性。

赋能客户在其所有工作中构建韧性

数百万客户信赖亚马逊云科技是构建和运行关键业务和关键任务应用程序的最佳场所。我们提供了一套全面的专门构建的服务、策略和架构最佳实践，客户可以使用这些服务、策略和最佳实践来提升企业自身的韧性。这些服务、策略和最佳实践在亚马逊云科技韧性生命周期框架中被概述成了五个阶段：设定目标、设计和实施、评估和测试、运营以及响应和学习。弹性生命周期框架模仿标准软件开发生命周期，因此客户可以轻松地将韧性纳入现有流程。

例如，客户可以使用Amazon Resilience Hub来设置目标，根据这些目标评估韧性状况，并根据Amazon Well-Architected Framework和Amazon Trusted Advisor的建议实施改进措施。在Resilience Hub中，客户可以创建和运行Amazon Fault Injection Service实验，这些实验允许客户测试其应用程序将如何响应某些类型的中断。

其他服务，如Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route 53 ARC)，可以帮助客户快速响应和从中断中恢复。当汤森路透(一家为超过100个国家的客户提供税务、法律、媒体和政府解决方案的国际媒体公司)希望改善其业务部门之一的数据保护和应用程序恢复时，他们采用了Amazon DRS。Amazon DRS为汤森路透提供了持续复制，因此他们在源环境中所做的更改会在几秒钟内更新到灾难恢复站点。

行而不辍，未来可期

新技术、新威胁和新的处事之道层出不穷。这就是亚马逊云科技不懈努力改进基础设施、服务设计、运营模式和机制，持续加强与发展云设施韧性的原因。亚马逊云科技将持续为客户提供广泛、深入的架构及运营最佳实践服务、工具和指导，帮助客户在云中构建和运行弹性应用程序。