Amazon S3 数据的复制和传输任务的设计及原则

发布于: Jun 28, 2022

本文将会介绍 Amazon S3 中数据的复制和传输应注意到哪些原则以及关键任务的设计。

对象清单分解成传输任务

有了存储桶中所有的对象清单，接下来，我们就看看如何设计传输任务。设计传输任务的原则如下：

如果网络条件非常良好，比如同区域的不同存储桶之间，按照作者的测试，复制带宽平均可以达到xxMB/s，如此可以直接利用S3 cp命令
尽可能将单进程的复制任务分解成多个子任务并发执行，任务分解后进入到Amazon SQS队列，这样将任务分解和任务执行进行解耦
如果网络条件非常一般，比如平均在10KB/s并且网络抖动大的情况下，对于超过一定大小的文件需要切割成小文件，组成子任务并发执行

传输任务分解算法的设计，涉及到几个关键参数：

max_task_size_mb：单个任务的对象总大小上限，比如最大大小限制在 100MB，那么单个任务最多有 100MB 的对象列表，或者该任务就一个对象，该对象本身大小就超过了 100MB
max_task_objects：单个任务的对象数量上限，比如数量上限为 50，那么单个任务中最多有 50 个对象需要传输
multipart_threshold 及 multipart_chunksize：对象太大时，需要分割成多个小对象传输任务，那么多大的对象需要进行分解？分段的单位大小是多少？比如阈值是 10MB，单位大小是 2MB，那么大于 10MB 的对象都需要再分解成 2MB 的多个子对象并发续传

传输任务在设计时分成两大类，一种是本身对象就是小文件，我们按照max_task_size_mb 和 max_task_objects 进行分组，即每个任务总数据量大小不会超过 max_task_size_mb，而且对象数量也不超过 max_task_objects ；这些任务我们会发送到自动创建的 S3Task_NormalQueue 开头的 SQS 队列中，每个队列的消息数量上限本文设为 80000 条；另外一类是，对象大小超过 multipart_threshold 限制的，我们会进一步把该对象分解成 multipart_chunksize 大小的独立对象，同样按照 max_task_size_mb 和 max_task_objects 的算法进行分组，但这些任务会保存到自动创建的以 S3Task_BigSizeQueue 开头的队列中。

另外遵循 Amazon SQS 操作的最佳实践，我们分别为这两类任务队列设定了同样的死信队列，当消息被读取10次而没被处理成功的会自动转移到 S3Task_DeadQueue 进行存储和后续处理。