Amazon DataSync 是一项在线数据移动服务,可便捷快速地将数据迁移到亚马逊云科技,并可帮助您快速、安全地在本地存储、其他云和亚马逊云科技存储之间移动数据。
数据移动
Amazon DataSync 可简化、自动化和加速在本地存储或其他云与亚马逊云科技存储服务之间以及在亚马逊云科技存储服务之间复制大量数据的过程。DataSync 可以在网络文件系统(NFS)共享、服务器消息块(SMB)共享、Hadoop Distributed File Systems(HDFS)、自主管理型对象存储、Azure 文件存储、Azure Blob 存储(包括 Azure Data Lake Storage Gen2)、Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)文件系统、Amazon FSx 文件系统之间复制数据。
Amazon DataSync 提供以下数据移动功能。
专门构建的网络协议
Amazon DataSync 采用亚马逊设计的传输协议(与存储协议分离)来加速数据移动。该协议对通过网络发送数据的方式、时间和内容进行优化。DataSync 执行的网络优化包括增量传输、行内压缩、稀疏文件检测,以及行内数据验证和加密。
本地 DataSync 代理和云内服务组件之间的连接是多线程的,可最大限度地提高广域网(WAN)的性能。单个 DataSync 任务能够通过本地环境与亚马逊云科技之间的网络链接充分利用 10Gbps。
带宽优化和控制
传输热数据或冷数据不应妨碍您的业务。DataSync 配备了精细控制以优化带宽消耗。在非工作时间,Throttle 传输速度最高可达 10 Gbps,并在其他地方需要网络可用性时设置限制。
数据传输调度
DataSync 带有内置的调度机制,允许您定期运行数据传输任务,以检测更改并将其从源存储系统复制到目标。您可以使用 Amazon DataSync 控制台或亚马逊云科技命令行界面(CLI)安排任务,无需编写脚本来管理重复传输。任务计划自动按照您配置的时间表运行任务,亚马逊云科技控制台中直接提供每小时、每天或每周选项。
数据加密和验证
在 DataSync 代理和 DataSync 服务之间传输的所有数据均使用传输层安全 (TLS) 进行加密。DataSync 支持对 Amazon S3 存储桶使用默认的静态加密。DataSync 还支持对 Amazon EFS 和 Amazon FSx 的静态和传输中数据进行加密。
DataSync 确保您的数据完好无损地到达。对于每次传输,该服务都会在传输过程中和静态时进行完整性检查。这些检查可确保写入目标的数据与从源读取的数据相匹配,从而验证一致性。
文件系统集成和元数据保留
DataSync 代理可使用行业标准的 NFS 和 SMB 协议连接到您现有的存储系统,或作为 HDFS 客户端连接到您的 Hadoop 集群,或使用 Amazon S3 应用程序编程接口(API)连接到您的自主管理型对象存储或云对象存储,或使用 Blob API 连接到 Azure Blob 存储。该代理可快速传输数据并将其写入您指定的 Amazon S3 存储桶、Amazon EFS 文件系统或 Amazon FSx 文件系统。
将对象和/或数据复制到 Amazon S3、Amazon EFS 和 Amazon FSx 或从中复制数据时,会保留文件权限和元数据。
将数据复制到 Amazon S3 时,DataSync 会自动将每个文件以 1:1 的关系转换为单个 S3 对象,并将来自 NFS 共享或 HDFS 的 POSIX 元数据保留为 Amazon S3 对象元数据。当您将包含文件系统元数据的对象复制回文件格式时,原始文件元数据(DataSync 复制到 S3)将恢复。
与亚马逊云科技基础设施和管理服务集成
DataSync 与亚马逊云科技安全、监控和审计服务原生合作,以简化数据移动,为您的 IT、存储和 DevOps 团队提供一致的管理体验。除了与 Amazon S3、Amazon EFS 和 Amazon FSx 集成外,DataSync 还支持通过 Amazon Virtual Private Cloud(VPC)端点(由 Amazon PrivateLink 提供支持)将文件直接移入您的 Amazon VPC。与其他亚马逊云科技服务一样,您可以使用 Amazon Identity and Access Management(IAM)安全地管理 DataSync 访问权限。同样,您可以配置 IAM 角色来控制访问您的 Amazon S3 存储桶的服务。
监控和审核
DataSync 任务报告提供 JSON 格式的输出文件,其中包括所有传输、跳过、验证和删除的文件的摘要和详细报告,使您能够轻松验证和审核每个任务执行的数据传输操作。任务报告是在您的传输任务完成后生成的,这些报告存储在您的 Amazon S3 存储桶中。这使您可以轻松地使用亚马逊云科技服务(如 Amazon Glue 和 Amazon Athena)来自动对任务报告输出进行分类和分析,以检查所有任务执行中的数据传输进度。任务报告简化了跟踪和审核,使您能够轻松了解常见的任务执行趋势或故障模式,并获得对数据传输过程的重要见解。
使用 Amazon CloudWatch,您可以监控当前正在进行的任何 DataSync 传输的状态并查看以前的数据传输历史记录。使用 CloudWatch 指标,您可以查看文件数量和复制的数据量。有关在给定时间传输的单个文件以及 DataSync 完整性验证结果的信息,请参阅 CloudWatch Logs。这简化了监控、报告和故障排除,使您能够及时向利益相关者提供最新信息。此外,CloudWatch 事件会在您的传输任务完成时触发,从而实现相关工作流程的自动化。为便于审核,除任务报告外,您还可以查阅 Amazon CloudTrail,其中记录了 DataSync 执行的所有操作。
即用即付定价模式
使用 Amazon DataSync,只需为服务的使用量付费。无需软件许可证、合同或维护费。与手动构建、操作和优化自己的高性能脚本传输相比,这提供了更低的总拥有成本(TCO),并且比购买和运行商业传输工具的总成本更低。