Amazon DataSync 常见问题解答

一般性问题

全部打开

答：Amazon DataSync 是一项在线数据移动服务，可便捷快速地将数据迁移到亚马逊云科技，以及将数据移入和移出本地存储、其他云服务提供商和亚马逊云科技存储。

对于在线数据传输，Amazon DataSync 可简化、自动化和加速在本地存储、边缘站点或其他云与亚马逊云科技存储服务之间以及在亚马逊云科技存储服务之间复制大量数据的过程。DataSync 可以在网络文件系统（NFS）共享、服务器消息块（SMB）共享、Hadoop Distributed File Systems（HDFS）、自主管理型对象存储、Azure 文件存储、Azure Blob 存储（包括 Azure Data Lake Storage Gen2）、Amazon Simple Storage Service（Amazon S3）、Amazon Elastic File System（Amazon EFS）文件系统和 Amazon FSx 文件系统之间复制数据。

答：Amazon DataSync 让您能够安全、快速地移动数据。您可以使用 DataSync 复制包含数百万个文件的大型数据集，而不必使用开源工具构建自定义解决方案，也无需许可和管理昂贵的商业网络加速软件。您可以使用 DataSync 将活动数据迁移到亚马逊云科技、归档数据以释放本地存储容量、将数据复制到亚马逊云科技以实现业务连续性，或者将数据传输到云端进行分析和处理。

答：Amazon DataSync 降低了在线数据传输的复杂性和成本，让您可以轻松地将数据集传入本地存储、边缘站点、其他云提供商和 Amazon 存储服务或从中传出数据集。DataSync 通过标准存储协议（NFS、SMB）、作为 HDFS 客户端、使用 Amazon S3 API 或使用其他云存储 API，连接到现有存储系统和数据来源。它使用专门构建的网络协议和横向扩展架构来加速存储系统与亚马逊云科技服务之间的数据传输。DataSync 可处理以下工作：移动文件和对象、安排数据传输、监控传输进度、加密、数据传输验证以及通知任何问题。

数据移动

全部打开

答：DataSync 支持以下存储位置类型：网络文件系统（NFS）共享、服务器消息块（SMB）共享、Hadoop Distributed File Systems（HDFS）、自主管理型对象存储、Azure 文件存储、Azure Blob 存储（包括 Azure Data Lake Storage Gen2）、Amazon Simple Storage Service（Amazon S3）、Amazon Elastic File System（Amazon EFS）文件系统以及 Amazon FSx 文件系统。

答：您可以使用 Amazon DataSync 将位于本地、边缘或其他云中的数据迁移到 Amazon S3、Amazon EFS 和 Amazon FSx。配置 DataSync 以创建整个数据集的初始副本，并计划不断变化的数据的后续增量传输，直到最终从本地转移到 Amazon Storage 服务。DataSync 包括加密和完整性验证，可帮助确保您的数据安全、完好无损并随时可用。为了最大限度地减少对依赖网络连接的工作负载的影响，您可以将迁移安排在非工作时间运行，或者通过配置内置带宽限制来限制 DataSync 使用的网络带宽量。DataSync 会保留具有相似元数据结构的存储系统之间的元数据，使最终用户和应用程序能够平稳过渡到使用您的目标亚马逊云科技存储服务。

答：您可以使用 Amazon DataSync 将冷数据从本地存储系统直接移动到耐用且安全的长期存储，例如 Amazon S3 Glacier Flexible Retrieval（前身为 S3 Glacier）或 Amazon S3 Glacier Deep Archive。使用 DataSync 的排除筛选条件排除复制临时文件和文件夹，或使用包含筛选条件或清单仅从源位置复制文件子集。您可以根据自己的需求选择最具成本效益的存储服务：将数据传输到任何 S3 存储类别，或者使用 DataSync 和 EFS 生命周期管理将数据存储在 Amazon EFS Infrequent Access 存储类别（EFS IA）中。使用内置的任务调度功能定期存档出于合规性或审计目的应保留的数据，例如日志、原始素材或电子病历。

答：使用 Amazon DataSync，您可以定期将文件复制到任何 Amazon S3 存储类别，或者将数据发送到 Amazon EFS 和备用文件系统的 Amazon FSx。使用内置的任务调度功能，确保定期将数据集更改复制到目标存储。

答：您可以使用 Amazon DataSync 从本地系统持续传输到或传出 Amazon 存储服务进行处理。在需要将活动文件快速移入 Amazon Storage 的行业中，DataSync 可以帮助加快关键混合云存储工作流程。这包括生命科学中的机器学习、媒体和娱乐领域的视频制作、金融服务中的大数据分析以及石油和天然气的地震研究。DataSync 提供及时交付功能，以确保相关流程不会延迟。您可以指定包含和排除筛选条件或清单，以指定每次任务运行时应传输哪些文件或对象。

答：可以。使用 Amazon DataSync 后，您可以使用 SMB 协议复制 Azure 文件存储中的数据，也可以复制 Azure Blob 存储（包括 Azure Data Lake Storage Gen 2）中的数据。使用增强模式任务时，无需代理即可连接到您的云存储。如果使用基本模式，只需在您的云环境或 Amazon EC2 上部署 DataSync 代理，创建源位置和目标位置，然后即可启动任务，开始复制数据。

答：您可以使用 DataSync 在同一个亚马逊云科技账户内的 Amazon S3、Amazon EFS 和 Amazon FSx 之间传输文件或对象。您可以在同一个亚马逊云科技区域的亚马逊云科技服务之间传输数据。这不需要部署 DataSync 代理，可以使用 Amazon DataSync 控制台、命令行界面（CLI）或软件开发套件（SDK）进行端到端配置。

使用量

全部打开

答：您只需在亚马逊云科技管理控制台中单击几下或通过亚马逊命令行界面（CLI），即可使用 Amazon DataSync 传输数据。要开始，请按照以下 3 个步骤操作：

1.要在本地与亚马逊存储服务之间传输数据，请部署代理并通过管理控制台或 API 将其关联到您的亚马逊云科技账户。代理将用于访问您的 NFS 服务器、SMB 文件共享、Hadoop 集群或自主管理型对象存储或云对象存储，以从中读取数据或向其写入数据。无需部署代理即可在同一亚马逊云科技账户内的亚马逊存储服务之间传输数据。

2.创建数据传输任务 - 通过指定数据源和目标的位置以及要用于配置传输的任何选项（例如，安排任务和启用任务报告）来创建任务。

3.开始传输 — 启动任务，在控制台中或使用 Amazon CloudWatch 监控数据移动，并使用任务报告审核传输任务。

答：Amazon DataSync 支持两种代理类型，分别对应不同的任务模式：基本模式和增强模式。通过增强模式在本地 NFS 或 SMB 文件服务器与 Amazon S3 之间复制数据时，需要使用 DataSync 增强模式代理。对于其他所有使用场景，则使用 DataSync 基本模式代理。

您可以将 Amazon DataSync 代理部署到本地虚拟机监控程序或 Amazon EC2 中。要将数据复制到本地文件服务器或从中复制数据，请从亚马逊云科技管理控制台下载代理虚拟机映像，然后部署到您的本地 VMware ESXi、基于 Linux 内核的虚拟机（KVM）或 Microsoft Hyper-V 虚拟机监控程序。使用 DataSync 代理时，必须部署代理，使其能够使用 NFS、SMB 协议访问您的文件服务器、访问 Hadoop 集群中的 NameNodes 和 DataNodes，或者使用 Amazon S3 API 访问您的自主管理型对象存储。无需部署代理即可在同一亚马逊云科技账户内的亚马逊云科技存储服务之间传输数据。

答：当您通过亚马逊云科技管理控制台或 Amazon 命令行界面（CLI）启动任务时，Amazon DataSync 会复制数据。每次运行任务时，它都会扫描源和目标是否有更改，并将源与目标之间的任何数据和元数据差异复制一次。您可以配置使用源代码的哪些特征来确定更改的内容，定义包含和排除筛选条件或清单以传输特定文件或文件夹，以及控制在源中更改时是否应覆盖目标中的文件或对象，或者在源中找不到时删除目标中的文件或对象。

答：基本模式任务受数据集中文件和对象数量的配额限制。基本模式会按顺序准备、传输和验证数据集中的文件和对象，因此对于大多数工作负载，基本模式的速度比增强模式更慢。使用增强模式，您可以以比基本模式更高的性能传输包含几乎无限数量对象的数据集。增强模式任务可以并行列出、准备、传输和验证数据，从而优化和简化数据传输过程。您还可以获得经增强的指标和报告功能，因此能够更轻松地跟踪和管理大型数据传输。增强模式目前适用于 Amazon S3 站点之间的传输、其他云服务与 Amazon S3 之间的传输，以及本地 NFS 或 SMB 文件服务器与 Amazon S3 之间的传输。基本模式支持目前可用的所有 DataSync 站点类型。有关任务模式之间差异的详细列表，请参阅 DataSync 文档。有关任务模式之间的定价差异，请参阅 DataSync 定价页面。

答：Amazon DataSync 传输和存储数据时，会执行完整性检查，以确保写入目标的数据与从源读取的数据相匹配。此外，在传输结束时，可以执行可选的验证检查以比较来源和目的地。DataSync 将计算和比较存储在源和目标中的数据的完整文件校验和。您可以检查整个数据集，也可以只检查 DataSync 传输的文件或对象。

答：您可以使用任务报告，通过验证所有任务执行中的传输操作来审核数据传输过程。通过任务报告，您可以获得一份摘要报告，以及每次执行任务时所有传输、跳过、验证和删除的文件的详细报告。任务报告为您提供传输的文件总数和字节数，并包括文件属性，例如大小、路径、时间戳、文件校验和以及对象版本 ID（如果适用）。您还可以利用 Amazon Glue 和 Amazon Athena 来自动分类和查询任务报告，以获得有关数据传输流程的重要见解。

您可以使用亚马逊云科技管理控制台或 CLI 来监控传输数据的状态和进度。使用 Amazon CloudWatch 指标，您可以查看已复制的文件数量和数据量。您还可以启用将单个文件记录到 CloudWatch Logs，以识别在给定时间传输的内容以及 DataSync 执行的内容完整性验证的结果。

这些解决方案共同简化了监控、报告和故障排除，使您能够及时向利益相关者提供最新信息。

答：可以。您可以指定排除筛选器、包含筛选器或两者，以限制每次任务运行时传输的文件、文件夹或对象。或者，您可以使用清单来指定应从源位置传输的文件或对象的子集。

包含筛选器指定任务运行时应包含的文件和文件夹路径或对象键，并限制 DataSync 在源和目标上扫描内容的范围。排除筛选器指定了应从复制中排除的文件和文件夹路径或对象键。创建或更新任务时，您可以配置排除和包含筛选器。启动任务时，您可以覆盖并更新在任务上配置的筛选条件。阅读此亚马逊云科技存储博客，详细了解如何在 DataSync 中使用常用筛选条件。

清单是 CSV 格式的文件，列出了任务运行时应包含的文件路径或对象键，并限制 DataSync 在源和目标上扫描内容的范围。创建或更新任务时，您可以为清单文件提供数百万个源文件或对象，而 DataSync 只会比较和传输清单中列出的文件。启动任务时，您可以覆盖和更新清单文件。从 Amazon S3 中复制数据时，您还可以为要传输的每个对象指定一个可选的 S3 版本 ID。阅读此博客以了解更多详细信息。

请注意，筛选条件和清单不能一起使用。

答：清单是明确列出要从源位置传输的文件或对象的列表，而包含筛选条件是一个字符串，用于指定要从源位置传输的文件和文件夹的模式。仅复制与筛选器中的模式相匹配的文件和文件夹。模式可以是整个文件或文件夹路径，也可以是以通配符（*）结尾的前缀，表示应复制与该前缀匹配的所有文件或对象。对于只想复制一小部分文件或对象或几个特定文件夹的客户来说，包含筛选器是理想的选择。拥有知名数据集（例如作为自动化工作流程的一部分移动的数据集）的客户可以使用清单来避免扫描其整个文件或对象存储系统以确定更改。使用清单文件，客户可以指定要传输的数百万个源文件或对象，而 DataSync 只会比较清单中列出的文件。客户还可以使用清单从其 Amazon S3 存储桶中复制对象的特定版本。

答：可以。您可以使用 Amazon DataSync 控制台或亚马逊 Web Services 命令行界面 (CLI) 安排任务，无需编写和运行脚本来管理重复传输。任务计划自动按照您配置的计划运行任务，控制台中直接提供每小时、每天或每周选项。这使您能够确保自动检测到对数据集的更改并将其复制到目标存储。

答：可以。传输文件时，Amazon DataSync 在目标位置创建的目录结构与在源位置的结构上创建的目录结构相同。

答：如果任务中断，例如，如果网络连接中断或重新启动 Amazon DataSync 代理，则下次运行该任务时会传输缺失的文件，且运行结束后数据将完整且一致。每次启动任务时，它都会执行增量复制，仅将更改从源传输到目标。

答：您可以将 Amazon DataSync 与您的 Direct Connect 链接结合使用，以访问公共服务端点或私有 VPC 端点。使用 VPC 端点时，DataSync 代理和亚马逊云科技之间传输的数据无需遍历公共互联网，也不需要公有 IP 地址，可以提高通过网络复制数据的安全性。

答：是的，数据移动用例支持 VPC 端点。您可以使用 VPC 端点来确保在本地或云端部署的 Amazon DataSync 代理之间传输的数据不会遍历公共互联网，也不需要公有 IP 地址。使用 VPC 端点可将网络流量保持在 Amazon Virtual Private Cloud（Amazon VPC）内，从而提高数据的安全性。VPC 端点由 Amazon PrivateLink 提供支持，这是一种高度可用的可扩展技术，允许您将 VPC 私下连接到受支持的亚马逊云科技服务。

答：要将 VPC 端点与 Amazon DataSync 一起使用，您需要在所选的 VPC 中为 DataSync 服务创建一个 Amazon PrivateLink 接口 VPC 端点，然后在创建 DataSync 代理时选择此端点弹性网络接口（ENI）。您的代理将连接到此 ENI 进行激活，随后，代理传输的所有数据都将保留在您配置的 VPC 中。您可以使用 Amazon DataSync 控制台、亚马逊命令行接口 (CLI) 或亚马逊 SDK 来配置 VPC 终端节点。要了解更多信息，请参阅“在虚拟私有云中使用 Amazon DataSync”。

迁入和移出 Amazon Storage

全部打开

答：Amazon DataSync 支持将数据移入或移出 Amazon Simple Storage Service（Amazon S3）、Amazon Elastic File System（Amazon EFS）和 Amazon FSx，或者在这些服务之间移动数据。

Amazon S3

全部打开

答：可以。在配置 S3 存储桶以与 Amazon DataSync 一起使用时，您可以选择 DataSync 用于存储对象的 S3 存储类别。DataSync 支持将数据直接存储到 S3 Standard、S3 Intelligent-Tiering、S3 Standard-Infrequent Access（S3 Standard-IA）、S3 One Zone-Infrequent Access（S3 One Zone-IA）、Amazon S3 Glacier Flexible Retrieval 和 Amazon S3 Glacier Deep Archive（S3 Glacier Deep Archive）。有关 Amazon S3 存储类别的更多信息，请参阅 Amazon Simple Storage Service 开发人员指南。

小于单个对象最低计费容量的对象将存储在 S3 Standard 中。例如，大小为零字节且仅包含元数据的文件夹对象会存储在 S3 Standard 中。在我们的文旦各种阅读有关使用 Amazon S3 存储类别的注意事项。有关最低计费容量的更多信息，请参阅 Amazon S3 定价。

答：可以。使用 S3 作为 Amazon DataSync 任务的源位置时，该服务将检索存储桶中需要复制到目标的所有对象。从 S3 Standard-IA 和 S3 One Zone-IA 存储中检索对象将根据对象的大小产生检索费用。在我们的文档中阅读使用 Amazon S3 存储类别时的注意事项。

答：使用 S3 作为 Amazon DataSync 任务的源位置时，该服务会尝试从存储桶中检索所有需要复制到目标的对象。检索在 S3 Glacier Flexible Retrieval 或 S3 Glacier Deep Archive 存储类别中存档的对象会导致错误。检索存档对象时出现的任何错误都将由 DataSync 记录，并将导致任务完成状态失败。在我们的文档中阅读使用 Amazon S3 存储类别时的注意事项。

答：Amazon DataSync 将代入您提供的 IAM 角色。您附加到该角色的策略将决定该角色可以执行哪些操作。DataSync 可以代表您自动生成此角色，也可以手动配置角色。

答：将文件或文件夹复制到 Amazon S3 时，文件或文件夹与对象之间存在一对一的关系。文件和文件夹时间戳以及 POSIX 权限（包括用户 ID、群组 ID 和权限）存储在 S3 用户元数据中。对于 NFS 共享，存储在 S3 用户元数据中的文件元数据可与文件网关完全互操作，从而提供对存储在 Amazon S3 中的 Amazon S3 中的数据的本地文件访问。

当 DataSync 将包含此用户元数据的对象复制回 NFS 服务器时，文件元数据将恢复。从 NFS 复制回到 S3 时，符号链接和硬链接也会恢复。

从 SMB 文件共享中复制时，默认 POSIX 权限存储在 S3 用户元数据中。复制回 SMB 文件共享时，将根据在 DataSync 中配置为访问该文件共享的用户设置所有权，并分配默认权限。

从 HDFS 复制时，文件和文件夹时间戳、用户和组所有权以及 POSIX 权限存储在 S3 用户元数据中。从 Amazon S3 复制回 HDFS 时，将恢复文件和文件夹的元数据。

要详细了解 DataSync 如何存储文件和元数据，请参阅我们的文档。

答：在自主管理的对象存储或 Azure Blob 存储与 Amazon S3 之间传输对象时，DataSync 会将对象以及对象元数据和标签一起复制。

答：在 Amazon S3 存储桶之间传输对象时，DataSync 会将对象与对象元数据和标签一起复制。DataSync 不会复制其他对象信息，例如对象 ACL 或以前的对象版本。

答：某些 S3 存储类别的行为可能会影响您的成本，例如数据检索、最小存储容量和最小存储持续时间。DataSync 会自动管理数据以解决这些因素，并提供设置以最大限度地减少数据检索。

为了避免为每个对象收取最低容量费用，Amazon DataSync 会自动将小对象存储在 S3 标准中。为了最大限度地降低数据检索费用，您可以将 DataSync 配置为仅验证给定任务传输的文件。为避免收取最低存储持续时间费用，DataSync 具有覆盖和删除对象的控件。在我们的文档中阅读使用 Amazon S3 存储类别时的注意事项。

Amazon EFS

全部打开

答：Amazon DataSync 使用 NFS 协议访问您的 Amazon EFS 文件系统。DataSync 服务从 DataSync 服务管理的弹性网络接口（ENI）在 VPC 内装载您的文件系统。DataSync 代表您来全面管理这些 ENI 的创建、使用和删除。您可以选择使用装载目标或 EFS 接入点装载 EFS 文件系统。

答：可以。您可以使用 Amazon Transfer 将文件写入 EFS 并配置 EFS 生命周期管理，以将在设定时间内未访问的文件迁移到 Infrequent Access（IA）存储类别中。

答：您可以使用 IAM 身份策略和资源策略，以可扩展和针对云环境优化的方式控制客户端对 Amazon EFS 资源的访问。当您为 EFS 文件系统创建 DataSync 位置时，您可以指定 DataSync 在访问 EFS 时将代入的 IAM 角色。然后，您可以使用 EFS 文件系统策略配置 IAM 角色的访问权限。由于 DataSync 以根用户身份挂载 EFS 文件系统，因此您的 IAM 策略必须允许以下操作：elasticfilesystem: ClientRootAccess。

答：可以。除了 Amazon EFS 提供的内置复制功能外，您还可以使用 Amazon DataSync 安排定期将您的 Amazon EFS 文件系统复制到同一亚马逊云科技账户内的另一个 Amazon EFS 文件系统。此功能适用于同区域和跨区域部署，不需要使用 DataSync 代理。

答：Amazon DataSync 会复制文件和文件夹的时间戳以及 POSIX 权限，包括用户 ID、组 ID 和权限。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。

答：Amazon DataSync 会复制文件和文件夹时间戳以及 POSIX 权限，并应用用户 ID 和群组 ID 的默认值。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。

Amazon FSx for Windows File Server

全部打开

答：Amazon DataSync 使用 SMB 协议访问您的 Amazon FSx for Windows 文件系统，使用您在亚马逊云科技控制台或 CLI 中配置的用户名和密码进行身份验证。DataSync 服务从 DataSync 服务管理的弹性网络接口（ENI）在 VPC 内装载您的文件系统。DataSync 代表您来全面管理这些 ENI 的创建、使用和删除。

答：Amazon DataSync 复制 Windows 元数据，包括文件时间戳、文件所有者、标准文件属性、NTFS 自由访问列表（DACL）和 NTFS 系统访问控制列表（SACL）。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。

答：可以。您可以使用 Amazon DataSync 安排定期将您的 Amazon FSx for Windows 文件服务器文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署，不需要使用 DataSync 代理。

Amazon FSx for Lustre

全部打开

答：当您创建 DataSync 任务以复制到您的 FSx for Lustre 文件系统时，DataSync 服务将在您的文件系统所在的同一 VPC 和子网中创建弹性网络接口（ENI）。DataSync 使用这些 ENI 以 Lustre 协议作为根用户访问你的 FSx for Lustre 文件系统。当您为 FSx for Lustre 文件系统创建 DataSync 位置资源时，您最多可以指定五个安全组应用于 ENI 并配置来自 DataSync 服务的出站访问。必须将安全组配置为允许 FSx for Lustre 所需的网络端口上的出站流量。应将 FSx for Lustre 文件系统上的安全组配置为允许您分配给 FSx for Lustre 文件系统的 DataSync 位置资源的安全组进行入站访问。

答：Amazon DataSync 会复制文件和文件夹的时间戳以及 POSIX 权限，包括用户 ID、组 ID 和权限。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。

答：可以。您可以使用 Amazon DataSync 从 FSx for Lustre 文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署，不需要使用 DataSync 代理。

答：可以。您可以使用 Amazon DataSync 安排定期将您的 Amazon FSx for Lustre 文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署，不需要使用 DataSync 代理。

答：不会。文件使用目标文件系统上的文件布局和条带配置写入。

性能

全部打开

答：Amazon DataSync 复制给定数据集的速率取决于数据量、可从源和目标存储器获得的 I/O 带宽、可用网络带宽和网络条件。对于本地和亚马逊云科技存储服务之间的数据传输，单个 DataSync 任务能够充分利用 10Gbps 的网络链接。

答：可以。您可以通过配置内置带宽限制来控制 Amazon DataSync 将使用的网络带宽量。您可以在数据传输任务运行时增加或减少此限制。这使您能够最大限度地减少对依赖相同网络连接的其他用户或应用程序的影响。

答：Amazon DataSync 会生成 Amazon CloudWatch 指标，以提供传输过程的详细可见性。使用这些指标，您可以查看已复制的文件数量和数据量，以及文件发现和验证进度。您可以直接在 DataSync 控制台中查看包含这些指标的 CloudWatch 图表。

答：根据您的本地文件存储的容量以及要传输的文件的数量和大小，Amazon DataSync 可能会影响其他客户端访问同一源数据存储时的响应时间，因为代理从该存储系统读取或写入数据。为任务配置带宽限制将通过限制存储系统的 I/O 来减少这种影响。

安全性与合规性

全部打开

答：是的。在源和目标之间传输的所有数据都通过传输层安全 (TLS) 加密，它取代了安全套接字层 (SSL)。数据绝不会在 Amazon DataSync 本身持久存储。该服务支持对 S3 存储桶使用默认加密、对 Amazon EFS 文件系统进行静态数据加密，以及对 Amazon FSx 进行静态和传输中加密。

答：Amazon DataSync 使用您部署到您的 IT 环境或 Amazon EC2 中的代理，通过 NFS 或 SMB 协议访问您的文件。该代理会连接到亚马逊云科技中的 DataSync 服务端点，并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。

答：Amazon DataSync 使用您部署到 IT 环境或 Amazon EC2 中的代理来访问您的 Hadoop 集群。DataSync 代理充当 HDFS 客户端，与集群中的 NameNodes 和 DataNodes 通信。当您启动任务时，DataSync 会查询主 NameNode 以确定集群上文件和文件夹的位置。然后，DataSync 与集群中的 DataNodes 通信，将文件和文件夹复制到 HDFS 或从 HDFS 复制文件和文件夹。

答：Amazon DataSync 使用 Amazon S3 API 来访问与 S3 兼容的对象存储系统。若要访问您的本地对象存储，DataSync 会使用您部署到数据中心的代理。使用基本模式任务进行跨云传输时，DataSync 会使用您在公有云环境或 Amazon EC2 中部署的代理来访问您在其他云中的存储。该代理会连接到亚马逊云科技中的 DataSync 服务端点，并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。使用增强模式任务时，无需代理即可连接到其他云中的存储。

答：使用基本模式任务时，Amazon DataSync 会使用您部署到 Azure 环境或 Amazon EC2 中的代理来访问您的 Azure Blob 存储容器中的对象。该代理会连接到亚马逊云科技中的 DataSync 服务端点，并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。使用增强模式任务时，无需代理即可连接到您的 Azure Blob 存储。DataSync 会使用您在创建 DataSync Azure Blob 位置时指定的 SAS 令牌来对 Azure 容器进行身份验证。

答：不。在将数据复制到您的场所或从您的场所复制数据时，无需设置 VPN/隧道或允许入站连接。可以将您的 Amazon DataSync 代理配置为使用标准网络端口通过防火墙进行路由。您还可以使用 VPC 终端节点在您的 Amazon Virtual Private Cloud (Amazon VPC) 中部署 DataSync。使用 VPC 端点时，DataSync 代理和亚马逊云科技之间传输的数据无需遍历公共互联网，也不需要公有 IP 地址。

答：代理激活后，DataSync 会自动应用代理虚拟机的更新，包括底层操作系统和 Amazon DataSync 软件包。当代理处于空闲状态且未执行数据传输任务时，将无中断地应用更新。

答：可以。Amazon DataSync 通过双栈（IPv4 和 IPv6）功能支持存储资源使用 IPv6。您可以使用 DataSync，通过 IPv4 或 IPv6 地址连接到位于本地的存储资源。

何时选择亚马逊 DataSync

全部打开

答：Amazon DataSync 可以完全自动化并加速将大型活动数据集迁移到亚马逊存储服务。它与 Amazon S3、Amazon EFS、Amazon FSx、Amazon CloudWatch 和 Amazon CloudTrail 原生集成，可无缝安全地访问您的存储服务，并对传输进行详细监控。

DataSync 使用专门构建的网络协议和横向扩展架构来传输数据。对于本地和亚马逊云科技存储服务之间的数据传输，单个 DataSync 任务能够充分利用 10Gbps 的网络链接。

DataSync 完全自动执行数据传输。它具有重试和网络弹性机制、网络优化、内置任务调度、通过任务报告进行审核、通过 DataSync API 和控制台进行监控，以及 CloudWatch 指标、事件和日志，可实现传输过程的精细可见性。DataSync 在传输期间和传输结束时都执行数据完整性验证。

DataSync 提供端到端安全性，并直接与亚马逊云科技存储服务集成。在源和目标之间传输的所有数据均通过 TLS 加密，并通过 IAM 角色等内置亚马逊云科技安全机制启用对您的亚马逊云科技存储的访问权限。启用 VPC 端点的 DataSync 可确保组织与亚马逊云科技之间传输的数据不会通过公共互联网，从而进一步提高通过网络复制数据的安全性。

答：亚马逊云科技提供多种工具，用于在您的存储段之间复制对象。

使用 Amazon DataSync 进行持续的数据分发、数据管道和数据湖采集，以及在多个存储段之间整合或拆分数据。

使用 S3 复制将数据连续复制到特定的目标存储桶。

使用 S3 批量操作对 S3 对象执行大规模批量操作，例如复制对象、设置对象标签或访问控制列表（ACL）、从 Amazon S3 Glacier Flexible Retrieval（前身为 S3 Glacier）启动对象恢复、调用 Amazon Lambda 函数以使用您的对象执行自定义操作、管理 S3 对象锁定合法保留或管理 S3 对象锁定保留日期。

答：Amazon DataSync 非常适合在线数据传输。您可以使用 DataSync 将活动数据迁移到亚马逊云科技存储服务，将数据传输到云端进行分析和处理，存档数据以释放本地存储容量，或者将数据复制到亚马逊云科技存储服务以实现业务连续性。

Amazon Snowball 非常适合离线数据传输、带宽受限的客户或从远程、断开连接或严酷的环境传输数据。

答：如果您目前使用 SFTP 与第三方交换数据，Amazon Transfer Family 可提供完全托管的 SFTP、FTPS 和 FTP 直接传入和传出 Amazon S3，同时减轻您的操作负担。

如果您想在 NFS 服务器、SMB 文件共享、Hadoop 集群、自管理或云对象存储、Amazon S3、Amazon EFS 和 Amazon FSx 之间进行加速和自动的数据传输，则可以使用 Amazon DataSync。DataSync 非常适合需要在线迁移活动数据集、及时传输持续生成的数据或需要复制以实现业务连续性的客户。

Amazon DataSync 常见问题解答

一般性问题

数据移动

使用量

迁入和移出 Amazon Storage

Amazon S3

Amazon EFS

Amazon FSx for Windows File Server

Amazon FSx for Lustre

性能

安全性与合规性

何时选择亚马逊 DataSync

关于我们

产品与解决方案

资源与支持

管理账户

Amazon DataSync 常见问题解答

一般性问题

问：什么是 Amazon DataSync？

问：为什么应该使用 Amazon DataSync？

问：Amazon DataSync 可以为我解决哪些问题？

数据移动

问：我可以在哪里移入和移出数据？

问：如何使用 Amazon DataSync 将数据迁移到亚马逊云科技？

问：如何使用 Amazon DataSync 归档冷数据？

问：如何使用 Amazon DataSync 将数据复制到亚马逊云科技以实现业务连续性？

问：如何使用 Amazon DataSync 在本地和亚马逊存储服务之间定期传输正在进行的工作流程？

问：我能否使用 Amazon DataSync 将数据从其他云复制到亚马逊云科技？

问：如何使用 Amazon DataSync 在亚马逊云科技存储服务之间传输数据？

使用量

问：如何开始使用 Amazon DataSync 移动我的数据？

问：如何部署 Amazon DataSync 代理？

问：如何启动 Amazon DataSync 数据传输任务？

问：基本模式和增强模式任务有什么区别？

问：Amazon DataSync 如何确保我的数据正确复制？

问：如何审核和监控 Amazon DataSync 传输的数据状态？

问：我能否筛选 Amazon DataSync 传输的文件和文件夹？

问：使用清单文件与使用包含筛选条件有何不同？

问：我能否将 Amazon DataSync 配置为按计划传输？

问：Amazon DataSync 复制文件时是否会保留目录结构？

问：如果 Amazon DataSync 任务中断会发生什么？

问：我能否将 Amazon DataSync 与 Amazon Direct Connect 一起使用？

问：Amazon DataSync 是否支持 VPC 端点或 Amazon PrivateLink？

问：如何将 Amazon DataSync 配置为使用 VPC 端点？

迁入和移出 Amazon Storage

问：Amazon DataSync 支持哪些亚马逊云科技存储服务？

Amazon S3

问：我能否将我的数据复制到 Amazon S3 Glacier Flexible Retrieval（前身为 S3 Glacier）、Amazon S3 Glacier Deep Archive 或其他 S3 存储类别？

问：我能否从 S3 Standard-IA 和 S3 One Zone-IA 存储类别中复制数据？

问：我能否从 Amazon S3 Glacier Flexible Retrieval（前身为 S3 Glacier）和 Amazon S3 Glacier Deep Archive 中复制数据？

问：Amazon DataSync 如何访问我的 Amazon S3 存储桶？

问：Amazon DataSync 如何将文件和文件夹转换为 Amazon S3 中的对象或从中转换文件和文件夹？

问：在自主管理的对象存储或 Azure Blob 存储与 Amazon S3 之间传输对象时，会保留哪些对象元数据？

问：在 Amazon S3 存储桶之间传输对象时会保留哪些对象元数据？

问：将 S3 存储类别与 Amazon DataSync 一起使用时，会产生哪些 Amazon S3 请求和存储费用？

Amazon EFS

问：Amazon DataSync 如何访问我的 Amazon EFS 文件系统？

问：我能否将 Amazon DataSync 用于所有 Amazon EFS 存储类别？

问：如何使用 Amazon DataSync 和 Amazon EFS 文件系统资源策略？

问：我能否使用 Amazon DataSync 将我的 Amazon EFS 文件系统复制到不同的亚马逊云科技中国区域？

问：在 NFS 共享和 Amazon EFS 之间或两个 Amazon EFS 文件系统之间复制数据时，会保留哪些元数据？

问：在 HDFS 和 Amazon EFS 之间复制数据时会保留哪些元数据？

Amazon FSx for Windows File Server

问：Amazon DataSync 如何访问我的 Amazon FSx for Windows File Server 文件系统？

问：在 SMB 共享到 Windows 文件服务器的 Amazon FSx 文件系统之间或者在两个 Amazon FSx 文件系统之间进行复制时，会传输哪些 Windows 元数据？

问：我能否使用 Amazon DataSync 将我的 Amazon FSx for Windows 文件服务器文件系统复制到不同的亚马逊云科技中国区域？

Amazon FSx for Lustre

问：Amazon DataSync 如何访问我的 Amazon FSx for Lustre 文件系统？

问：在 NFS 共享或 Amazon EFS 文件系统和 Amazon FSx for Lustre 之间复制数据时，或者在两个 Amazon FSx for Lustre 文件系统之间复制数据时，会保留哪些元数据？

问：我能否使用 Amazon DataSync 将数据从一个 FSx for Lustre 文件系统迁移到另一个文件系统？

问：我能否使用 Amazon DataSync 将我的 Amazon FSx for Lustre 文件系统复制到不同的亚马逊云科技中国区域？

问：从一个 Amazon FSx for Lustre 文件系统复制到另一个文件系统时，DataSync 会复制条带或布局设置吗？

性能

问：Amazon DataSync 能以多快的速度将我的文件系统复制到亚马逊存储服务？

问：我能否控制 Amazon DataSync 任务使用的网络带宽量？

问：如何监控 Amazon DataSync 的性能？

问：Amazon DataSync 会影响我的源文件系统的性能吗？

安全性与合规性

问：我的数据在传输和存储时是否会加密？

问：Amazon DataSync 如何访问我的 NFS 服务器或 SMB 文件共享？

问：Amazon DataSync 如何访问我的 Hadoop 集群上的 HDFS？

问：Amazon DataSync 如何访问我的自主管理型存储或云对象存储？

问：Amazon DataSync 如何访问我的 Azure Blob 存储容器？

问：Amazon DataSync 是否需要设置 VPN 才能连接到我的目标存储？

问：我的 Amazon DataSync 代理是如何修补和更新的？

问：Amazon DataSync 是否支持 IPv6？

何时选择亚马逊 DataSync

问：Amazon DataSync 与使用 rsync 或 Amazon S3 命令行界面等命令行工具有何不同？

问：在存储桶之间传输对象时，何时使用 Amazon DataSync，何时使用 S3 复制，何时使用 S3 批量操作？

问：何时使用 Amazon DataSync？何时使用 Amazon Snowball？

问：何时使用 Amazon DataSync？何时使用 Amazon Transfer Family？

关于我们

产品与解决方案

资源与支持

管理账户