我们使用机器学习技术将英文博客翻译为简体中文。您可以点击导航栏中的“中文(简体)”切换到英文版本。
宣布推出简单数据库存档解决方案
今天,我们很高兴地宣布
SDAS 解决了许多 亚马逊云科技 客户面临的一个常见问题,即需要高效、安全地存档其数据库中的数据。许多组织都需要长期保留数据,而在本地存储这些数据可能既昂贵又复杂。此外,云的采用正变得越来越普遍,客户通常需要一种解决方案来轻松地将数据从其云托管数据库传输到云端进行长期存储。
SDAS 通过提供易于使用的开源工具来提供差异化解决方案,该工具可以直接部署到客户的 亚马逊云科技 账户中。使用 SDAS,客户可以快速轻松地映射其数据库架构、执行验证并将数据传输到亚马逊简单存储服务 (Amazon S3) 进行存储。这是使用亚马逊云科技 Step Functions、亚马逊云科技 Glue、Amazon S3和Amazon Athena来实现的,它们为数据传输提供了高度可扩展和可靠的解决方案。
通过其开源方法,SDAS 为客户提供了高度的灵活性,可以自定义和扩展解决方案以满足他们的独特需求。这种灵活性可确保解决方案能够适应任何组织的特定需求,无论其规模或行业如何。
什么是简单数据库存档解决方案 (SDAS)?
随着时间的推移,企业积累的数据越来越多,对有效的数据库存档解决方案的需求变得越来越重要,例如将较旧、很少使用的数据移至存档。企业可以缩小其活动数据库的大小,这可以提高性能并降低存储成本。存档还可以帮助组织满足数据保留方面的法律和监管要求,并确保必要时重要数据可供将来使用和发现。SDAS 开箱即用,提供以下关键功能:
- 支持甲骨文、MySQL 或微软 SQL 服务器
- 识别数据类型和表架构
- 存档过程完成后验证目标上的数据
- 配置 WORM(“一次写入多次读取”)
- 定义数据的数据保留期
- 提供有关数据状态的详细信息
- 执行各种数据验证和完整性检查
- 简化载入和存档数据库的操作
- 预览存档在亚马逊 S3 中的数据
SDAS 架构
SDAS 是一种解决方案,可为客户提供用于将数据库存档到 亚马逊云科技 的强大且可扩展的机制。SDAS 以直观的前端界面为核心,使用户能够轻松管理和配置档案。前端使用
Amazon Cognito 是一项完全托管的服务,提供用户身份验证和授权,使用户可以轻松地保护网络和移动应用程序的安全。它支持多种身份验证方法,包括Facebook、谷歌和亚马逊等社交身份提供商,以及通过 SAML 2.0 的企业身份提供商。使用 Cognito,用户可以轻松注册、登录和管理自己的个人资料和设置,而无需复杂的用户管理基础架构。
API Gateway 是一项完全托管的服务,为与 SDAS 的前端接口交互提供安全、可扩展和可靠的 API。它使用户能够轻松地将 SDAS 与其他 亚马逊云科技 服务或第三方应用程序集成,同时还提供身份验证和授权等功能。支持 Lambda 函数用于为用户操作提供无服务器计算资源,使 SDAS 能够轻松处理不同级别的流量和用户负载。最后,Amazon S3 用于存储前端构建文件,提供高度耐用且可扩展的对象存储服务,该服务经过优化,可与 亚马逊云科技 应用程序配合使用。
SDAS 平台还包括亚马逊 DynamoDB,它是档案元数据的主要存储机制。DynamoDB 提供了高度可扩展且耐用的 NoSQL 数据库,该数据库针对高容量工作负载进行了优化。此外,该解决方案利用 亚马逊云科技 Secrets Manager 来安全地存储密码和其他敏感信息。
数据存档使用 亚马逊云科技 Glue 执行,这是一项完全托管的 ETL 服务,使客户能够从各种来源提取、转换和加载数据。SDAS 包含预先构建的 Spark Python 脚本,这些脚本用于在将数据存档到亚马逊 S3 之前对其进行转换。存档的数据以 Parquet 文件格式存储,该格式针对查询性能和存储效率进行了优化。
最后,为了向用户提供一个用于查询存档数据的易于使用的界面,SDAS 利用 Amazon Athena。Athena 是一项无服务器查询服务,允许用户使用 SQL 查询存储在 S3 中的数据。通过使用 Athena,用户可以快速轻松地对其存档数据进行临时分析,而无需进行复杂的设置或维护。
总之,SDAS 为将数据库存档到 亚马逊云科技 提供了全面的解决方案,该解决方案利用多项关键 亚马逊云科技 服务来实现可靠性、可扩展性和安全性。该解决方案高度可定制,可以量身定制以满足个人客户的特定需求。凭借其直观的前端和强大的后端架构,SDAS 是希望简化数据存档到云端过程的组织的理想解决方案。
示例用例
一家医疗保健和生命科学公司需要停用 Microsoft SQL 数据库,因为该数据库与不再使用的传统应用程序相关联。该数据库包含公司需要保留的重要历史数据。维护数据库正常运行会产生大量成本,包括许可、维护和硬件费用,而且日常业务运营不再需要它。为了应对这一挑战,该公司决定停用微软 SQL 数据库并使用 SDAS 将其数据存档到 亚马逊云科技。
通过使用 SDAS 存档数据,公司可以利用更低的存储成本、更好的数据耐久性以及易于访问的分析和报告优势。该决定的业务影响包括:
节省成本: 停用 Microsoft SQL 数据库可减少与许可、维护和硬件相关的费用。这可以腾出资源,分配给更关键的业务计划。
简化的数据管理: 通过整合 Amazon S3 中的历史数据,该公司简化了其数据管理流程。这样可以更轻松地在需要时进行数据分析和生成报告,而无需管理传统数据库的复杂性。
安全性: 亚马逊云科技 提供高级安全功能,例如加密和访问控制,帮助公司保护其敏感的历史数据。
可扩展性: 随着公司的持续发展,Amazon S3 的可扩展存储解决方案使他们能够存储和管理越来越多的数据,而不必担心容量限制。
通过使用 SDAS 将 Microsoft SQL 数据库存档到 Amazon S3,这家医疗保健和生命科学公司可以有效地平衡保留重要历史数据的需求与优化运营成本和改善整体数据管理的愿望。
使用 SDAS 存档数据库的步骤:面向 亚马逊云科技 客户的全面解决方案
开始并探索
要开始存档过程,请收集基本的连接信息,包括数据库名称、数据库 URI 和证书。有了这些信息,SDAS 会尝试连接到数据库,如果成功,则继续执行下一步。在下一步中,SDAS 从要存档的目标数据库中收集表和关联架构。
图 1:连接到源数据库的 SDAS 的屏幕截图视图。
为了识别需要存档的数据,SDAS 使用一种技术来扫描与表相关的元数据。此过程旨在准确识别表的数据类型和架构,并确保数据在传输到 亚马逊云科技 之前经过正确格式和验证。该过程包括运行多个 SQL 查询来提取数据库架构定义,以允许 亚马逊云科技 Glue 读取并最终将数据写入 Amazon S3。
一旦确定了表的数据类型和架构,SDAS 就可以开始将数据传输到 亚马逊云科技 的过程。
图 2:SDAS 执行扫描和收集数据库架构定义的屏幕截图视图。
存档
SDAS 的存档阶段是将数据存档到 Amazon S3 过程中的关键步骤。SDAS 旨在自动存档来自 Oracle、微软 SQL 和 MySQL 数据库的数据,为客户提供灵活性和多功能性。存档过程可以手动触发,也可以根据定义的时间表自动触发,使客户能够根据自己的特定需求定制解决方案。
图 3:SDAS 启动存档过程的屏幕截图视图。
存档阶段的核心是 亚马逊云科技 Glue,这是一项完全托管的提取、转换和加载 (ETL) 服务,为将数据库从源复制到目标提供了灵活且可扩展的解决方案。SDAS 利用 亚马逊云科技 Glue 的力量对数据进行必要的转换,包括数据清理和架构转换,确保数据在传输到 Amazon S3 之前经过正确格式化和验证。
数据传输到 Amazon S3 后,将存储为 Parquet 文件,这是一种针对查询性能和存储效率进行了优化的列式存储格式。这使得存档数据易于查询,例如使用 Amazon Athena,这是一项无服务器查询服务,允许客户使用 SQL 查询存储在 S3 中的数据。通过利用 Amazon Athena 的强大功能,客户可以轻松地对其存档数据进行临时分析,无需复杂的设置或维护。
图 4:正在运行的 亚马逊云科技 Glue 任务的屏幕截图视图,该任务将数据从源文件复制到 Amazon S3。
数据验证
SDAS 的数据验证阶段是确保存档数据的准确性和完整性的关键步骤。存档过程完成后,SDAS 会自动触发验证过程,以确保数据已正确传输并存储在 Amazon S3 中。
验证过程首先使用校验和和数据采样等各种技术将源数据与存储在 Amazon S3 中的存档数据进行比较。此过程可确保数据已准确传输和存储,不会丢失或损坏数据。SDAS 不对源数据执行验证,仅对存储在 Amazon S3 中的数据进行验证。
如果检测到任何差异,SDAS 将使您能够识别受影响的表。除了确保存档数据的准确性外,SDAS 还提供安全功能,以防止未经授权访问或修改数据。密码存储在 亚马逊云科技 Secrets Manager 中,它为存储和管理秘密(例如数据库密码)提供了一种高度安全的机制。
图 5:对目标数据执行的验证过程的屏幕截图。
访问存档数据库
对 SDAS 中存档数据库的访问仅限于有权通过 Amazon Athena 控制台访问这些数据库的授权用户。要使用商业智能工具浏览和可视化数据,用户可以下载、安装和配置 ODBC(开放数据库连接)或 JDBC(Java 数据库连接)驱动程序以连接到 Amazon Athena。
SDAS 还包括通过控制台预览模式,该模式使用户无需其他驱动程序或工具即可快速查看已存档的数据库。这种预览模式为用户提供了一种快速简便的方法来评估存档数据的质量和完整性,然后再进行进一步的分析或查询。
图 6:SDAS 中数据预览功能的屏幕截图
物体锁
SDAS 包含一项强大的功能,使用户能够启用 Amazon S3 对象锁定,该功能允许使用 WORM(一次写入,多次读取)模型存储对象。此功能专为在写入数据后不修改或删除数据至关重要的场景而设计。
通过启用 Amazon S3 对象锁定,用户可以确保其存档数据受到全面保护,免遭意外或恶意删除或修改。此功能提供了强大的安全层,有助于防止数据丢失或损坏,确保存档数据保持完整和准确,以备将来分析和查询。
图 7:对象锁定功能的屏幕截图
试一试 SDAS!
1。在您的 亚马逊云科技 账户 中安装
2。请通过我们的 GitHub 页面向我们发送任何问题、改进或建议。
3。为了帮助您入门,我们还发布了一个
结论
简单数据库存档解决方案 (SDAS) 为组织提供了全面的开源解决方案,用于归档各种类型的数据库,包括甲骨文、微软 SQL 和 MySQL。借助 SDAS,企业可以轻松且经济高效地将其数据存档、验证并安全地存储在 Amazon S3 中。SDAS 还为用户提供了访问和分析其存档数据的各种选项,使其成为数据分析和报告的宝贵工具。
还要感谢罗希特·贾格蒂亚、乔·坎贾洛西、詹姆斯·盖恩斯和杜弗尼·塔瓦雷斯为这个解决方案所做的工作。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。