云数据库技术文章 - 亚马逊云科技中国官网

如何在 Neptune 与 Amazon Redshift 之间架起桥梁「云数据库」

发布于: Feb 8, 2022

图数据库 ETL 过程

阅读更多 »

如何运用“云财务管理”杠杆，撬动您的商业世界「云数据库」

发布于: Jan 30, 2022

如果您已经是 Amazon Web Services 中国区域的客户，请立即登录至 Amazon Web Services 计费控制台并启用这些成本管理服务。

阅读更多 »

数据总量的不断增长，使得负责为客户提供战略解决方案的企业面临日益严峻的业务挑战。好消息是，随着云端新型数据库技术的兴起，种种创新型方法的出现令这些挑战变得更易于解决。数据仓库已经成为分析团队高度关注的一种流行选项；除此之外，开发人员也希望寻求更多替代性方法，使用更加多样化的技术改变组织内商务智能的运作方式。对于希望转换自身分析平台的企业而言，图形数据库无疑是个理想的选择。得益于 Amazon Neptune 的有力支持，Thermo Fisher Scientific 公司团队利用数据仓库平台构建起一套图数据库，其中囊括可用于支持组织内整体商务智能分析功能的强大工具。

Thermo Fisher Scientific 公司是一家生命科学企业，致力于为科学研究、开发与制造需求提供广泛支持，旨在让整个世界更加健康、清洁与安全。Thermo Fisher Scientific 商业团队是一个高度面向分析的业务部门，致力于构建创新型应用程序以改善组织内部的业务运营方式，借此与需要关键任务产品的大型科学客户群体建立起密切联系。作为全球创新团队的一部分，我们使用 Neptune 构建知识图谱，借此支持工程师、分析师与数据科学家的应用程序开发流程，进而推动自身业务的全面发展。我们使用这套知识图谱为前线业务人员构建了推荐系统，根据相似客户行为向客户提供产品建议。我们的业务团队使用这套推荐系统在适当时机为客户提供满足客户需求的产品。在本文中，我们将重要介绍 Thermo 如何立足现有 Amazon Web Services 数据仓库生态系统构建起 Neptune 知识图谱，以及如何将战略关系整合至知识图谱内以将其拓展为一套强大的推荐系统。

阅读更多 »

亚马逊云科技 Analytics 在数据管理上的优越性「云数据库」

发布于: Jan 30, 2022

无缝数据移动

阅读更多 »

云财务管理开启企业管理新格局「云数据库」

发布于: Jan 30, 2022

“给我杠杆和支点，我能撬起整个地球。” –阿基米德

451 Research 公司在其发布的白皮书《云财务管理——微小变化产生的巨大影响》（Cloud Financial Management, Small Changes Can Make Big Impacts，2020年 4 月）中强调了正确采用云财务管理（CFM）杠杆的组织，将如何极大拓展自身运营绩效的下限与上限。很多朋友可能还不太熟悉 Cloud Financial Management (CFM)概念——这是一套框架，用于共享云支出管理及优化层面的各类工具、技能集，以及与执行流程相关的最佳实践、功能与指南。

阅读更多 »

如何搭建一个简单的 Amazon Glue ETL 抽取数据工具「云数据库」

发布于: Oct 10, 2022

我创建的 Amazon Glue ETL 抽取数据工具作业脚本接受 DynamoDB 表名、读取吞吐量、导出文件名和格式作为参数。Amazon Glue 在后台扫描 DynamoDB 表。Amazon Glue 确保每个顶级属性都会被置于架构中，不管属性有多稀疏（详见 DynamoDB 文档）。

脚本如下：

阅读更多 »

Amazon Web Service上的Lake House架构的初步认识「云数据库」

发布于: Jul 9, 2021

Lake House 架构的基本思路，认为任何一种号称“万能”的分析方法终会带来与预期相冲突的妥协。换言之，我们不是简单粗暴地将数据湖与数据仓库集成起来，而是把数据湖，数据仓库，以及其他一些专门构建（purpose-built）的数据存储方案集成起来，赋予统一管理与轻松灵活的数据移动。下图所示，为 Amazon Web Service 上的 Lake House 架构

阅读更多 »

如何利用存储过程将数据库迁移上云？「云数据库」

发布于: Oct 30, 2022

数据库迁移上云这项技术已经十分成熟，然而不少客户又提出了新的要求。Amazon 始终以满足客户需求为工作重点。客户强烈要求希望能在 Amazon Redshift 中使用存储过程，以便更轻松地从原有的本地数据仓库迁移现有工作负载。
为实现这一主要目标，Amazon Web Services 选择实施了 PL/pqSQL 存储过程以最大程度地兼容现有的程序并简化迁移。在本博文中，我们将讨论如何以及在什么情况下可以使用存储过程提高操作效率和安全性。此外，还会说明如何通过 Amazon Schema Conversion Tool 使用存储过程。

阅读更多 »

数据库迁移怎么操作：Amazon MySQL RDS 迁移到 Amazon Aurora「云数据库」

发布于: Nov 30, 2022

【概要】数据库迁移怎么操作？随着 Amazon Aurora 数据库越来越受到客户的认可，不少人都有这样的疑问，如何将数据迁移至 Amazon Aurora，今天我们就来介绍两种最常见最简单的迁移场景及操作。

阅读更多 »

云数据库管理之数据删除的实现与技术替代方案「云数据库」

发布于: Aug 9, 2022

在云数据库管理方面，我们探索并评估了多种实现方案，意识到不同的方案各有所长、也都在某些方面有所妥协，包括实现方式的简单性、执行效率、关键数据合规性以及功能完整性等等：

扫描数据文件中的每条记录以创建索引 — 每次上传文件时，我们都会遍历其记录并生成元组（包含 userid, s3Uri, row_number），而后将其插入至我们的元数据存储层内。在删除请求时，我们将获取所请求的用户 ID 的元数据记录，下载相应的 S3 对象，就地执行删除，而后重新上传经过更新的对象以覆盖现有对象。这是最为灵活的实现方法，因为其支持通过单一对象存储多个用户的数据，也成为目前最为常见的普遍实现方法。但灵活性也有其代价，由于过程中需要下载并重新上传对象，因此删除操作往往会带来网络瓶颈。用户活动数据集（例如客户产品评论）就特别适合使用此种方法，因为各个分区（例如日期分区）中几乎很少出现同一用户发布多条记录的情况，且最好是将多个用户的活动合并到单一文件当中。
将元数据存储为文件名前缀 — 在按查询模式定义的不同分区之下，将用户 ID 设定为上传对象的名称前缀，能够帮助我们减少删除请求所需要的搜索操作。元数据处理实用程序能够从文件名中直接查找用户 ID，并相应执行索引维护操作。这种方法能够带来极高的资源清除效率，但每个对象只能对应一个用户，且要求我们将用户 ID 存储在文件名当中，这有可能与信息安全要求相违背。这套方案特别适合管理点击流数据，在此类数据流中，会话期间单一日期分区上的单一用户将产生多个点击事件。
使用元数据文件 — 除了上传新对象之外，我们还可以上传可供索引工具使用的元数据文件，借此创建并维护最新索引。根据删除请求，我们可以查询索引、借此将我们指向需要清除的记录位置。此方法最适合在上传新对象时，同步上传对应元数据文件的情况（例如上传多媒体数据）。在其他场景下，在每一次上传对象时都同时上传元数据文件，可能给资源容量带来沉重压力。
使用亚马逊云科技服务的标签功能 — 每当有新文件被上传至 Amazon S3 时，我们都会使用 Put Object Tagging Amazon S3 操作为用户标识添加键值对。而每当出现用户数据删除请求时，即可使用该标签获取对象并将其删除。使用现有 Amazon S3 API 即可轻松实现这套方案，整个过程相当轻松易行。但这套方案也面临着诸多限制，其假定 Amazon S3 对象与用户之间始终为 1：1 的关系（每个对象仅包含单一用户的数据）；此外，基于标签进行对象搜索的方法效率不高，且将用户标识存储为标签形式的作法也可能有违组织内的信息安全要求。
使用 Apache Hudi — Apache Hudi 已经成为 Amazon S3 之上实现记录层级数据删除功能的一种非常流行的选择。Hudi 的最新版本仅限于 Amazon EMR 使用，因此只适合从零开始构建数据湖的用户，即要求您在创建过程中将数据存储为Hudi数据集形式。Hudi 项目本身相当活跃，预计其后续还将迎来更多功能，并与更多亚马逊云科技服务实现集成。

阅读更多 »

亚马逊不断升级云数据库技术，以客户至上「云数据库」

发布于: Aug 9, 2022

在 Amazon 集团内部也充分利用云数据库技术，Amazon 消费者业务部门通过 Amazon DMS 以及 Amazon Schema Conversion Tool (SCT)完成了大规模数据库迁移。Amazon消费者业务部门将高达75 PB的内部数据从近 7500 个 Oracle 数据库迁移到多个亚马逊云科技数据库服务，这些服务包括 DyanmoDB、Aurora、Amazon RDS 以及 Amazon Redshift 等等。这些迁移几乎都不需要有停机时间，并且涵盖了100% 的 Amazon 的内部专有系统。即使由于 Oracle 数据库的大规模使用已经获得了深度折扣低价，通过这次迁移，Amazon 还是将数据库的使用成本降低超过 60%，并依靠亚马逊云科技云端托管服务能力将数据库管理开销降低达 70%。此外，Amazon 还借此获得了显著的性能提升。比如，迁移之后面向消费者的应用程序的等待时长缩短达40%。如果需要了解本次迁移的更多详细信息，请参阅 Jeff Barr 于 2019 年发布的《迁移完成——Amazon 消费者业务已经关闭最后一套 Oracle数据库》博文，其中探讨了 Alexa, AmazonPrime, Amazon Prime Video, Amazon Fresh, Kindle, Amazon Music, Audible, Shopbop, Twitch, Zappos和其他 Amazon 团队在该项目中取得的巨大成功。

这些结果反映了我们客户至尚企业精神的实际行动。在亚马逊云科技，我们充分听取客户的反馈意见，并将其视为判断客户是否成功的重要指标。简单摆脱旧有“枷锁”的限制并不是新客户的唯一诉求。我听说过在Redmond,有激进的客户在 1995 年就希望摆脱 Oracle 数据库的限制，于是十年后开始使用 SQL Server 数据库。尽管在当时迁移到 SQL Server 数据库是一个可喜的进步，但如今继续使用 SQL Server 依然存在旧有“枷锁”对业务和技术的限制。正因为如此，客户才希望亚马逊云科技能够帮助他们像当年摆脱 Oracle 那样从 SQL Server 的束缚中解放出来。

亚马逊云科技充分考虑到客户需求，并将其转化为由功能强大的数据库和分析服务，以及更好迁移技术所建立的更广泛、更深入的产品组合。但是我们并没有止步于已有的服务和技术，我们还意识到客户需要一些活动计划来补充技术，以帮助其顺利迁移到亚马逊数据库。我们的 Database Freedom（数据库自由）计划相当于一个总体纲领，利用多个亚马逊云科技活动及多支团队帮助客户完成迁移。亚马逊云科技 Immersion Days 计划为客户提供最适合他们需求的亚马逊云服务的动手实践经验；亚马逊云科技技术研讨会计划负责与客户展开深入探讨，了解他们迁移可能涉及的源和目标系统与服务；亚马逊云科技数据实验室，用于加速客户同亚马逊云科技之间的工作合作；Amazon Database Migration Accelerator (DMA)，引入亚马逊云科技专家团队以帮助客户完成由传统商业数据库向云的迁移。这一切都是对亚马逊云科技 Migration Acceleration Program (MAP)的重要补充，客户可以借此完成各类大规模迁移，并全程获得亚马逊云科技解决方案架构师、专业服务团队以及合作伙伴计划的有力协助。

我们对客户的发展进步感到振奋，也将此视为我们不断前进的动力。我们也期待看到未来会有更多客户不断将自身业务迁移至亚马逊云科技数据库。随着一年一度 re: Invent 大会的来临，更多相关消息也将陆续发布。

阅读更多 »

Amazon Redshift 云数据库升级：十大性能调优概况「云数据库」

发布于: Jun 28, 2022

近期，Amazon Redshift 云数据库升级业已完成。在 Amazon Redshift 的协助下，客户得以顺利完成一系列业务目标，例如从加速现有数据库环境，到提取网络日志以进行大数据分析等等。Amazon Redshift 是一套全托管 PB 级大规模并行数据仓库，拥有极低的上手难度与出色的性能表现。Amazon Redshift还提供开放的标准 JDBC/ODBC 驱动程序接口，供您直接对接现有商业智能（BI）工具并复用现有分析查询方法。

Amazon Redshift 能够运行任意类型的数据模型，涵盖生产事务处理系统第三范式模型、星型与雪花型模型、数据仓库以及各类简单的平面表等。

本文将向大家介绍如何在应用 Amazon Redshift 过程中实现性能优化，并针对各类优化方式做出深入剖析及操作指导。

阅读更多 »

如何在线将数据迁移上云分步教程「云数据库」

发布于: Nov 30, 2022

【概要】在数据全部加载完成且 CDC 流程开始持续复制之后，您就可以变更应用程序中的数据库连接字符串以实际使用新的 Amazon DocumentDB 集群了

阅读更多 »

Amazon Web Services云数据库有哪些？应用实例及其介绍「云数据库」

发布于: May 19, 2021

云数据库有哪些？下面，我们通过一个案例来介绍这些面向不同场景的数据库：我们在下图展示了一个在线书店的演示应用，它包括了一些最基本的功能，比如产品目录、产品搜索、畅销书列表和社交推荐。

阅读更多 »

高性能、高可用数据库缓存方案——DynamoDB Accelerator（DAX）「云数据库」

发布于: Oct 14, 2022

数据库缓存一直是众多技术人员探寻的方向，传统的缓存场景通常是进行旁路的部署，需要考虑使用新的 API 接口、大量的应用修改，以及需要管理缓存的伸缩性和高可用等方面。用户的应用开发和运维管理工作的压力很大，因此一直期望有一个高性能、高可用并且简单易用的方案来做数据库的缓存。

阅读更多 »

如何在线数据迁移至 Amazon DocumentDB 平台中「云数据库」

发布于: Nov 30, 2022

【概要】本文将探讨如何利用在线数据迁移技术，将数据迁移至 Amazon DocumentDB 中。

阅读更多 »

如何设计一套完整的数据库迁移方案？「云数据库」

发布于: Oct 30, 2022

如何设计一套完整的数据库迁移方案？我们可以考虑借助 Amazon 的帮助。Amazon 构建并运营了数千种微服务，为数百万客户提供服务。这些服务包括目录浏览、下单、交易处理、交付计划、视频服务和 Prime 注册。每项服务均向 Amazon 分析基础设施发布数据集，包括超过 50 PB 的数据和 75,000 个数据表，每天处理 600,000 次用户分析作业。发布数据的团队超过 1,800 个，并有超过 3,300 个数据使用者团队分析这些数据，以生成见解、发现机会、制作报告和评估业务绩效。

支持该系统的本地 Oracle 数据库基础设施无法处理 PB 级的数据，以致其生成的单一解决方案由于在功能和财务方面缺少分离而导致难以维护和操作。从操作角度来说，超过 1 亿行的数据表转换往往会失败。这就限制了业务团队生成见解或部署大规模机器学习解决方案的能力。很多用户放弃了单一的 Oracle 数据仓库，转而采用利用 Amazon Web Services 技术的定制解决方案。

Oracle 数据仓库的数据库管理复杂、昂贵且容易出错，每个月都需要工程师花费数百小时进行软件升级、跨多个 Oracle 集群复制数据、修补操作系统和监控性能。低效的硬件配置需要投入大量工作来预测需求和规划容量。由于 Oracle 许可成本不断增加，其经济效率也很低下，无法满足峰值负载的静态大小，并且缺乏为成本优化而动态扩展硬件的能力。

Amazon 遵循四条原则：客户至上而非只关注竞争对手、对发明创造充满热情、致力于卓越运营以及长远思考。客户评论、一键购物、个性化推荐、Prime，Fulfillment by Amazon、Amazon Web Services、Kindle Direct Publishing、Kindle、Fire 平板电脑、Fire TV、Amazon Echo 和 Alexa 是亚马逊首创的几款产品和服务。

阅读更多 »

如何通过 Amazon Glue 爬网程序和 Amazon Glue ETL 作业原生读取 DynamoDB 表中数据的功能「云数据库」

发布于: Oct 30, 2022

不愧是 Amazon Web Services 的做派，我在 Amazon Web Services 大数据博客上发表 How Goodreads offloads Amazon DynamoDB tables to Amazon S3 and queries them using Amazon Athena 之后不到一周， Amazon Glue 团队就发布了通过 Amazon Glue 爬网程序和 Amazon Glue ETL 作业原生读取 DynamoDB 表中数据的功能。我对此兴奋不已。代码越少意味着缺陷更少。最初的架构已经存在了至少 18 个月，只需稍加改进即可实现大幅简化。

阅读更多 »

手把手教你如何通过无服务器架构实现数据可视化和数据分析「云数据库」

发布于: Nov 30, 2022

【概要】本文将用一个实例来介绍如何借助无服务器架构来实现 Amazon Neptune 图数据库的数据可视化和数据分析。

阅读更多 »

如何使用 Amazon Web Services Glue 编写 ETL 作业进行数据监视和通知「云数据库」

发布于: Aug 22, 2022

本文将介绍如何使用 Amazon Web Services Glue 编写 ETL 作业进行数据监视和通知。

Amazon Web Services Glue 提供托管的 Apache Spark 环境来运行 ETL 作业，无需利用按需付费模式来维护任何基础设施。

打开 Amazon Web Services Glue 控制台，然后选择 ETL 部分下的作业来开始编写 Amazon Web Services Glue ETL 作业。为作业指定您选择的名称并记下该名称，因为稍后您将需要使用该名称。选择已创建的 IAM 角色（名称中包含 – GlueLabRole），如下所示。保留其他默认选项。

Amazon Web Services Glue 会生成所需的 Python 或 Scala 代码，您可以按照自己的数据转换需求来自定义这些代码。在高级属性部分中，选择作业书签列表中的启用，以免重复处理旧数据。

阅读更多 »

如何将Amazon Aurora与Amazon RDS数据库迁移至Graviton2「云数据库」

发布于: Oct 30, 2022

Amazon RDS 数据库迁移有必要吗？众所周知 Amazon Relational Database Service (Amazon RDS) 与 Amazon Aurora 支持多种实例类型，可根据您的实际需求扩展数据库工作网域（请分别参见 Amazon RDS 数据库实例类与 Aurora 数据库实例类）。2020 年，亚马逊云科技公布面向 Amazon RDS 的全新 M6g 及 R6g 实例类型，又于日前宣布正式推出搭载 Amazon Graviton2 处理器的 Aurora R6g 实例类型。值得一提的是，这种全新实例类型拥有远超 x86 同类产品的性价比。

Graviton2 处理器由 Amazon Web Services 使用 64 位 ARM Neoverse 核心定制构建而成，相较于第一代 Amazon Gravtion 处理器做出了多项优化。您可以通过 Amazon RDS 控制台或 Amazon Web Services 命令行界面（Amazon CLI）启动新的 Graviton2 M6g 与 R6g 数据库实例，并以最小停机时间将多可用区数据库迁移至 Gravtion2 实例，尽可能避免因迁移造成的 I/O 冻结影响到正常服务。

在本文中，我们将共同了解将现有 RDS 与 Aurora 数据库实例转为 Graviton2 实例类时的重要注意事项，包括应配合哪些先决条件及具体策略以尽量缩短停机时间。

阅读更多 »

利用 Amazon Web Services Lake Formation 构建基于数据湖的数据信息管理平台「云数据库」

发布于: Aug 26, 2022

为了使用户能够轻松找到相关和受信任的数据，必须在数据湖目录中清楚地标记数据。还需要让用户可以在不需要请求 IT 部门帮助的情况下即可访问和分析这些数据

阅读更多 »

针对 Amazon Aurora 云数据库优化以提高其利用效率「云数据库」

发布于: Nov 30, 2022

【概要】云数据库优化包含针对大型表以及大量表的优化，以及在资源利用率的提高，本文将着重介绍两种优化过程及影响。

阅读更多 »

如何利用 Amazon Web Services CloudFormation 在 Amazon EMR 中快速使用 JuiceFS

发布于: Oct 14, 2022

Github 源代码

阅读更多 »

开发应用程序迁移方法以使用 Amazon Redshift 使您的数据仓库现代化

发布于: Mar 22, 2022

应用程序迁移是不少拥有庞大数据库的企业所面临的难题。时至今日，各类组织都面对着前所未有的数据量增长与数据复杂性提升。但是，如此宝贵的资产中只有一小部分可被实际用于分析。传统的本地 MPP 数据仓库（例如 Teradata、IBM Netezza、Greenplum 以及 Vertica 等）都采用严格的架构设定，无法适应现代大数据分析用例。这类传统数据仓库的部署与运营成本也更高，需要在软件及硬件层面进行大量前期投资。另外，它们也无法支持需要高级机器学习与个性化体验的现代用例，例如实时或预测式分析与应用程序。

Amazon Redshift 是一项快速、全托管、云原生且极具成本效益的数据仓库，能够将您的分析管道从这些限制中解放出来。大家可以在您的 Amazon Redshift 集群当中面向 PB 级别的庞大数据执行查询，甚至可以直接对接数据湖中高达EB级别的数据集合。大家还可以在几分钟之内建立一套云数据仓库，每小时起步使用成本仅为 0.25 美元，而后以每 TB 每年 1000 美元的低廉价格将数据体量扩展至 PB 水平——这一成本甚至不足其他竞争对手解决方案的十分之一。

面对当前数以万计的全球部署与快速增长，Amazon Redshift 也迎来了无数希望从传统 MPP 数据仓库迁移至这一新型云端数据仓库解决方案的客户，以及由他们带来的巨大需求。亚马逊云科技 Schema Conversion Tool (SCT) 能够自动将源数据库 schema 与大多数数据库代码对象（包括视图、存储过程与函数）转换为 Amazon Redshift 中的等效功能，极大提升此类 MPP 迁移效果的可预测性。SCT 还可以使用内置数据迁移代理，帮助客户将数据从多个数据仓库处统一迁移至 Amazon Redshift。

大规模 MPP 数据仓库迁移不仅伴随着极高的项目复杂性，同时也在资源、时间与成本方面带来一系列风险挑战。但通过以主题及对象层级为基础的数据仓库迁移路线图，大家可以极大降低陈旧数据仓库与工作负载迁移所带来的复杂度水平。

亚马逊云科技 Professional Services 结合我们过去几年中参与的一系列大型 MPP 数据仓库迁移项目，设计并开发出这款工具。相关方法充分汲取来自 ETL 与报告工作负载中的分析经验，全面考量其间涉及的高复杂度依赖关系。以多个维度为基础，其将复杂的数据仓库迁移项目拆分成多个逻辑与系统波次，包括业务优先级、数据依赖关系、工作负载概况以及现有服务水平协议（SLA）等。

阅读更多 »

Amazon DynamoDB 表的跨区域复制实践 — 以北京至宁夏为例

发布于: Jun 17, 2022

Amazon Web Services 在中国境内有两个区，分别是北京区域和宁夏区域。假定复制路径是从北京到宁夏，那么根据复制应用所处区的不同，至少有三种配置方式，罗列如下：

阅读更多 »

在Oracle数据库备份数据存储方案中应考虑的因素「云数据库」

发布于: Aug 19, 2022

数据灾难时有发生，我们必须要防患于未然，那么在建立备份数据存储方案的时候我们需要考虑哪些因素？

阅读更多 »

如何实现Amazon Neptune图数据库数据可视化分析「云数据库」

发布于: Oct 30, 2022

如何实现 Amazon Neptune 图数据库数据可视化分析？Amazon Neptune 图数据库自从 2018 年 5 月 30 日正式推出以来，已经一年有余,现已经扩展到全球 12 个区域，同时具有高可用性，并提供只读副本、时间点恢复、到 Amazon S3 的持续备份以及跨可用区的复制，最近新增数据库克隆功能，可以快速而经济高效地创建 Neptune 数据库集群的克隆，特别是在不影响生产环境的前提下，首次创建时只需要很少的额外空间。

Amazon Neptune 是一项快速、可靠且完全托管的图形数据库服务，可帮助用户轻松构建和运行使用高度关联数据集的应用程序。Amazon Neptune 的核心是专门构建的高性能图数据库引擎，它进行了优化以存储数十亿个关系并将图查询延迟降低到毫秒级。 Amazon Neptune 支持常见的图模型 Property Graph 和 W3C 的 RDF 及其关联的查询语言 Apache TinkerPop Gremlin 3.4.1 和 SPARQL 1.1，Neptune 支持大多数图的应用场景，例如社交网络、推荐引擎、欺诈检测、知识图谱、生命科学以及网络 /IT 运营。

目前，官方并未提供前端展现工具或服务，来实现对 Neptune 图数据库数据分析的可视化，下面我们将结合基于浏览器的 VIS.js 动态可视化库，通过 Serverless 方式，采用 Amazon S3 静态网站托管与 Amazon API Gateway、Amazon Lambda 服务，来实现对 Neptune 图数据库数据分析的可视化。

阅读更多 »

哪个云数据库好？看看Amazon Aurora Global Database「云数据库」

发布于: Aug 19, 2022

说到哪个云数据库好，Amazon新推出了一项服务：Aurora Global Database。

Aurora Global Database 能够提供以下几项重要助益：

快速实现指向次区域的全局故障转移
带来更低的跨区域复制延迟
几乎不会对数据库性能造成影响
兼容 MySQL

阅读更多 »

如何创建全自动 ETL 管道来转换数据

发布于: Oct 14, 2022

创建全自动ETL管道的需求越来越大。如今，海量数据从四面八方纷涌而来，比如来自 IoT 传感器、应用程序日志和点击流等资源的非结构化数据，以及来自事务处理应用程序、关系数据库和电子表格的结构化数据。数据已成为每家企业的重要组成部分。为了快速获取数据中的价值，保持单一事实来源（single source of truth），并且自动执行从数据提取到转换和分析的整个 pipeline 的需求应运而生。
随着数据的体量、处理速度和种类的增加，人们越来越关注数据分析的复杂性。数据要经过一些步骤的处理才能变为可供企业用户使用的状态，而这些步骤的数量和复杂性对于企业来说是一种担忧。数据工程团队的大部分时间常常用来构建和优化“提取、转换和加载”(ETL) 管道。自动执行整个流程能缩短实现价值的时间和降低运营成本。在这篇博文中，我们将介绍如何创建全自动的数据编目和 ETL 管道来转换数据。

阅读更多 »

云数据库的搭建：表设计最佳实践「云数据库」

发布于: Aug 9, 2022

Amazon Redshift 云数据库的搭建会牵扯到表分配方式以及排序键的选择，尤其是分配方式的不可变性，要求我们必须慎之又慎，本文将会为您介绍两种设计的最佳实践方案。

阅读更多 »

工业物联网应用领域——车辆的监测「云数据库」

发布于: Oct 14, 2022

在工业物联网应用领域中，常常会产生大量的带时间标签的数据，被称为时间序列数据。这些数据的典型特点为：产生频率快（每一个监测点一秒钟内可产生多条数据）、严重依赖于采集时间（每一条数据均要求对应唯一的时间）、测点多信息量大（实时监测系统有成千上万的监测点，监测点每秒钟都产生数据，每天轻松产生几十 GB 甚至更多的数据量）。例如，生产制造、电力、化工等行业，需要实时监测，检查并分析海量设备所采集和产生的数据；车联网以及电动汽车也会产生海量数据用于行车安全监控，车辆设备状态监控；互联网应用运行状况的监控、实时点击流数据的收集以及分析等等。

时间序列数据的这些特点，使得传统的关系型数据库无法提供高效存储、快速扩展以及快速处理的能力。时间序列数据库因此应运而生，它采用特殊的存储方式，专门针对时间序列化数据做了优化，极大提高了时间相关数据的处理能力，相对于关系型数据库，它的存储空间减半，查询速度得到显著提高。

Amazon Timestream 是一种快速、可扩展的全托管、无服务器时间序列数据库服务，借助 Timestream，您可以每天轻松存储和分析数万亿个事件。其主要优势为：

高性能、低成本：相比传统关系型数据库，其速度提升了 1000 倍，而成本仅为十分之一。
无服务器：自动缩放以调整容量和性能，使得您只需要专注于应用程序的构建，而无需管理底层基础设施。
生命周期管理：根据您预先设置好的生命周期策略，Timestream 可以自动实现将近期数据保留在内存层，而将历史数据移动到成本优化的磁性存储层，帮助您节省管理时序数据库的时间以及成本。
简单高效查询：无需在查询中显式指定数据是保存在内存中还是成本优化层中，Timestream的查询引擎可用于统一的访问和分析近期数据和历史数据。

此文将利用一个车联网行车监控上报时序数据的模型，探讨 Amazon Timestream 如何通过流式方法注入行车数据以及在不同数据量下的的扩展性以及查询性能表现。结构上分为数据模型、Amazon Timestream 端到端测试、性能表现三个部分，如果希望直接看性能评测结果，可以直接跳到性能表现当中查看结论。

阅读更多 »

Aurora, Mysql, Redshift 性能上的对比：云数据库的优点「云数据库」

发布于: Jul 22, 2022

Aurora/Mysql/Redshift 这三款产品如何选择，来满足自己的业务需求呢？接下来我们会从技术和成本方面详细分析。

阅读更多 »

自建 MySQL 数据库迁移工具及具体操作「云数据库」

发布于: Nov 30, 2022

【概要】MySQL 数据库迁移工具在自建 mysql 数据库的迁移中起到至关重要的作用，与基于Amazon MySQL RDS 的数据库迁移不同，自建数据库的迁移步骤更为繁琐，本文将会为您介绍几种场景的迁移及方式。

阅读更多 »

手把手教你如何使用 PartiQL 语言查询数据「云数据库」

发布于: Nov 30, 2022

【概要】PartiQL 开源实现提供交互式 shell（或 Read Evaluate Print Loop (REPL)），可使用户写入和评估 PartiQL 查询

阅读更多 »

数据对决策的影响「云数据库」

发布于: Jul 5, 2021

2020年的种种变化，让我们再次意识到敏捷性的重要意义。随着新冠疫情的全面爆发，我们接触到的每家客户都着手推进自己的应对之策。部分公司决定努力提高运营效率，有些企业甚至在疫情期间获得了可观的业务增长。总体而言，我们发现组织在面对严峻变化时，普遍希望借助数据的力量快速做出良好决策。要获得这样的敏捷性优势，他们需要需要利用大数据技术(了解什么是大数据)，将TB、PB甚至是EB级别的数据集成起来，借此建立起覆盖客户及业务运营体系的完整视图。传统的本地数据分析解决方案显然无法支撑起如此庞大的处理规模，为了突破扩展性与资源成本的桎梏，各组织开始更积极地推动云迁移，由此迈出数据与分析基础设施现代化的前进脚步。

阅读更多 »

DAX 的使用场景及应用测试「云数据库」

发布于: Jul 22, 2022

从应用配置和使用的角度来看，采用 DAX 做数据库缓存方案非常简单方便，无需应用做修改，只要在应用执行时加上 DAX 的终端节点，就可以立刻获得极大的性能提升

阅读更多 »

如何利用 Amazon DynamoDB 流对 Amazon DynamoDB 表进行数据跨区域复制

发布于: Oct 28, 2022

在许多应用场景以及客户具体实践中，对数据跨区复制的需求是旺盛和迫切的，本文将介绍如何利用 Amazon DynamoDB 流进行跨区域复制。Amazon DynamoDB 流（以下简称流）是 Amazon DynamoDB 表（以下简称表）项目变更信息的有序记录。一条流记录则包含表的单个项目的数据变更信息。流是表的附加特性，可以开启和关闭。开启后，流会按序捕获表数据项的每一次变更。变更信息会储存在日志中最多二十四小时。对于每一次变更，都可以近乎实时地知晓变更前后的新旧数据内容。流有以下两个基本特性：

每条流记录在流中出现且仅出现一次；
对表项目的每一次变更，其对应的流记录出现的顺序与实际变更顺序一致。

阅读更多 »

数据转移中数据自动化监控需要创建的 CloudWatch 告警「云数据库」

发布于: Nov 30, 2022

【概要】如何在数据库迁移时创建 CloudWatch 告警实现数据自动化监控呢？本文将会为你介绍所需设立的一些告警。在后面的文章中再详细介绍项目方案。

阅读更多 »

OpenStreetMap 可以回答哪些类型的问题？——利用 Athena 使云数据可视化「云数据库」

发布于: Jul 29, 2022

Amazon Athena 与每周更新的 ORC 版本的“星球”文件结合，将是一个极为强大和高性价比的组合。任何人都可立即通过简单的 SQL 查询数十亿条记录，让您有机会专注于分析，而不是基础设施

阅读更多 »

如何进行数据库调优以整合其工作负载「云数据库」

发布于: Oct 30, 2022

对于希望进行数据库调优、整合数据库工作负载的客户而言，兼容 MySQL 的 Amazon Aurora 是热门选择。Aurora MySQL 是关系数据库引擎，它兼具高端商业数据库的速度和可靠性与开源数据库的简便性和高成本效益。它的吞吐量还可达到标准 MySQL 社区版本的五倍。在这篇博文中，我提供了一些意见，希望能够帮助您针对大型整合数据库工作负载优化 Amazon Aurora。我还回答了一些常见问题，例如“我可以整合的大小是多少？”和“我的数据集可以到多大？” 虽然这些问题很简单，但回答起来并不总是很容易。答案在很大程度上由数据集和工作负载模式决定。

阅读更多 »

如何保证云存储的安全性的同时减小工作负载

发布于: Oct 20, 2022

云存储的安全性一直是客户关注的重点，在您已了解如何创建和调用存储过程后，接下来将向您介绍有关安全性的更多信息。创建存储过程时，您作为存储过程的拥有者（创建者），是唯一能调用或执行该过程的角色。您可以将 EXECUTE 权限授予其他用户或组，使他们能够执行该存储过程。获得 EXECUTE 权限并不意味着调用者自动可以访问存储过程中引用的所有数据库对象（表、视图等）。
以用户张三创建的过程 sp_insert_customers 为例。该过程包含 INSERT 语句，该语句写入到张三为拥有者的表客户。如果张三向用户李四授予 EXECUTE 权限，李四也无法对表客户执行 INSERT 操作，除非张三明确向李四授予客户的 INSERT 权限。
但是，有时可以允许李四调用存储过程，但不授予他客户的 INSERT 权限。为此，张三需要在创建该过程时将 SECURITY 属性设置为 DEFINER，然后授予李四 EXECUTE 权限。如此一来，当李四调用 sp_insert_customers 时，存储过程将以张三的权限执行该操作，并且无需该表的 INSERT 权限，李四就可以向客户中插入内容。
如果在创建存储过程时未指定安全属性，默认情况下该属性的值会设置为 INVOKER。这意味着存储过程会以过程调用者用户的权限执行。将安全属性显式设置为 DEFINER 后，存储过程将以过程拥有者的权限执行。

阅读更多 »

开启云计算现代化之旅第一步-数据迁移「云数据库」

发布于: Oct 10, 2022

Autodesk 公司多年之前就已经启动了自己的云计算现代化之旅，着手将工作负载从本地数据中心迁移至 Amazon EC2 及其他 Amazon Web Services 服务当中。Autodesk 之所以积极推进现代化改造，自然是为了获取必要的灵活性与可扩展性，支持业务的预期增长。2019年，该公司将其关键任务单点登录（SSO）应用从 EC2 上的自托管 SQL Server 中迁移至全托管 Amazon Aurora MySQL。此项服务需要应对全球各地超过1.42亿用户的身份验证请求，每分钟API请求响应数量超过14万5千次。此外，该应用还整合了300多种用于实现身份验证与授权操作的产品及服务。

此次迁移有助于简化 Autodesk SSO 服务的管理与弹性、优化运营成本并降低基础设施的维护开销。根据初步成本分析结果，该公司在使用 Amazon Aurora MySQL 之后每月总体数据库成本可下降约40%至50%。

通过本文，我们将探讨 Autodesk 公司如何在尽可能缩短停机时间的前提下，对关键任务数据库进行迁移。以下各章节将分别介绍迁移前架构、迁移策略等相关议题。

阅读更多 »

关系数据库管理工具—— Amazon RDS for Oracle「云数据库」

发布于: Aug 26, 2022

众多亚马逊云科技用户都在使用 Amazon 关系数据库服务产品组合来减少沉重繁琐且无差异化的数据库日常维护工作。其中 Amazon RDS for Oracle 也切实帮助用户显著减少了 Oracle 数据库的管理与维护负担

阅读更多 »

如何实时监控你的数据库迁移步骤，并发出告警「云数据库」

发布于: Oct 30, 2022

如何自动监控数据库迁移步骤，并在出现错误时发出告警？当面对大量同时进行的复制任务时，靠人工去监控每项任务的进度无疑是一项既枯燥、又容易出错的工作。现在我们就教你如何解决这一困扰。

阅读更多 »

Amazon Web Services 上的 Lake House 架构的初步认识「云数据库」

发布于: Jul 22, 2022

我们不是简单粗暴地将数据湖与数据仓库集成起来，而是把数据湖，数据仓库，以及其他一些专门构建（purpose-built）的数据存储方案集成起来，赋予统一管理与轻松灵活的数据移动

阅读更多 »

Amazon Redshift 和 S3 中的数据来源及其架构

发布于: Jun 23, 2022

我们从不同的数据来源获取的数据，如 PostgreSQL、Amazon DynamoDB 实时流、中央数据仓库数据湖和银行合作伙伴的数据。PostgreSQL 数据库中的数据采用关系格式，而 DynamoDB 则采用键值对形式。我们将键/值数据转化为关系格式并存储在 Amazon Redshift 和 S3 中。最经常访问的数据存储在 Amazon Redshift 中，不经常访问且较大的数据集存储在 S3 中并通过 Amazon Redshift Spectrum 访问。

中央数据湖存储了超过 30000 个来自不同团队的表，例如订单、货物和退款。而我们支付团队需要使用该数据湖中约 200 个表格作为源表。之后，我们创建了特定支付产品的数据集市，它既能够满足有计划和一次性数据的需求，又能够满足报表的需求。所有中小型表（小于 50TB）都会从实际存储数据的数据湖直接加载到 Amazon Redshift。大于 50TB 的表不会本地存储在 Amazon Redshift 中，我们会利用 EMR-Hive 将其从数据湖中提取出来，将格式从 tsv 转换为 ORC/Parquet，然后存储在 S3 中。我们以 S3 数据为基础创建 Amazon Redshift Spectrum 表。格式转换缩短了每个分析聚合查询的运行时间，而存储在 S3 上确保我们不会将整个 Amazon Redshift 集群填满数据，而是用它来执行高效计算。

阅读更多 »

为什么越来越多金融机构选择金融云计算？「云数据库」

发布于: Jul 29, 2022

在本文中，我们将深入探讨如何使用 Amazon EMR for Apache Spark 打造一套具备可扩展性、灵活性与理想经济效益的 FRTB IMA 运行平台

阅读更多 »

利用 Apache Atlas 设计一个大数据治理平台架构「云数据库」

发布于: Aug 26, 2022

大数据治理平台架构是数据时代的重要衍生物，随着数据在当今世界中的作用不断发展演变，数据治理已然成为有效数据管理的重要环节

阅读更多 »

数据湖搭建前的准备工作——以 Amazon Lake Formation 平台为例「云数据库」

发布于: Nov 30, 2022

【概要】在本文中，我们将探索如何使用 Amazon Lake Formation 来构建、保护和管理数据湖。

阅读更多 »

手把手教你如何进行数据分区与 schema 设计「云数据库」

发布于: Nov 30, 2022

【概要】在将 Amazon RDS 部署为数据库分片时，大家还需要考虑到数据库引擎类型、数据库实例类以及 RDS 存储等要素。

阅读更多 »

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现「云数据库」

发布于: Aug 12, 2022

3.使用 Atlas 查看 Hive 表的数据沿袭

要查看所创建的表的数据沿袭，可以使用 Atlas Web 搜索。例如，要查看先前创建的交叉表 trip_details_by_zone 的数据沿袭，请输入以下信息：

按类型搜索：hive_table
按文本搜索：trip_details_by_zone

前文所述查询的输出应如下所示：

阅读更多 »

数据库管理方法：如何在亚马逊云科技数据湖内删除用户数据「云数据库」

发布于: Nov 30, 2022

【概要】本文将接介绍一种数据库管理方法用于删除数据湖内的用户数据。通用数据保护条例（GDPR）是当今技术世界中的重要法规，也是众多在亚马逊云科技公有云当中建立解决方案的用户们所必须遵循的数据处理要求。

阅读更多 »

利用 Amazon Redshift 实现高效的电商数据抓取、转换、存储「云数据库」

发布于: Aug 26, 2022

数据仓库和分析需求之前面临的挑战。随着支付产品的推出并延伸到新的市场，我们的数据量开始呈指数式增长。随后，扩展我们提取、转换和加载过程面临着严峻的挑战

阅读更多 »

云数据库与本地数据库之间的迁移「云数据库」

发布于: Aug 8, 2022

如何实现云数据库与本地数据库之间的迁移，下图所示，为迁移中的各项状态与具体步骤。图中为前滚迁移模式，各个步骤将帮助大家快速理解与迁移进度相关的情况。在下面几个章节中，我们将就每种状态及其内容做出说明。

阅读更多 »

云关系数据库的构想理念及与传统数据库的优势「云数据库」

发布于: Aug 8, 2022

云关系数据库方兴未艾。关系数据模型可以追溯至 1970 年代 E.F.Codd 的探索。支撑当今主要关系数据库管理系统的核心技术是在 1980-1990 年代开发的。关系数据库的基本要素包括数据关系、ACID（原子性、一致性、独立性和持久性）事务、SQL 查询语言等，都经受住了时间的考验。凭借这些基本特点，关系数据库赢得了全世界用户的钟爱。它们依然是许多公司 IT 基础设施的基石之一。

但这并不是说系统管理员一定很喜欢处理关系数据库。数十年来，管理关系数据库一直都是一件对技能要求非常高的劳动密集型工作。它要求有专门的系统和数据库管理员全神贯注。对关系数据库进行扩展并同时保持容错能力、性能和爆炸半径大小（发生故障的影响），一直是管理员们面临的一个持久挑战。

阅读更多 »

如何实现Amazon RDS云关系型数据库可扩展性监控以及重新分片「云数据库」

发布于: Oct 30, 2022

如何实现 Amazon RDS 云关系型数据库可扩展性监控是许多人关注的问题。在全局情况下，您可以将对各个分片进行比较，从而验证系统当中是否存在热点。以此为背景，关注单一分片中的指标（例如系统资源使用量或数据库吞吐量）往往比较重要。此外，大家还应为监控数据设置适当的保留期。最后，您可以使用历史信息来分析系统变化趋势并规划容量，保证系统能够持续适应新的需求。

阅读更多 »

数据库迁移服务带来了什么新的转变「云数据库」

发布于: Nov 30, 2022

【概要】迁移至 Amazon Web Services 重新定义了传统数据库工程师和管理人员的职业道路。他们的技能和专长有助于 Amazon Redshift 或 Amazon EMR 解决方案性能的提升，这些解决方案依赖于设计最佳查询计划和监控性能的数据库知识。

阅读更多 »

如何使用 Aurora 全球数据库为兼容 PostgreSQL 的 Aurora 集群实施跨区域数据灾难恢复「云数据库」

发布于: Aug 22, 2022

在过去我们经常需要容忍因区域间的服务中断而导致的数据丢失，现在我们可以利用 Aurora 全球数据库，实现跨区域的数据灾难恢复，接下来我们一起来看看具体如何操作吧！

阅读更多 »

数据仓库解决方案——如何创建集群利用编辑器查询「云数据库」

发布于: Nov 30, 2022

【概要】本文将会为您介绍一种数据仓库解决方案。数据仓库是从您的数据中分析和提取可指导行动见解的关键组件。

阅读更多 »

手把手教你如何进行 Amazon Redshift 表设计「云数据库」

发布于: Nov 30, 2022

【概要】Amazon Redshift 的表设计是获取良好性能的基础，要想做出正确的设计一方面需要读者了解 Amazon Redshift 的运作原理和表设计最佳实践，另一方面更需要读者对自身业务的深入理解，有时候表设计不仅仅是技术，甚至是一种艺术。

阅读更多 »

PartiQL 兼容性查询语言，提高数据利用效率「云数据库」

发布于: Jul 29, 2022

PartiQL，是一种兼容 SQL 的查询语言，可用于轻松高效地查询数据，无论数据存储的位置或格式如何

阅读更多 »

数据查询新工具：PartiQL「云数据库」

发布于: Nov 30, 2022

【概要】为了提高数据的利用率，我们设计了一套可兼容的数据查询语言：PartiQL，下面就为大家介绍一下我们的设计原理以及实现方式。

阅读更多 »

亚马逊云科技本地数据库迁移服务助力众多知名企业「云数据库」

发布于: Aug 9, 2022

本地数据库迁移至云服务器解决了很多企业数据存储问题，数十年来，很多企业客户一直被牢牢束缚在陈旧保守的数据库供应商身上。这类数据库昂贵、专有、在设计层面上处处体现出“锁定”倾向，而且带有大量惩罚性的许可条款。正因为如此，众多客户开始加速向亚马逊云科技的云数据库迁移的脚步。他们希望借此获得以下优势：降低资金投入与运营成本，提高IT员工生产效率，增强数据库可扩展性，获得现代的开放架构、按需付费模式（即仅根据您实际使用的服务资源付费），并以无与伦比的速度实现业务价值创新。

例如，营收位列全球第二的IT厂商三星电子将来自三个大洲、超过11亿用户数据从 Oracle迁移至 Amazon Aurora 当中，使得每月数据库使用成本降低达 44%。Experian 是面向消费者及企业的信用报告与营销服务全球领导品牌，该公司将其消费者平台从微软 SQL Server 迁移至 Amazon DynamoDB，并且将他们的单体架构应用系统改造为现代化微服务驱动型架构。这使他们得以应对每年高达 75% 的数据层访问量增长，并将服务器的部署时长由原本的 60 到 90 天缩短至如今的几个小时。还有道琼斯，作为全球最大的商业及金融新闻企业之一，他们比原计划提前约两周成功将其市场数据平台从本地部署的 SQL Server 解决方案迁移至亚马逊云科技 Aurora 数据库，成本降低超过了 50%。

过去几年以来，成千上万的客户已经使用 Amazon Database Migration Service (Amazon DMS)完成了大量的数据库迁移。这是一项全托管服务，能够帮助客户几乎不用停机就将关系数据库、非关系数据库以及数据仓库迁移至 Amazon 云端。

截至 2020 年 11 月，客户已经使用 Amazon Database Migration Service 将超过 30 万套数据库迁移至 Amazon 云服务。三星、Experian、精灵宝可梦、Jack in the Box、AgriDigital、道琼斯、Expedia、Bristol-Meyers Squibb 以及更多的其他客户都在陆续迁移其产品到 Amazon 不同数据库服务。为了支持客户的广泛需求，Amazon DMS 目前已经能够支持19种数据库迁移源与 15 种数据库迁移目标。在迁移之后，客户普遍反应可节约大量成本，在某些情况下甚至能够将成本降低到原来的 10%。而且在实现成本节约的同时，亚马逊云服务增强了安全性，改善了高可用性以及可扩展性等传统IT固有“缺陷”。客户可以通过使用亚马逊云科技提供的数据库与分析服务创新成果来创造业务价值。未来，亚马逊云科技将保持投资与创新，让数据库向 Amazon 云服务的迁移能为客户带来更多收益。作为其中一个例子，我们今天公布了新的 Amazon Graviton2 示例。这种实例能够为 Amazon Relational Database Service (Amazon RDS)开源数据库带来高达 52% 的性价比提升与高达 35% 的性能提升。这是对本就具备极高性价比的 Amazon RDS 服务的又一次重大改进。

阅读更多 »

Amazon Athena — 数据集管理平台的作用

发布于: Jun 17, 2022

这是 2017 年 OpenStreetMap 美国理事会成员 Seth Fitzsimmons 的一篇特邀博文。Seth 为 Humanitarian OpenStreetMap Team、Mapzen、美国红十字会以及世界银行等客户设计创新的地理空间解决方案。

如何使用数据集管理平台与地图软件迅速获得你想要的信息呢？本文将会针对这一问题作出介绍。OpenStreetMap (OSM) 式一个免费的可编辑世界地图，由志愿者创建和维护，可依据开放许可证使用。Mapbox、Foursquare、Mapzen、世界银行、美国红十字会以及其他公司和非营利组织使用 OSM 为全世界的用户提供地图、方向指引和地理背景。

在 OSM 诞生以来的 12 年里，编辑者们创建和修改了数十亿个特征（道路或建筑物等地面实物）。支持 OSM 编辑界面的主要 PostgreSQL 数据库现已超过 2TB，包含了可追溯至 2007 年的历史数据。随着新用户加入开放地图社区，越来越多的珍贵数据不断添加到 OpenStreetMap，需要更加强大的工具、界面和方法来探索它的浩瀚数据。

本博文解释了如何使用 Amazon Athena 快速查询以 Amazon Web Services 公开数据集方式存储在 Amazon S3 中的公开 OSM 数据（每周更新）。假设您为一家非政府组织工作，希望增加对非洲地区医疗中心的了解和接触。您可能希望知道哪些医疗中心已经在地图上存在，协助编制有关周边村落的地图，以及确定在哪里进行基础设施投资可能会最为有效。

注意：如果您运行本博文中的所有查询，根据扫描的字节数，您大约需要支付 1 USD 的费用。本博文中的所有查询可以在此 GitHub gist 中找到。

阅读更多 »

Amazon Web Services数据库云平台及其应用「云数据库」

发布于: May 21, 2021

数据库云平台为弥补传统数据库的不足而生。今天，数据的重要性已经渗透到各个领域，成为每个行业发展和变革的必要元素。然而，我们依然需要数据库来帮助我们存储和组织这些数据。传统的数据库技术并没有因为互联网技术的发展而消失，但是在互联网时代，对于数据库的新需求却不断出现。数据的规模不断增长，企业的需要处理的数据规模从GB 快速增长到 TB 甚至 PB 规模，同时需要提供毫秒级延迟的数据访问，数据库有时需要每秒处理数百万个请求，可扩展以支持世界各地的数以百万，千万计的用户。随着这些新的需求越来越广泛地被提出，越来越多的企业意识到，采用传统的数据库应对不同需求这种一刀切的方式，已经不再奏效。

阅读更多 »

怎样进行大数据分析——动手实践 Amazon Athena「云数据库」

发布于: Nov 30, 2022

【概要】怎样进行大数据分析，下面就以基于东京区域的服务为例进行实践

阅读更多 »

大数据元数据管理——如何在 Apache Atlas 的 Amazon EMR 集群中搜索元数据？「云数据库」

发布于: Aug 22, 2022

大数据元数据管理是高效利用数据湖的关键，本文将会为你讲解如何使用 Apache Atlas on Amazon EMR 进行元数据的搜索工作。

阅读更多 »

如何将Aurora PostgreSQL实例修改为Graviton2「云数据库」

发布于: Oct 30, 2022

阅读更多 »

Amazon Redshift 集群大小调整指南

发布于: Mar 22, 2022

Amazon Redshift 节点类型将直接决定节点中配备的 CPU、内存、存储容量以及存储驱动器类型。RA3 节点类型允许您独立扩展计算与存储资源，大家也需要为实际使用的计算量与 Amazon Redshift 托管存储（RMS）单独付费。DS2 节点类型则经过优化，能够存储大量数据并使用磁盘驱动器（HDD）存储形式。如果您目前正在使用 DS2 节点，请考虑升级至 RA3 集群，从而以相同的成本获得 2 倍的性能与存储资源。密集型计算（DC）节点类型则针对计算类工作负载进行优化。由于 DC2 节点类型使用固态存储（SSD）驱动器，因此相当于对性能密集型工作负载进行了优化。
各 Amazon Redshift 节点类型还提供不同的节点大小选项。节点大小与节点数量决定了集群中的总体存储容量。我们建议：1）如果压缩后的数据大小小于 1 TB，则应选择 DC2 节点类型；2）如果压缩后的数据大小超过 1 TB，请选择 RA3 节点类型（RA3.4xlarge 或者 RA3.16xlarge）。关于更多详细信息，请参阅 Amazon Redshift 中的集群与节点。

阅读更多 »

使用 Amazon RDS for Oracle 创立数据备份与灾难恢复方案「云数据库」

发布于: Aug 26, 2022

数据备份与灾难恢复方案是每一个数据库使用者平时就应该留心的问题，当灾难发生后再想挽回损失可能就于事无补了。利用 Amazon RDS for Oracle 建立只读副本可以帮助你防患于未然

阅读更多 »

使用 Amazon Web Services CloudFormation 部署自动化数据管道「云数据库」

发布于: Aug 12, 2022

想要通过 Amazon CloudFormation 部署自动化数据管道，首先，您要使用 Amazon Web Services CloudFormation 模板创建所有必要的资源。这消除了手动出错的机会、提高了效率并确保配置保持一致。

使用以下“启动堆栈”按钮启动 Amazon Web Services CloudFormation 模板。

阅读更多 »

进行Amazon Redshift企业级数据仓库表设计的初步规划「云数据库」

发布于: Oct 10, 2022

Amazon Redshift 是为 OLAP 场景云原生设计的企业级数据仓库，许多行业领先的第三方工具（BI 商业智能、报表及可视化数据分析工具）已经与 Amazon Redshift 深度集成，可以对 Amazon Redshift 的数据进行加载、转换和可视化。Amazon Redshift 通过大规模并行处理(MPP)、列式数据存储和高效且具有针对性的数据压缩等特性的组合，实现了高效存储和优异的查询性能，因此一经推出就受到广大用户的好评。

Amazon Redshift 的表设计与 OLTP 的表设计有很大区别，Amazon Redshift 需要面对海量数据集和极其复杂的分析查询，如果设计不当，大规模并行处理就会受到数据分配不均和数据移动的影响，从而大大影响性能，本文希望能为读者理清 Amazon Redshift 表设计的一些基本原则，分享一些最佳实践，让读者能最大限度地发挥 Amazon Redshift 的潜力。阅读本文需要一定的基础数据库知识。

阅读更多 »

如何利用分片技术进行数据库优化「云数据库」

发布于: Oct 30, 2022

分片（也被称为横向分区）是关系数据库领域一种颇为流行的数据库优化方法。Amazon Relational Database Service（关系数据库服务，简称 Amazon RDS）是一项托管关系数据库服务，凭借出色的功能帮助用户轻松在云环境下实现分片。在本文中，我们将了解如何利用 Amazon RDS 实现分片数据库架构。

阅读更多 »

跨区域全局数据库-Amazon Aurora Global Database「云数据库」

发布于: Oct 21, 2022

随着企业业务的日益全球化，您对于数据库的需求也将随之扩展。举例来说，您在苏黎世的团队与位于北京的办公室必须以同样的速度、同样的安全性以及同样的便捷性使用完全相同的资源。为此，我们推出 Amazon Aurora Global Database，旨在将您的 Amazon Aurora 数据库资源推向全世界。

Aurora 能够在其名为“保护组”的 10 GB 逻辑单元中构建存储卷。以此为基础，它将跨越同一区域内三个可用区的六个存储节点，将各保护组内的数据进行往来复制。如果数据量超出当前分配的存储量，则 Aurora 可以无缝扩展分配容量以满足业务需求，并根据实际情况灵活添加新的保护组。

初次亮相于 re: Invent 2018 大会的 Aurora Global Database 则进一步将复制流程扩展到 Amazon Web Services 云的区域层面。这不仅带来更快的跨区域灾难恢复，也实现了高性能、低延迟的跨区域读取扩展。凭借 Aurora Global Database，您可以将数据库扩展至多个区域，并将对数据库性能造成的影响控制在最低水平。

在本文中，我们将介绍 Aurora Global Database 的基本情况，并探讨其优势与实际用例。

阅读更多 »

如何确定Amazon ElastiCache Redis 缓存数据库集群大小「云数据库」

发布于: Oct 30, 2022

本文将探讨如何为 Amazon ElastiCacheRedis 缓存数据库工作负载确定正确的节点大小与集群拓扑结构，以及在此期间需要考量的因素。本文内容涉及 Redis 及其操作命令，同时也要求您对于 Amazon ElastiCache for Redis 及其功能（例如在线集群大小调整、扩展、从 Amazon EC2 到 ElastiCache 的在线迁移、通用型与内存优化型节点以及增强 I/O 等内容）具备一定的了解。

阅读更多 »

数据丢了能恢复吗？Amazon Aurora 全球数据库为你提供灾难恢复方案「云数据库」

发布于: Nov 30, 2022

【概要】数据丢了能恢复吗？答案是不一定的，比如覆盖全球的关键工作负载有严格的可用性要求，可能需要容忍整个区域的服务中断。对于此要求，过去需要在性能、可用性、成本和数据完整性之间做出痛苦的选择，有时需要开展大量的重新设计工作。

阅读更多 »

Amazon Redshift 上数据库和 etl 查找的实例

发布于: Jun 28, 2022

以下是关于我们的 Amazon Redshift 数据库和 etl 查找对象的一些有趣事实。

表的数量：
- 分析生产数据库：6500
- 分析转储数据库：390

阅读更多 »

查询编辑器在Amazon Redshift 集群上的应用「云数据库」

发布于: Oct 14, 2022

阅读更多 »

Amazon TimeStream 在物联网开发平台上的应用与性能测试「云数据库」

发布于: Jun 29, 2022

物联网开发平台千千万我们该如何选择呢？以车联网平台为例，我们来介绍 Amazon Timestream 全托管时间序列数据库服务的优越性。

阅读更多 »

Aurora, Mysql, Redshift 各性能表现以及成本计较：云数据库和数据库的对比「云数据库」

发布于: Jul 22, 2022

云数据库和数据库在面对海量数据时，各有什么优劣，本文将会从存储，扩展性，可靠性，成本等几个方面，一一作出比较

阅读更多 »

大数据分析服务平台——Amazon Athena「云数据库」

发布于: Aug 22, 2022

互联网时代带来了数据量的海量增长推动了大数据分析服务平台的出现，数据驱动业务决策成为大势所趋。分析人员迫切的希望能快速的交互式的从海量的数据中抓取有用的信息来辅助决策。在 Amazon Web Services 上，Amazon S3 对象存储服务由于其高可用性，高持久性，可扩展性和数据格式兼容性等特点成为建设存储海量数据的数据湖的首选。Amazon Athena 可以轻松对 Amazon S3 中的数据进行交互式查询，是一款开箱即用、无需运维的全托管服务。

阅读更多 »

在确定Amazon ElastiCache Redis集群大小后还需参考哪些性能测试指标「云数据库」

发布于: Aug 19, 2022

性能测试指标是衡量我们设置参数优越性的重要参考。在确定了适用当前需求的参数之后，大家还需要选择最适合的缓存节点与集群拓扑。使用两个 large 缓存节点在性能方面是否一定优于单一 xlarge 缓存节点，有时候测试结截然相反。我们需要在生产环境中根据工作负载特性进行客户端应用程序配置，并运行基准性能测试。在基准测试当中应使用与生产场景一致的数据与流量模式，且运行周期不少于 14 天，以获取良好的基准测试结果。在获得初始基准测试结果之后，即可在工作负载测试当中引入节假日以及双十一等周期性因素，进一步完善基准性能测试结果的准确度，更紧密地反映工作负载的实际运作模式。根据测试结果，我们即可为 Redis 工作负载选择正确的节点大小与集群配置。

阅读更多 »

主题域与应用程序之间的亲和度映射及其实践

发布于: Mar 22, 2022

要确定应该将哪些应用程序及其相关主题域纳入哪些波次，我们需要在应用程序与主题域之间做出详细映射。下表所示，为此类映射的相关示例。

阅读更多 »

大数据分析工具：利用JuiceFS提高Hadoop集群的资源利用率「云数据库」

发布于: Aug 22, 2022

大数据分析工具决定了数据计算与存储的性能，在这里我们会为你介绍 JuiceFS 这一分布式文件系统。这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章，JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比，可以节省 50% ~ 70% 的成本，同时达到与自建 HDFS 接近的性能。

阅读更多 »

云数据库能做什么：Amazon Aurora 的崛起「云数据库」

发布于: Aug 9, 2022

云数据库能做什么？许多还在观望中的客户通常会有这样的疑问，要知道云数据的优势首先我们就来了解一下他的基本架构。

阅读更多 »

终止对 Internet Explorer 的支持