什么是热数据

热数据一般是指在半年时间以内能被频繁访问的热门数据。热数据可以根据热度是否符合预期,分为有预期的热数据和无预期的热数据两种。因为被访问频次比较高,用户更追求访问它的速度、效率,因此热数据对服务器等硬件存储设备的要求非常高,往往会保存在存储性能较强的热存储环境中,或将其部署在 CPU 驱动器附近,以便可以进行就近计算。同时,它还需要一定程度的存储能力和带宽支持,才能保证在用户访问时,画面显示清晰、不卡顿。

热数据探测

我们一般会采用将数据提前缓存到本地的方式,缓解读取热数据时对服务器的压力。在此之前,我们需要用热数据检测的方式将热数据找出来。首先,我们要给热数据的“热”度,设定一个标准或区间。然后就可以针对单机应用和分布式应用采用不同的方法进行热度探测了。单机应用可以为每一个数据设定一个滑动窗口计数器,用来统计单位时间内数据被访问的次数,再将检测到的热数据集中存储;分布式应用需要设立独立运行的热度计算单元,并将分布在不同服务器的热数据集合起来。另外,热数据探测可能会面对多变复杂的场景,可能要考虑其他的问题。

冷热数据分离

冷热数据分离的根本目的,在于控制成本。如果统一存储在高效的服务器中,要保证热数据的正常运行,花费非常大;而如果将数据存储在配置较低的服务器中,虽然成本相对降低,但无法保证用户对热数据的正常访问。所以我们一般会将冷数据与热数据分离开,并存储在不同的环境、配备不同的设施。对于热数据,由于需要保证高效的读写性能问题,会优先选择 MySQL、Elasticsearch 等数据库;而对于冷数据,因为不需要高频访问,所以可以采用成本较低的存储方式。

判断冷热数据的算法

一般情况,我们判断数据属于冷数据还是热数据的标准是访问的频次和访问的时效性,因此我们依据这两种标准,设计出基于特定数据结构、统计学、机器学习三类算法来进行精准预测。

判断冷热数据的算法_数据结构特点的判断算法

数据结构特点的判断算法

我们还会依据能否满足数据结构的双重特点来区分冷、热数据,这样的判断算法有传统版和改良版两种。传统版的算法因为只能满足结构特点其中一个的需求,所以很少应用,而经过改良的算法等已经可以兼顾两种结构特点。

判断冷热数据的算法_统计学的判断算法

统计学的判断算法

基于统计学的判断算法是利用统计模型来进行冷热数据的判断的。 它根据数据的访问特征提出一个算法模型,然后利用这个模型来进行冷热数据判别。例如,可以将温度的冷热与数据的冷热相结合,根据牛顿定律构建一个温度判断算法模型,再利用它预测热度。

判断冷热数据的算法_机器学习的判断算法

机器学习的判断算法

基于机器学习的判断算法,就是利用机器学习的能力,预测数据是否会转变成热数据。 比如,首先获取核心数据,然后运用模型对核心数据进行抽取并预测其热点程度,最后利用机器学习算法对上述过程进行学习,再应用到其他数据的热度预测中。

亚马逊云科技热门云产品

Amazon EC2

Amazon EC2

无需预先承诺,就可以安全并且可以灵活调整大小的云服务器/云主机容量

 Amazon  OpenSearch Service

Amazon OpenSearch Service

搜索、可视化和分析高达 PB 字节的文本和非结构化数据

Amazon S3

Amazon S3

专为可从任何位置检索任意数量的数据而构建的对象存储

Amazon IoT SiteWise

Amazon IoT SiteWise

轻松地从工业设备中大规模收集、组织和分析数据

欢迎加入亚马逊云科技培训中心

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
  • 快速上手训练营
  • 第一课:亚马逊云科技简介

    本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

    亚马逊云科技技术讲师:李锦鸿

    第二课:存储与数据库服务

    您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

    亚马逊云科技资深技术讲师:周一川

    第三课:安全、身份和访问管理

    在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

    亚马逊云科技技术讲师:马仲凯
  • 账单设置与查看
  • 视频:快速完成税务设置

    部署时间:5 分钟

    视频:账户账单信息

    部署时间:3 分钟

    视频:如何支付账单

    部署时间:3 分钟

  • 动手实操
  • 快速上手云上无服务器化的 MySQL 数据库

    本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

    部署时间:10 分钟

    启动一台基于 Graviton2 的 EC2 实例


    本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

    部署时间:5 分钟

    使用 Amazon Systems Manager 进行云资源统一跟踪和管理

    在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

    部署时间:10 分钟

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

联系我们

联系我们

如需了解更多亚马逊云科技的专业服务和解决方案,请填写表单,我们的业务开发团队会与您联系
提交成功!
免费试用 12 个月

云服务器 EC2

每月免费使用 750 小时,两种实例类型可选,并可免费获得 750 小时公网 IPv4 地址

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域