什么是热数据
热数据一般是指在半年时间以内能被频繁访问的热门数据。热数据可以根据热度是否符合预期,分为有预期的热数据和无预期的热数据两种。因为被访问频次比较高,用户更追求访问它的速度、效率,因此热数据对服务器等硬件存储设备的要求非常高,往往会保存在存储性能较强的热存储环境中,或将其部署在 CPU 驱动器附近,以便可以进行就近计算。同时,它还需要一定程度的存储能力和带宽支持,才能保证在用户访问时,画面显示清晰、不卡顿。
热数据探测
我们一般会采用将数据提前缓存到本地的方式,缓解读取热数据时对服务器的压力。在此之前,我们需要用热数据检测的方式将热数据找出来。首先,我们要给热数据的“热”度,设定一个标准或区间。然后就可以针对单机应用和分布式应用采用不同的方法进行热度探测了。单机应用可以为每一个数据设定一个滑动窗口计数器,用来统计单位时间内数据被访问的次数,再将检测到的热数据集中存储;分布式应用需要设立独立运行的热度计算单元,并将分布在不同服务器的热数据集合起来。另外,热数据探测可能会面对多变复杂的场景,可能要考虑其他的问题。
冷热数据分离
冷热数据分离的根本目的,在于控制成本。如果统一存储在高效的服务器中,要保证热数据的正常运行,花费非常大;而如果将数据存储在配置较低的服务器中,虽然成本相对降低,但无法保证用户对热数据的正常访问。所以我们一般会将冷数据与热数据分离开,并存储在不同的环境、配备不同的设施。对于热数据,由于需要保证高效的读写性能问题,会优先选择 MySQL、Elasticsearch 等数据库;而对于冷数据,因为不需要高频访问,所以可以采用成本较低的存储方式。
判断冷热数据的算法
一般情况,我们判断数据属于冷数据还是热数据的标准是访问的频次和访问的时效性,因此我们依据这两种标准,设计出基于特定数据结构、统计学、机器学习三类算法来进行精准预测。

数据结构特点的判断算法
我们还会依据能否满足数据结构的双重特点来区分冷、热数据,这样的判断算法有传统版和改良版两种。传统版的算法因为只能满足结构特点其中一个的需求,所以很少应用,而经过改良的算法等已经可以兼顾两种结构特点。

统计学的判断算法
基于统计学的判断算法是利用统计模型来进行冷热数据的判断的。 它根据数据的访问特征提出一个算法模型,然后利用这个模型来进行冷热数据判别。例如,可以将温度的冷热与数据的冷热相结合,根据牛顿定律构建一个温度判断算法模型,再利用它预测热度。

机器学习的判断算法
基于机器学习的判断算法,就是利用机器学习的能力,预测数据是否会转变成热数据。 比如,首先获取核心数据,然后运用模型对核心数据进行抽取并预测其热点程度,最后利用机器学习算法对上述过程进行学习,再应用到其他数据的热度预测中。
欢迎加入亚马逊云科技培训中心
欢迎加入亚马逊云科技培训中心
-
快速上手训练营
-
账单设置与查看
-
动手实操
-
快速上手训练营
-
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯 -
账单设置与查看
-
-
动手实操
-
联系我们
联系我们
.4ab599395215697c34eea7e92d1bb891e55e4cfb.png)