首页  »  云计算知识  »  什么是数据挖掘

什么是数据挖掘?

数据挖掘又称数据库中的知识发现,一般是指基于统计、在线分析处理、情报检索、机器学习等方式,从数据库的大量数据中搜索隐藏于其中具备潜在价值的信息这一过程,通常与计算机科学有关。

新用户享受中国区域 12个月免费套餐

什么是数据挖掘?

首页  »  云计算知识  »  什么是数据挖掘

什么是数据挖掘?

什么是数据挖掘?

数据挖掘又称数据库中的知识发现,一般是指基于统计、在线分析处理、情报检索、机器学习等方式,从数据库的大量数据中搜索隐藏于其中具备潜在价值的信息这一过程,通常与计算机科学有关。

新用户享受中国区域 12个月免费套餐

数据挖掘产生背景

数据挖掘产生背景

随着计算机产生的数据类型逐渐复杂且数据量愈趋庞大,其中的有效信息也在变得难以提炼。而一旦无用信息出现过多,就会令信息距离和丢失有用知识等情况产生。因此,人们迫切希望能够通过一种方式,对海量数据进行深入分析,来弥补单纯依靠录入、查询、统计等功能寻找数据中的关系时的不足,进而发现并提取隐藏在其中的信息,以便更好地利用数据,预测未来的发展趋势,挖掘数据背后的隐藏知识。正是在此背景下,数据挖掘技术应运而生。

数据挖掘对象

数据挖掘对象

数据挖掘的对象可涵盖任何类型的数据源,包括:

  • 结构化数据的数据源:关系数据库;
  • 半结构化数据以及异构性数据的数据源:数据仓库、文本、多媒体数据、空间数据、时序数据、Web 数据。

例如其中,伴随着现代企业从“产品导向”向着“客户导向”转变,在客户关系管理中,企业可以通过对客户的数据挖掘,分析发现如何在保持现有客户的基础上吸引更多客户,以及洞察客户的潜在价值,为后续的营销行动获取到决策支持。

数据挖掘步骤

数据挖掘步骤

定义问题

在开始采取行动之前,唯有先清晰明确定义目标,方可采取有的放矢的行动。例如,当您想要提高电子信箱的利用率时,很难建立模型同时实现解决“提高用户使用率”与“提高一次用户使用的价值”这两个问题,所以必须做出决断。

建立数据挖掘库

可以按照数据收集、数据描述、选择、数据质量评估和数据清理、合并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库几大步骤,来建立数据挖掘库,进而开启您的下一步行动。

分析数据

通过分析,您可以找到对预测输出影响最大的数据字段,以及决定是否需要定义导出字段。此外,您还需要选择一个具有好的界面和功能强大的工具软件,协助您完成分析包含成百上千字段的数据集。

准备数据

在建立模型之前,您可通过以下四个部分:选择变量、选择记录、创建新变量、转换变量,来做好最后一步数据准备工作,从而确保建立起良好可用的数据模型。

建立模型

建立模型需要先仔细考察判断哪个模型对面对的商业问题最有用。可以先基于部分数据建立模型,然后再对得到的模型,用剩下的数据测试和验证。由于测试集可能会受模型的特性影响出现偏差,因此需要一个独立的数据集来验证模型的准确性。

评价模型

因为从测试集中得到的准确率只对用于建立模型的数据有意义,所以需要对建立好的模型,评价得到的结果并解释模型的价值。由于模型建立中隐含各种假定,有效的模型并不一定是正确的模型,因此要在现实世界中测试模型。

实施

当模型建立并验证好之后,可以通过提供给分析人员做参考,或者是把此模型应用到不同的数据集上这两种方法来实施模型。

定义问题

在开始采取行动之前,唯有先清晰明确定义目标,方可采取有的放矢的行动。例如,当您想要提高电子信箱的利用率时,很难建立模型同时实现解决“提高用户使用率”与“提高一次用户使用的价值”这两个问题,所以必须做出决断。

建立数据挖掘库

可以按照数据收集、数据描述、选择、数据质量评估和数据清理、合并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库几大步骤,来建立数据挖掘库,进而开启您的下一步行动。

分析数据

通过分析,您可以找到对预测输出影响最大的数据字段,以及决定是否需要定义导出字段。此外,您还需要选择一个具有好的界面和功能强大的工具软件,协助您完成分析包含成百上千字段的数据集。

准备数据

在建立模型之前,您可通过以下四个部分:选择变量、选择记录、创建新变量、转换变量,来做好最后一步数据准备工作,从而确保建立起良好可用的数据模型。

建立模型

建立模型需要先仔细考察判断哪个模型对面对的商业问题最有用。可以先基于部分数据建立模型,然后再对得到的模型,用剩下的数据测试和验证。由于测试集可能会受模型的特性影响出现偏差,因此需要一个独立的数据集来验证模型的准确性。

评价模型

因为从测试集中得到的准确率只对用于建立模型的数据有意义,所以需要对建立好的模型,评价得到的结果并解释模型的价值。由于模型建立中隐含各种假定,有效的模型并不一定是正确的模型,因此要在现实世界中测试模型。

实施

当模型建立并验证好之后,可以通过提供给分析人员做参考,或者是把此模型应用到不同的数据集上这两种方法来实施模型。

数据挖掘分析方法

数据挖掘分析方法

有指导数据挖掘

利用可用数据建立模型,对一个特定属性进行描述,包括:

  • 分类:从数据中选出已经分好类的训练集,以此运用数据挖掘技术建立分类模型,对没有分类的数据进行分类;
  • 估值:与分类类似,可作为分类的准备工作,但最终输出结果是连续型数值;
  • 预测:通过分类或估值训练,得出模型用于预测新样本的未知变量。

无指导数据挖掘

无指导数据挖掘,主要是在所有的属性中寻找某种关系,包括:

  • 相关性分组或关联规则:其目的是发现总是在一起发生的事情;
  • 聚类:通过判断样本之间的相似性,自动寻找并建立分组规则,把相似样本划分在一个簇中。

亚马逊云科技在数据挖掘应用中的优势

亚马逊云科技在数据挖掘应用中的优势

亚马逊云科技在数据挖掘应用中的优势_快速查询

快速查询

通过 Amazon Athena 交互式查询服务,您可以轻松使用标准 SQL 语言来分析 Amazon S3 中的数据,同时不需要管理基础设施且仅需为运行的查询付费。使用 Athena,您无需进行复杂的 ETL 作业来准备数据以进行分析,有助于任何具备 SQL 技能的人快速分析大规模数据集。

亚马逊云科技在数据挖掘应用中的优势_打破数据孤岛进行组合分析

打破数据孤岛进行组合分析

Amazon Lake Formation 可让您在几天内轻松建立安全数据湖服务,帮助您打破数据孤岛并组合进行不同类型的分析,从而获得见解并指导作出更好的业务决策。您只需定义数据源,以及指定您要应用的数据访问和安全策略,接下来 Amazon Lake Formation 就会帮助您从数据库和对象存储中收集数据并按目录对数据进行编目、使用机器学习算法对数据进行清理和分类等,并保护敏感数据的访问权限。

亚马逊云科技在数据挖掘应用中的优势_适用于每位开发人员和数据科学家

适用于每位开发人员和数据科学家

Amazon SageMaker 是一项完全托管的服务,可为每位开发人员和数据科学家提供快速构建、训练和部署机器学习 (ML) 模型的能力,同时在单个工具集中提供了用于机器学习的所有组件,助您消除机器学习过程中每个步骤的繁重工作,从而更轻松地开发高质量模型,并以更低的成本、更轻松地在更短的时间内将模型投入生产。

亚马逊云科技在数据挖掘应用中的优势_快速查询

快速查询

通过 Amazon Athena 交互式查询服务,您可以轻松使用标准 SQL 语言来分析 Amazon S3 中的数据,同时不需要管理基础设施且仅需为运行的查询付费。使用 Athena,您无需进行复杂的 ETL 作业来准备数据以进行分析,有助于任何具备 SQL 技能的人快速分析大规模数据集。

亚马逊云科技在数据挖掘应用中的优势_打破数据孤岛进行组合分析

打破数据孤岛进行组合分析

Amazon Lake Formation 可让您在几天内轻松建立安全数据湖服务,帮助您打破数据孤岛并组合进行不同类型的分析,从而获得见解并指导作出更好的业务决策。您只需定义数据源,以及指定您要应用的数据访问和安全策略,接下来 Amazon Lake Formation 就会帮助您从数据库和对象存储中收集数据并按目录对数据进行编目、使用机器学习算法对数据进行清理和分类等,并保护敏感数据的访问权限。

亚马逊云科技在数据挖掘应用中的优势_适用于每位开发人员和数据科学家

适用于每位开发人员和数据科学家

Amazon SageMaker 是一项完全托管的服务,可为每位开发人员和数据科学家提供快速构建、训练和部署机器学习 (ML) 模型的能力,同时在单个工具集中提供了用于机器学习的所有组件,助您消除机器学习过程中每个步骤的繁重工作,从而更轻松地开发高质量模型,并以更低的成本、更轻松地在更短的时间内将模型投入生产。

亚马逊云科技热门云产品

亚马逊云科技热门云产品

Amazon Athena

立即开始查询数据,在几秒钟内获得结果,仅为您运行的查询付费。

Amazon Lake Formation

数天内构建安全的数据湖。

Amazon SageMaker

适用于每位开发人员和数据科学家的机器学习。

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域