数据科学与机器学习

机器学习是数据科学的一部分。数据科学更加注重运用数学、统计学等计算科学从数据中提取价值;机器学习则更加注重用数据获取经验,在不断学习中改进算法性能并自动优化计算机模型。随着近年来爆发式增长的数据,数据科学与机器学习呈现出相辅相成的关系。数据科学收集分析的大量数据为机器学习提供了充足的数据集,而机器学习因为自身强大的学习能力和优秀算法的支持,能够帮助数据科学做出符合数据发展趋势的判断并提供具有战略性意义的指导。在大数据时代,数据科学与机器学习已然成为从数据中获取价值的两个重要手段。

数据科学的流程

定义计划:基于要解决的问题,提出对应项目的构想,然后对项目流程做出计划安排,并对结果做出合理预测。

定义计划_数据科学的流程
获取数据_数据科学的流程

获取数据

思考我们需要什么数据,这些数据中哪些又可以作为关键数据,数据的格式又有什么要求等,这些都是数据科学执行中的关键工作。

模型的构建与评估_数据科学的流程

模型的构建与评估

数据科学的机器学习模型需要大量数据组成的数据集来进行训练。数据集一般包括训练集、测试集和验证集。其中验证集上的准确度是评估指标的关键。此外,数据科学的模型还应当以通用接口的形式实现自主获取数据、数据分析处理以及数据可视化评估等,从而形成一套完整的模型与函数体系。

模型的部署与完善_数据科学的流程

模型的部署与完善

为了便于部署,可以将机器学习模型以接口的形式由数据库来调用,同数据库的各种函数一样,这也是对数据库功能的拓展。在数据库中,将我们训练的机器学习模型和设计的函数应用到数据上,观察最终结果和我们预期是否一致,并基于此不断改进完善。迭代改进正是数据科学常见的生命周期流程。

数据科学的应用举例

  • 零售业:为什么有些公司可以成为零售业的巨头?这离不开对数据科学的充分利用。例如,数据科学可以对商品的价格调整给出建议、对用户的需求进行预测、对不断变化的供给关系进行管理等,从而在整个供应链的调整上发挥关键作用。
  • 公共部门:由于决策数量的不断增和及决策的复杂化,数据科学在公共部门也有着巨大的应用价值。使用数据科学可以提高问题决策的效率,并在准确有效、公平公正等方面也有进一步提升,从而帮助决策者使用更好的策略应对未来的发展。
  • 银行业:数据科学已广泛应用于很多关键的银行业务,包括客户情报、风险投资管理以及诈骗检测等,甚至很多关键业务由数据科学驱动发展。在竞争激烈的银行业中,数据科学的使用价值愈加凸显。

亚马逊云科技热门云产品

Amazon EMR

Amazon EMR

托管的 Hadoop 框架

Amazon SageMaker

Amazon SageMaker

适用于每位开发人员和数据科学家的机器学习

Amazon-Deep-Learning-AMIs

Amazon Deep Learning AMI

快速构建深度学习应用程序

Amazon Step Functions

Amazon Step Functions

使用可视化工作流构建分布式应用程序

欢迎加入亚马逊云科技培训中心

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
  • 快速上手训练营
  • 第一课:亚马逊云科技简介

    本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

    亚马逊云科技技术讲师:李锦鸿

    第二课:存储与数据库服务

    您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

    亚马逊云科技资深技术讲师:周一川

    第三课:安全、身份和访问管理

    在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

    亚马逊云科技技术讲师:马仲凯
  • 账单设置与查看
  • 视频:快速完成税务设置

    部署时间:5 分钟

    视频:账户账单信息

    部署时间:3 分钟

    视频:如何支付账单

    部署时间:3 分钟

  • 动手实操
  • 快速上手云上无服务器化的 MySQL 数据库

    本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

    部署时间:10 分钟

    启动一台基于 Graviton2 的 EC2 实例


    本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

    部署时间:5 分钟

    使用 Amazon Systems Manager 进行云资源统一跟踪和管理

    在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

    部署时间:10 分钟