什么是强化学习?

强化学习是机器学习的范式和方法论之一,一般用于:描述和解决智能体在和环境交互的过程中,通过学习策略以达成回报最大化或者实现特定目标的问题。强化学习一般被分为基于模式的强化学习和无模式的强化学习,在有些情况下也被分为主动和被动的强化学习。

强化学习的原理

强化学习的基本原理

强化学习是一种基于奖惩机制的机器学习范式,其基本原理是:如果智能体(代理)的行为导致环境给出正向奖赏,那么智能体后续产生这个行为策略的趋势就会得到强化。强化学习将学习视为一个试探和评价的过程,其中智能体选择一个动作应用于环境,环境接受这个动作后状态就会发生变化,并给出相应的奖赏或惩罚反馈。通过不断尝试不同的行为并根据环境反馈进行调整,智能体逐步学习到最优的行为策略。

  • 强化学习的关键要素包括:智能体、环境、状态、行为、奖赏函数等。
  • 智能体与环境进行交互,根据当前状态选择行为,环境根据行为给出奖赏或惩罚,并转移到新的状态。
  • 智能体的目标是通过学习,找到一个策略,使得在环境中获得的累积奖赏最大化。


强化学习的学习目标

强化学习的学习目标是从环境状态到行为的映射,让智能体所选择的行为获得环境最大的奖赏反馈,使得外部环境对学习系统在某种意义下的评价达到最佳。具体来说:

  • 学习一个策略 (policy),即状态到行为的映射函数,指导智能体在每个状态下选择最优行为。
  • 最大化预期的累积奖赏 (expected cumulative reward),即在环境中获得的长期收益。
  • 在强化学习系统中需要有某种探索机制(如 ε-greedy、软更新等),通过使用这种探索机制,智能体能够在动作空间中进行搜索并发现正确的动作序列。
  • 强化学习算法通过试错和奖惩反馈,不断优化策略,使智能体的行为逐步趋向于最优。

强化学习的优点

  • 强化学习能够通过采样优化性能,并使用函数逼近处理大型环境;
  • 强化学习能够应用于已知环境模型但无法获得解析解的情况,或者只给出模拟模型,或者唯一获取信息的方式是与环境交互的情况;
  • 强化学习已成功应用于多个领域,如储能运营、机器人控制、光伏发电调度、棋类游戏以及自动驾驶系统等;
  • 强化学习算法能够快速适应不断变化的环境,并找到新的策略优化结果;
  • 强化学习需要较少的人工交互,算法可以自主学习和发现最优结果,无需标注数据;
  • 强化学习非常适合具有长期后果的场景,因为它可以优化长期回报的最大化。
强化学习的优点

强化学习特点

强化学习是一种机器学习范式,具有以下独特特点:

  • 缺少监督者角色:与监督学习不同,强化学习没有外部监督者提供正确答案。智能体 (agent) 必须通过与环境的交互来学习,并根据从环境获得的反馈来调整其行为。
  • 延迟反馈:强化学习中,智能体的行为并不会立即获得反馈。相反,反馈(奖励或惩罚)可能会在一段时间后才出现,这就需要智能体具有长期规划和预测的能力。
  • 时间序列性质:强化学习问题涉及一系列决策,每个决策都会影响后续状态和奖励。因此,强化学习具有时间序列的特性,需要考虑动态决策过程。
  • 行为影响后续数据:在强化学习中,智能体的行为会直接影响环境的状态,从而影响后续获得的数据。这与监督学习和无监督学习形成鲜明对比,后两者的训练数据是固定的。

强化学习具有以下四大核心要素:

  • 策略 (Policy):定义了在给定环境状态下,智能体应该采取何种行为。策略是强化学习的核心,目标是找到一个最优策略。
  • 奖励 (Reward):环境在每个时间步骤向智能体发出的标量反馈,用于指导智能体朝着正确方向学习。奖励函数定义了强化学习的目标。
  • 价值 (Value):对长期收益的衡量,用于评估当前行为的收益。价值函数能够从长期角度评判行为的好坏。
  • 模型 (Model):对环境的模拟或表示。强化学习可以选择基于模型(有模型)或不基于模型(无模型)两种方法。

通过与环境的反复交互,并根据奖励信号调整策略,强化学习算法能够找到最优策略,从而解决复杂的序列决策问题。

强化学习特点

强化学习算法分类

1

ModelFree 算法

这类算法不需要了解环境的转移概率模型,只依赖于通过与环境交互获得的经验数据。ModelFree 算法可以进一步分为两种:

  • 基于策略优化的算法:这些算法直接优化策略函数,例如策略梯度算法。它们试图找到可以最大化期望回报的最优策略。
  • 基于 Qlearning 的算法: 这些算法不直接学习策略,而是学习状态行为值函数 Q(s,a),然后根据 Q 值贪婪地选择行为。Qlearning 和深度 Q 网络 (DQN) 就属于这一类。


2

ModelBased 算法

这类算法需要了解或学习环境的转移概率模型。拥有环境模型的优势在于智能体可以基于模型预测未来状态,从而更好地规划行动路径。ModelBased 算法也可分为两种:

  • 模型学习算法: 这些算法需要从与环境交互的数据中学习环境的转移概率模型,例如使用监督学习技术。
  • 给定模型算法: 这些算法假设环境的转移概率模型是已知的,例如一些经典的规划算法。

强化学习应用

强化学习作为一种通用的机器学习范式,在各个领域都有广泛的应用前景,可以帮助智能体学习最优的决策和控制策略,以完成复杂的任务。
  • 轨迹优化: 强化学习可用于优化无人驾驶车辆的行驶路径和轨迹,以实现更高效、更安全的行驶。
  • 运动规划: 通过强化学习,无人驾驶系统可以学习规划车辆的运动和动作序列,以应对复杂的交通环境。
  • 动态路径规划: 强化学习可用于动态调整车辆的行驶路径,以避开障碍物并适应实时交通状况。
  • 最优控制: 强化学习可用于优化车辆的控制策略,如加速、减速、转向等,以实现更平稳、更高效的驾驶体验。
  • 基于强化学习的机器人可以被用于执行各种任务,如装配、搬运、焊接等。
  • 强化学习可以帮助机器人学习最优的动作序列,以完成复杂的任务。
  • 强化学习可以用于自动化交易决策,如何时持有、购买或出售金融资产。
  • 通过强化学习,智能体可以学习最优的交易策略,以最大化回报并控制风险。
  • 强化学习可用于文本摘要任务,生成高质量的文本摘要。
  • 在问答系统中,强化学习可用于优化答案生成策略,提高答案的准确性和相关性。
  • 强化学习可用于诊断和治疗决策,无需先验信息,而是通过以往的经验直接找到最优策略。
  • 在药物开发中,强化学习可用于优化分子结构,以提高药物的疗效和安全性。

强化学习与监督学习的区别

数据标注需求不同

监督学习需要大量标注好的输入输出数据对来训练模型,强化学习则不需要这种标注数据。强化学习的目标是通过与环境的交互,探索不同行为策略,从而最大化长期累积奖励,即使奖励反馈是不完整或延迟的。

数据标注需求不同

学习目标不同

监督学习的目标是从给定的输入中推断出期望的输出,其代价函数通常与消除错误推断相关。而强化学习的目标是找到一个策略,使得在与环境交互时获得的长期累积奖励最大化。

学习目标不同

环境建模需求不同

强化学习算法不需要事先了解环境的精确数学模型,而是将环境表示为马尔可夫决策过程。这使得强化学习可以应用于难以建模的复杂环境。相比之下,监督学习并不对环境做这种假设。

环境建模需求不同

应用场景不同

强化学习擅长处理需要长期规划、短期牺牲以获得长期利益的复杂动态环境,如无人驾驶汽车在城市交通中的导航。监督学习则更适用于简单的输入输出映射任务。

应用场景不同

云计算专家 1v1 定制 DeepSeek 企业级部署方案

企业尊享服务现已推出!现在申请即可享受云计算专家 1v1 定制 DeepSeek 企业级部署方案,实现高效数字化转型!

强化学习的挑战

在现实世界中实验奖惩系统可能不切实际,因为可能导致意外后果,如无人机损坏;现实环境往往不可预测,使得强化学习算法在实践中更加困难;复杂的强化学习算法可解释性较差,很难理解导致最优结果的一系列行为背后的原理。

强化学习的挑战

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

快速上手训练营

第一课:亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师:李锦鸿

第二课:存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师:周一川

第三课:安全、身份和访问管理

在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

亚马逊云科技技术讲师:马仲凯

了解更多入门学习计划 »

快速上手训练营

账单设置与查看

账单设置与查看

动手实操

快速上手云上无服务器化的 MySQL 数据库

本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

部署时间:10 分钟

启动一台基于 Graviton2 的 EC2 实例

本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

部署时间:5 分钟

使用 Amazon Systems Manager 进行云资源统一跟踪和管理

在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

部署时间:10 分钟

查看更多教程 »

动手实操

快速注册账号 享用免费套餐

快速注册账号 享用免费套餐

跟随注册步骤详解,三分钟快速创建账号,领取免费权益   立即注册 »

跟随注册步骤详解,三分钟快速创建账号,领取免费权益   立即注册 »

  • 1 进入注册页面
  • 1. 打开中国区

    输入邮箱 - 邮箱验证

    1. 打开中国区 账号注册页面

    输入邮箱 - 邮箱验证
    01
    填写您
    注册账号的邮箱
    点击“继续”
    01
    填写您
    注册账号的邮箱
    点击“继续”
    02
    查看您的
    注册账号邮箱
    02
    查看您的
    注册账号邮箱
    03
    输入
    邮箱中收到的验证码
    点击“继续”
    03
    输入
    邮箱中收到的验证码
    点击“继续”
    注:该链接中的内容显示语言 是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。 *图片点击可放大
  • 2 设置用户名及密码
  • 2. 填写用户名密码

    设置用户名 - 设置密码 - 确认密码

    2. 填写用户名密码

    设置用户名 - 设置密码 - 确认密码
    01
    请设置您的
    账号用户名
    *例如: webchina
    01
    请设置您的
    账号用户名
    *例如: webchina
    02
    为您的帐号
    设置密码
    02
    为您的帐号
    设置密码
    03
    重新
    输入密码
    03
    重新
    输入密码
    *图片可点击放大
  • 3 填写企业信息
  • 3. 填写账号联系人以及公司信息

    3. 填写账号联系人以及公司信息

    填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议
    填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议
    01
    填写公司联系人
    姓名全称
    01
    填写公司联系人
    姓名全称
    02
    填写公司联系人的
    联系电话
    02
    填写公司联系人的
    联系电话
    03
    填写
    公司名称
    *重要! ! !公司名称请务必与您所提供的营业执照公司名称保持一致
    03
    填写
    公司名称
    *重要! ! !公司名称请务必与您所提供的营业执照公司名称保持一致
    04
    填写
    公司办公地址
    省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
    04
    填写
    公司办公地址
    省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
    05
    请选择
    是否需要发票
    05
    请选择
    是否需要发票
    06
    点击查看
    客户协议
    勾选方框表示您已阅读,并同意客户协议的条款
    06
    点击查看
    客户协议
    勾选方框表示您已阅读,并同意客户协议的条款
    *图片可点击放大
  • 4 企业信息验证
  • 4. 企业信息验证

    上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件

    4. 企业信息验证

    上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件
    01
    在此上传
    企业注册执照
    01
    在此上传
    企业注册执照
    02
    请填写网络安全负责人的
    姓名

    请注意: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

    02
    请填写网络安全负责人的
    姓名

    请注意: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

    03
    请填写网络安全负责人的
    联系方式
    有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
    03
    请填写网络安全负责人的
    联系方式
    有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
    04
    在此上传网络安全负责人的
    身份证件

    请注意:当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

    04
    在此上传网络安全负责人的
    身份证件

    请注意:当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

    *图片可点击放大
  • 5 完成手机验证
  • 5. 完成手机验证

    输入手机号 - 输入验证码

    5. 完成手机验证

    输入手机号 - 输入验证码
    01
    在此填写
    手机号
    01
    在此填写
    手机号
    02
    请输入您收到的
    4 位
    验证码
    02
    请输入您收到的 4 位
    验证码
    03
    请点击
    继续
    03
    请点击
    继续
    *图片可点击放大
  • 6 选择支持计划
  • 6. 选择支持计划

    选择一个亚马逊云科技支持计划

    6. 选择支持计划

    选择一个亚马逊云科技支持计划
    请根据需求
    选择一个支持计划
    请根据需求
    选择一个支持计划
    *图片点击可放大
限时钜惠

免费试用 Amazon EC2 T4g 实例

新老用户现可享受每月 750 小时的免费 t4g.small 实例使用时长,优惠期至 2025 年 12 月 31 日!

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域