当前位置：首页 > news >正文

机器学习：强化学习的epsilon贪心算法

news 来源：原创 2025/9/4 4:40:01

强化学习（Reinforcement Learning, RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错探索（Exploration-Exploitation）以及基于奖励信号的学习。

在这里插入图片描述

强化学习任务通常用马尔可夫决策过程来描述：机器处于环境 $E$ 中，状态空间 $X$ ，其中每个状态 $\in X$ 是机器感知到的环境的描述，机器能采取的动作构成了动作空间 $A$ ，若某个动作 $\in A$ 作用在当前状态 $x$ 上，则潜在的转移函数 $P$ 将使得环境从当前状态按照某种概率转移到另一个状态，在转移到另一个状态的同时，环境会根据潜在的“奖赏”函数 $R$ 反馈给机器一个奖赏。

在环境中状态的转移、奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

机器要做的是通过在环境中不断地尝试而学得一个“策略”，根据这个“策略”在状态 $x$ 下就能知道要执行得动作。

在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。

强化学习与监督学习来说，强化学习是没有人直接告诉机器在什么状态下应该做什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习，因此，强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

强化学习任务的最终奖赏是在多步动作之后才能观察到，这里考虑简单情形：最大化单步奖赏，即仅考虑一步操作。单步强化学习任务对应了一个理论模型：k-摇臂赌博机。

k- 摇臂赌博机：有k个摇臂，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最多的硬币。

若仅为获知每个摇臂的期望奖赏，则可采用“仅探索”法：将所有的尝试机会平均分配给每个摇臂，最后以每个摇臂各自的平均吐币概率作为其奖赏的近似评估。若仅为执行奖赏最大的动作，则可采用“仅利用”法：按下目前最优的摇臂。“仅探索”法会失去很多选择最优摇臂的机会；“仅利用”法可能经常选不到最优摇臂。

$\epsilon$ 贪心法是基于一个概率来对探索和利用进行折中：每次尝试时，以 $\epsilon$ 的概率进行探索，以 $\epsilon$ 的概率进行利用。

则平均奖赏为：
$\frac{1}{n} \sum_{i=1}^nv_i$
可以改成增量计算：
$Q_n(k) = \frac {1}{n} ( (n - 1) \times Q_{n-1}(k) + v_n) \\ = Q_{n-1}(k) + \frac{1}{n}(v_n - Q_{n-1}(k))$

代码

k-摇臂赌博机实现：

import numpy as npclass KArmedBandit:def __init__(self, k=10, true_reward_mean=0, true_reward_std=1):"""k: 摇臂数量true_reward_mean: 奖励均值的均值true_reward_std: 奖励均值的标准差"""self.k = kself.q_true = np.random.normal(true_reward_mean, true_reward_std, k)  # 每个摇臂的真实均值def step(self, action):"""执行动作（拉某个摇臂），返回奖励"""reward = np.random.normal(self.q_true[action], 1)  # 以 q*(a) 为均值的正态分布return reward

$\epsilon$ 贪心实现：

from data_processing import KArmedBandit
import numpy as np
import matplotlib.pyplot as pltdef select_action(epsilon:float, q_estimates:np.ndarray):"""根据 epsilon-greedy 策略选择动作"""if np.random.rand() < epsilon: # 随机选择return np.random.choice(len(q_estimates))  # else:return np.argmax(q_estimates)  # 选择估计奖励最高的动作
def update_estimates(q_estimates:np.ndarray, action:int, reward:float, action_counts:np.ndarray):"""更新动作的估计奖励"""action_counts[action] += 1q_estimates[action] += (reward - q_estimates[action]) / action_counts[action]return q_estimates, action_countsdef start(k:int, epsilon:float, epochs:int, stps:int):"""开始运行 epsilon-greedy 算法"""q_estimates = np.zeros(k)  # 每个摇臂的估计奖励action_counts = np.zeros(k)  # 每个摇臂被选择的次数avg_rewards = np.zeros(stps)  # 记录每次拉摇臂的奖励for epoch in range(epochs):bandit = KArmedBandit(k)rewards = []for step in range(stps):action = select_action(epsilon, q_estimates)reward = bandit.step(action)q_estimates, action_counts = update_estimates(q_estimates, action, reward, action_counts)rewards.append(reward) # 记录奖励avg_rewards += np.array(rewards) # 记录每次拉摇臂的奖励avg_rewards /= epochsreturn avg_rewardsif __name__ == '__main__':k = 10epsilon = 0.1epochs = 2000stps = 1000avg_rewards = start(k, epsilon, epochs, stps)plt.plot(avg_rewards)plt.xlabel('Steps')plt.ylabel('Average reward')plt.title('RL: epsilon-greedy Performance')plt.show()

在这里插入图片描述

深入理解强化学习（一）- 概念和术语 - 知乎 (zhihu.com)

机器学习：强化学习的epsilon贪心算法

强化学习（Reinforcement Learning, RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错…...

编程日记 2025/9/4 4:40:01

MySQL-高级查询

查询处理排序（默认不是按主键排序的） order by 字段1[，字段2] [asc|desc] 默认是升序排序也可以指定 select 列表中列的序号进行排序如果是多个字段，那么在上一个字段排序完的基础上排序下一个限制数量 limit 行数&#xff0…...

编程日记 2025/9/2 5:26:41

NModbus 连接到Modbus服务器（Modbus TCP）

1、在项目中通过NuGet添加NModbus，在界面中添加一个Button。 using NModbus.Device; using NModbus; using System.Net.Sockets; using System.Text; using System.Windows; using System.Windows.Controls; using System.Windows.Data; using System.Windows.Docu…...

编程日记 2025/8/21 0:43:05

value_counts()和unique()

我今天发现一个很有意思的问题哈 import scanpy as sc import numpy as npX np.random.randn(10,3) adata1 sc.AnnData(X) adata1.obs["sample"] "H1" print(adata1)X np.random.randn(20,3) adata2 sc.AnnData(X) adata2.obs["sample"] &…...

编程日记 2025/8/30 14:16:00

FinRobot：一个使用大型语言模型进行金融分析的开源AI代理平台

文章目录前言一、生态系统1. 金融AI代理（Financial AI Agents）2. 金融大型语言模型（Financial LLMs）3. LLMOps4. 数据操作（DataOps）5. 多源LLM基础模型（Multi-Source LLM Foundation Models&am…...

编程日记 2025/8/28 1:48:53

示例：在WPF中如何使用Segoe MDL2 Assets图标和使用该图标的好处

一、目的：分享在WPF中如何使用Segoe MDL2 Assets图标和使用该图标的好处在WPF中使用Segoe MDL2 Assets字体，可以通过设置控件的FontFamily属性来实现。Segoe MDL2 Assets是一个包含许多图标的字体，通常用于Windows应用程序的图标显示。二、…...

编程日记 2025/8/30 0:32:15

使用UA-SPEECH和TORGO数据库验证自动构音障碍语音分类方法

使用UA-SPEECH和TORGO数据库验证自动构音障碍语音分类方法引言原文：On using the UA-Speech and TORGO databases to validate automatic dysarthric speech classification approaches 构音障碍简介构音障碍是一种由于脑损伤或神经疾病（如脑瘫、肌萎缩侧索硬化症、帕金森…...

编程日记 2025/8/30 8:31:51

容器与虚拟机：云时代的底层架构博弈

容器与虚拟机：云时代的底层架构博弈在数字化浪潮席卷的当下，云技术已成为企业和开发者不可或缺的基础设施。在云环境中，容器和虚拟机作为两种关键的底层技术，犹如双子星般备受瞩目。它们究竟谁能在这场技术较量中脱颖而出&#x…...

编程日记 2025/9/1 3:17:47

解决android studio(ladybug版本) gradle的一些task突然消失了

今天不知道干了啥，AS（ladybug版本）右边gradle的task有些不见了，研究了半天解决了，这里记录下： 操作： File -->Settings-->Experimental--> 取消选项“Enable support for multi-vari…...

编程日记 2025/8/16 11:34:47

Wpf-ReactiveUI-Usercontrol交互

文章目录 1、使用属性绑定UserControl 部分（MyUserControl.xaml.cs）UserControl 视图模型部分（MyUserControlViewModel.cs）主界面部分（MainWindow.xaml）主界面视图模型部分（MainWindowViewModel.cs）2、使用消息传递UserControl 视图模型部分（MyUserControlViewModel.c…...

编程日记 2025/8/27 1:33:48

Unity插件-Mirror使用方法（四）组件介绍（Network Manager HUD）

目录一、插件介绍二、主要组件 Network Manager 三、Network Manager HUD 1、组件介绍 2、NetworkManagerHUD 的核心功能快速操作按钮状态信息显示场景切换支持调试辅助 3、关键属性与配置 4、HUD 界面详解【主机模式（服务器客户端）…...

编程日记 2025/9/2 20:09:56

UDP协议（20250303）

1. UDP UDP:用户数据报协议（User Datagram Protocol），传输层协议之一（UDP，TCP） 2. 特性发送数据时不需要建立链接，节省资源开销不安全不可靠的协议 //一般用在实时性比较高…...

编程日记 2025/8/28 4:22:26

【量化金融自学笔记】--开篇.基本术语及学习路径建议

在当今这个信息爆炸的时代，金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被更加科学、精准的量化技术所取代。量化金融，这个曾经高不可攀的领域，如今正逐渐走进大众的视野。它将数学、统计学、计算机科学与金融学深度融合&…...

编程日记 2025/8/30 9:03:37

振弦采集仪多通道振弦采集终端物联网振弦监测智能振弦监测系统

振弦采集仪多通道振弦采集终端物联网振弦监测智能振弦监测系统 VD416_DIN 多通道振弦温度综合采集仪采用模块化设计，配备 32 通道传感器接口，支持两种高效工作模式：16 通道振弦频率与 16 通道温度同步采集，或 32 通道振弦频率专…...

编程日记 2025/8/23 14:47:53

Synchronized解析

一、底层原理：Monitor机制对象锁与Monitor关联 synchronized通过对象锁实现互斥，每个Java对象都可以关联一个Monitor（监视器），其底层由JVM用C实现。当线程进入synchronized代码块时，会尝试获取与锁对象关联…...

编程日记 2025/9/3 16:22:05

别再瞎学！C 语言入门看这篇就够了

目录 1. 如何学好C语言 2. C语言是什么？ 3. C语⾔的历史和辉煌 4. 编译器的选择 4.1 编译和链接 4.2 编译器大比拼，VS2022 脱颖而出 4.3 VS2022 优缺点大揭秘 5. VS项⽬和源⽂件、头⽂件介绍 6. 第一个C语言程序 7. main 函数：程序…...

编程日记 2025/9/3 7:01:29

Linux操作系统5-进程信号2（信号的4种产生方式，signal系统调用）

上篇文章：Linux操作系统5-进程信号1（信号基础）-CSDN博客本篇Gitee仓库：myLerningCode/l25 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 本篇重点：信号的4种产生目录一. signal系统调用 …...

编程日记 2025/9/2 11:43:40

【Groovy】Array、List、Set、Map简介

1 Array 1.1 创建数组 1.1.1 创建一维数组 int[] arr1 new int[2] arr1[0] 1 arr1[1] 2float[] arr2 new float[] { 1f, 2f, 3f } String[] arr3 ["abc", "xyz"] as String[] 1.1.2 创建二维数组 int[][] arr1 new int[2][2] arr1[0][0] 1 arr…...

编程日记 2025/9/1 18:32:12

DeepSeek与数据分析：现状、挑战与未来展望

在当今数字化时代，人工智能（AI）的浪潮正以前所未有的速度席卷各个领域，数据分析作为众多行业决策的关键支撑，也不可避免地受到AI技术发展的深刻影响。近期，AI话题持续火热，不少企业老板要求员工…...

编程日记 2025/9/2 13:51:54

【通俗讲解电子电路】——从零开始理解生活中的电路(三)

实际应用案例：生活中的电子电路 ——拆解你身边的“隐形工程师” 1. 手电筒电路：最简单的直流系统电路组成电源：2节1.5V电池（串联3V）。开关：按钮控制回路通断。 LED：发光二极管&#xff…...

编程日记 2025/8/31 19:34:20

JVM基本概念及内存管理模型

一、JVM基本概念 JVM（Java Virtual Machine，Java 虚拟机）是 Java 程序运行的核心组件。它负责将 Java 字节码转换为特定平台的机器指令，并提供内存管理、垃圾回收、安全性等功能。JVM 的主要功能包括以下： 加载和执行…...

编程日记 2025/9/1 9:43:04

【CPP面经】科大讯飞腾讯后端开发面经分享

文章目录 C 面试问题整理基础问题简答1. 内存对齐2. this 指针3. 在成员函数中删除 this4. 引用占用内存吗？5. C 越界访问场景6. 进程通信方式7. 无锁队列实现8. ping 在哪一层？实现原理？9. HTTPS 流程10. GDB 使用及 CPU 高使用定位11. 智能…...

编程日记 2025/8/28 17:12:12

2.反向传播机制简述——大模型开发深度学习理论基础

在深度学习开发中，反向传播机制是训练神经网络不可或缺的一部分。它让模型能够通过不断调整权重，从而将预测误差最小化。本文将从实际开发角度出发，简要介绍反向传播机制的核心概念、基本流程、在现代网络中的扩展，以及如何利用自…...

编程日记 2025/8/29 1:27:44

使用Word时无法粘贴，弹出错误提示：运行时错误‘53‘:文件未找到：MathPage.WLL

报错说明使用Word时无法粘贴，粘贴时弹出提示如下： 一般出现这种情况时，我想你是刚装完MathType不久，博主装的是MathType7版本，出现了这个问题。出现这个问题的原因是"mathpage.wll"这个文件在Office的插…...

编程日记 2025/8/24 19:46:01

详解matplotlib隐式pyplot法和显式axes法

Python的matplotlib提供了pyplot隐式方法和显式Axes方法，这让很多人在选择时感到困惑。本文用9000字彻底解析两种方法的区别与适用场景，节选自👉Python matplotlib保姆级教程 matplotlib隐式绘图方法（pyplot） matplot…...

编程日记 2025/8/31 6:55:53

100天精通Python（爬虫篇）——第113天：爬虫基础模块之urllib详细教程大全

文章目录 1. urllib概述2. urllib.request模块 1. urllib.request.urlopen()2. urllib.request.urlretrieve()3. urllib.request.Request()4. urllib.request.install_opener()5. urllib.request.build_opener()6. urllib.request.AbstractBasicAuthHandler7. urllib.request.…...

编程日记 2025/9/3 19:51:58

FPGA开发，使用Deepseek V3还是R1（2）：V3和R1的区别

以下都是Deepseek生成的答案 FPGA开发，使用Deepseek V3还是R1（1）：应用场景 FPGA开发，使用Deepseek V3还是R1（2）：V3和R1的区别 FPGA开发，使用Deepseek V3还是R1&#x…...

编程日记 2025/8/27 20:51:47

Leetcode LRU缓存

LRU 缓存算法思想及代码解析算法思想 LRU（Least Recently Used，最近最少使用）缓存需要满足以下要求： 在 O(1) 时间复杂度内完成 get 和 put 操作。当缓存满时，删除最近最少使用的元素（即最久没有被访问…...

编程日记 2025/8/31 14:05:56

结合PyMuPDF+pdfplumber，删除PDF指定文本后面的内容

🚀 一、需求场景解析在日常办公中，我们经常会遇到这样的痛点：合同处理：收到上百份PDF合同，需要找到"签署页"之后的内容并删除报表加工：批量移除财务报表中的敏感数据区域文档归档：快速提取技术文档的关键章节传统的手动操作方式存在三大致命缺陷： ❗ 耗时…...

编程日记 2025/9/3 15:23:15

【NLP 30、文本匹配任务 —— 传统机器学习算法】

目录一、文本匹配任务的定义 1.狭义解释 2.广义解释二、文本匹配的应用 1.问答对话 2.信息检索 3.文本匹配任务应用三、智能问答 1.智能问答的基本思路依照基础资源划分： 依照答案产出方式划分依照NLP相关技术划分四、智能问答的价值 1.智能客服 2.Faq知识库问…...

编程日记 2025/9/2 17:58:41

修改hosts文件，修改安全属性，建立自己的DNS

初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C的，可以在任何平台上使用。源码指引：github源…...

编程日记 2025/8/30 12:56:20

springboot + mybatis-plus + druid

目录架构 config MyMetaObjectHandler.java package com.example.config;import com.baomidou.mybatisplus.core.handlers.MetaObjectHandler; import org.apache.ibatis.reflection.MetaObject; import org.springframework.stereotype.Component;import java.util.Date;Com…...

编程日记 2025/9/1 19:27:40

代码

相关文章：