当前位置：首页 > news >正文

强化学习（Reinforcement Learning, RL）和深度学习（Deep Learning, DL）

news 来源：原创 2025/9/23 13:39:05

强化学习（Reinforcement Learning, RL）和深度学习（Deep Learning, DL）是人工智能领域两个重要的研究方向，虽然二者可以结合（如深度强化学习），但其核心思想、目标和应用场景存在本质区别。

1. 定义与核心目标

维度	强化学习	深度学习
核心定义	面向决策的交互学习：通过与环境的试错交互，学习最大化长期奖励的最优策略。	面向模式的表示学习：通过多层神经网络从数据中提取特征，完成分类、回归等任务。
核心目标	学习一个策略（Policy），指导智能体在动态环境中做出最优决策。	学习一个函数（Function），从输入数据到输出标签的映射（如分类、生成）。

2. 数据依赖与交互性

维度	强化学习	深度学习
数据来源	数据通过智能体与环境的实时交互产生（如游戏中的动作序列）。	依赖预先收集的静态数据集（如ImageNet图像库）。
数据标签	无显式标签，通过奖励信号（Reward）间接反馈动作质量。	需要明确的监督标签（如分类任务的类别标签）。
数据动态性	数据分布随策略改变而动态变化（非独立同分布）。	假设数据独立同分布，分布固定。

3. 训练机制对比

维度	强化学习	深度学习
优化目标	最大化累积奖励期望值	最小化损失函数
反馈机制	延迟反馈：奖励可能仅在多步动作后获得（如围棋终局的胜负）。	即时反馈：每个输入样本都有对应的标签或损失值。
探索与利用	必须平衡探索（尝试新动作）和利用（选择已知最优动作）。	无需显式探索，数据分布由数据集决定。

4. 算法与模型结构

维度	强化学习	深度学习
典型算法	Q-Learning、策略梯度（PG）、Actor-Critic、PPO、DQN	卷积神经网络（CNN）、循环神经网络（RNN）、Transformer、生成对抗网络（GAN）
模型角色	策略（Policy）或价值函数（Value Function）的表示工具。	直接作为端到端的预测或生成模型。
输入输出	输入：环境状态（State）；输出：动作（Action）或动作价值（Q-Value）。	输入：原始数据（如图像、文本）；输出：标签、特征或生成内容。

5. 典型应用场景

强化学习	深度学习
游戏AI（AlphaGo、Dota 2 Bot）	图像分类（ResNet）、目标检测（YOLO）
机器人控制（机械臂抓取、双足行走）	自然语言处理（BERT、GPT）
自动驾驶（路径规划、决策系统）	语音识别（WaveNet）、图像生成（Stable Diffusion）
资源调度（5G网络优化、计算集群任务分配）	医疗影像分析、推荐系统

6. 核心挑战对比

强化学习	深度学习
稀疏奖励：关键动作的奖励信号可能极少（如迷宫探索）。	数据依赖：需要大量标注数据。
探索效率：高维动作空间下的采样复杂度高。	过拟合风险：模型复杂时易记忆训练数据。
非平稳环境：策略变化导致环境反馈分布偏移。	可解释性差：黑箱模型难以追溯决策逻辑。

7. 两者结合：深度强化学习（DRL）

将深度学习作为强化学习的函数近似器，解决传统RL在高维状态/动作空间下的局限性：

经典算法：DQN（深度Q网络）、DDPG（深度确定性策略梯度）
核心思想：用深度神经网络替代Q表或线性策略，例如：
Q(s,a;θ)≈神经网络(s)→a的价值
应用场景：Atari游戏（像素输入→动作决策）、机器人仿真控制。

总结

强化学习是动态决策引擎，关注“在未知环境中如何行动”；
深度学习是静态模式提取器，关注“如何从数据中抽象特征”；
深度强化学习则结合二者优势，实现“从高维感知到复杂决策”的端到端学习。

强化学习（Reinforcement Learning, RL）和深度学习（Deep Learning, DL）

强化学习（Reinforcement Learning, RL）和深度学习（Deep Learning, DL）是人工智能领域两个重要的研究方向，虽然二者可以结合（如深度强化学习），但其核心思想、目标和应用场景存在本质区…...

编程日记 2025/9/23 13:39:05

图论---Prim堆优化（稀疏图）

题目通常会提示数据范围： 若 V ≤ 500，两种方法均可（朴素Prim更稳）。若 V ≤ 1e5，必须用优先队列Prim vector 存图。 #include <iostream> #include <vector> #include <queue> #include <…...

编程日记 2025/9/22 13:01:49

【优秀三方库研读】【C++基础知识】odygrd/quill -- 折叠表达式

compute_encoded_size_and_cache_string_lengths 方法中这段代码是一个C的折叠表达式（fold expression）的应用，用于计算多个参数编码后的总大小。下面我将详细解释这段代码的每个部分，并说明为什么这样写。代码如下： …...

编程日记 2025/9/20 14:01:43

优化Nginx的下载功能

缘起： 我购置了一台阿里云ECS，其EIP带宽3m/s，但是在其上的作为下载文件的服务器nginx提供的下载速度仅有几百KB。分析： 既然没有达到带宽瓶颈，肯定存在优化的空间。浮现脑海的想法，nginx没有进行最佳配置…...

编程日记 2025/9/12 0:25:21

Vue3集成浏览器API实时语音识别

效果示例用法  <BrowserSpeechRecognitionModal v-if"showModal" :isOpen"showModal" close"showModal false" confirm"handleRecognitionResult" />const showModal ref(false); const input…...

编程日记 2025/9/23 13:37:57

Python3 基础：函数定义与调用

Python3 基础：函数定义与调用什么是函数？一、函数的定义二、函数的调用三、函数参数3.1位置参数3.2关键字参数3.3默认参数值3.4可变数量的参数args：接收任意数量的位置参数**kwargs：接收任意数量的关键字参数 3.5 综合使用各种参…...

编程日记 2025/9/23 2:47:21

Vue 2 的响应式 API 和 Vue 3 的组合式 API 的详细对比，从核心机制、使用方式、代码示例及优缺点展开

以下是 Vue 2 的响应式 API 和 Vue 3 的组合式 API 的详细对比，从核心机制、使用方式、代码示例及优缺点展开： 1. Vue 2 的响应式 API 核心机制基于 Object.defineProperty： 通过劫持对象的 getter 和 setter 实现数据变化追踪。限制&…...

编程日记 2025/9/21 11:37:57

修改了Element UI中组件的样式，打包后样式丢失

修改了Element UI中组件的样式，在本地运行没有问题，但是打包到线上发现样式丢失（样式全部不生效、或者有一部分生效，一部分不生效），问题在于css的加载顺序导致代码编译后样式被覆盖了， 解决办法…...

编程日记 2025/9/12 23:10:31

大模型工业化元年：GPT-5开启通用AI新纪元，中国技术如何破局？

过去一周，AI领域的焦点无疑是OpenAI发布的GPT-5预览版，以及全球大模型技术从实验室迈向工业化的关键转折。这场变革不仅标志着通用人工智能（AGI）的进一步逼近，更掀起了全球产业链的竞争与反思。本文将从技术突破、产业…...

编程日记 2025/9/16 6:45:42

离线电脑安装python包

离线电脑安装python第三方库在联网电脑上下载Python包使用pip安装所需的包，例如 pip install requests numpy导出已安装的包列表 pip freeze > requirements.txt根据requirements.txt下载包及其所有依赖项到指定目录： pip download -r require…...

编程日记 2025/9/20 2:59:31

【Unity AR开发插件】一、高效热更新：Unity AR 插件结合 HybridCLR 与 ARFoundation 的开源仓库分享

摘要本篇博客详细介绍了我基于 HybridCLR 与 AR Foundation 的 Unity AR 开发插件，旨在为开发者提供高效的跨平台热更新方案。文章从背景与动机出发，覆盖一键安装工具、环境配置、热更新数据制作与示例程序运行等核心模块，并展示代码结构与使…...

编程日记 2025/9/21 2:26:03

深入浅出学会函数（下）

5. return语句在函数的设计中，函数中经常会出现return语句，这里讲一下return语句使用的注意事项。 return 后面可以是一个数值，也可以是一个表达式，如果是表达式先执行表达式，再返回表达式的结果。return 后面也可以…...

编程日记 2025/9/22 7:43:36

架构-软件工程

一、软件过程模型（核心高频考点） 1. 瀑布模型知识点：严格分阶段（需求→设计→编码→测试→维护），前一阶段输出是后一阶段输入，阶段间因果紧密，适合需求明确且稳定的项目。缺点&am…...

编程日记 2025/9/5 7:39:53

Redis 及其在系统设计中的作用

什么是Redis Redis 是一个开源的内存数据结构存储系统，可用作数据库、缓存和消息代理。它因其快速的性能、灵活性和易用性而得到广泛应用。 Redis 数据存储类型 Redis 允许开发人员以各种数据结构（例如字符串、位图、位域、哈希、列表、集合、有序集合…...

编程日记 2025/9/19 16:33:28

运维打铁：Centos 7 使用yum安装 mysql5.7

文章目录一、安装前信息说明二、安装步骤1. 下载并安装官网 RPM 安装包2. 修改配置文件 /etc/my.cnf3. 创建 MySQL 数据相关目录并授权4. 启动 MySQL 服务三、修改数据库访问密码1. 修改配置文件 /etc/my.cnf2. 重启 MySQL 服务3. 登录数据库并修改密码4. 恢复配置文件并重启…...

编程日记 2025/9/11 1:48:46

第二章：MCP服务器分类

Chapter 2: MCP服务器分类 🌟 从上一章到本章在第一章：Model Context Protocol (MCP)中，我们学习了如何通过MCP让LLM安全访问文件系统。现在，让我们想象一个更复杂的需求：假设你需要让LLM同时处理文件、查询数据库、…...

编程日记 2025/9/22 14:53:34

遨游三防|30200mAh、双露营灯三防平板，见证堆料天花板

在工业4.0与智能化转型的浪潮中，专业设备对性能、防护及场景适应性的要求日益严苛。遨游通讯作为国家级高新技术企业，依托“危、急、特”场景的深耕经验，推出的旗舰级产品AORO-P300三防平板，以30200mAh超大容量电池、双露营灯设计…...

编程日记 2025/9/17 12:33:30

OFDM 信道表示(3)

上节我们令得到频域相关系数与PDP是一对傅里叶变换对。这次我们令即只考虑同一个RE上随时间变化得过程。为接收信号自相关函数，令即为上式所以可得Doppler 功率谱和子相关函数一对傅里叶变换对。上面给出多径DPL信道接受信号表示，其中为t时间多径时延…...

编程日记 2025/9/22 8:42:04

MongoDB副本集搭建与核心机制

一、节点架构解析 1.1 节点角色分工主节点（Primary） 唯一写入口：处理所有写操作（插入/更新/删除） Oplog生成器：记录操作日志到local.oplog.rs集合同步中枢：向所有从节点推送oplog变更典型…...

编程日记 2025/9/18 18:35:11

深度学习-数值稳定性和模型初始化

到目前为止，我们实现的每个模型都是根据某个预先制定的分布来初始化模型的参数，有人会认为初始化方案时理所当然的，忽略了如何做出这些选择的细节，甚至有人可能会觉得，初始化方案的选择并不是特别重要，实际…...

编程日记 2025/9/22 23:42:02

详解Linux中的定时任务管理工具crond

在 Linux 容器环境中，/etc/cron.d/ 目录可能不存在，特别是在精简的容器镜像（如 Alpine、BusyBox 或某些定制化的镜像）中。这是因为容器通常追求轻量级，默认不包含完整的 cron 系统（如 cronie 或 vixie-cron…...

编程日记 2025/9/23 8:29:35

【element plus】解决报错error：ResizeObserver loop limit exceeded的问题

当我们在使用element plus框架时，有时会遇到屏幕突然变暗，然后来一句莫名其妙的报错ResizeObserver loop limit exceeded，其实这是因为改变屏幕大小时el-table导致的报错网上给出了几种解决方案，我试了其中两种可以实现方案一&…...

编程日记 2025/9/20 20:21:53

GD32E23x flash作为静态存储的读写操作

目录一、前言二、GD32E23x flash扇区地址划分三、GD32E23x 固件库下载四、GD32E23x falsh擦写操作函数封装五，引用示例一、前言在只有芯片没有外部存储时需要存储一些配置信息，使用flash进行存储是很好的选择了，在GD32E23x中以flash…...

编程日记 2025/9/16 5:56:15

空闲列表：回收和再利用

空闲列表：回收和再利用手动与自动内存管理手动管理：程序员需要明确地分配和释放内存。自动管理：例如使用垃圾收集器(GC)，它能够自动检测并回收未使用的对象，不需要程序员干预。对于某些数据结构如B树，…...

编程日记 2025/9/10 22:31:09

功能脑网络较新的方法[和ai讨论的方向和学习资源]

文章目录前言和回顾代码实现ai 提问大脑连通性分析方法扩展与分类指南一、现有方法的补充与分类1. 补充的其他连通性方法2. 分类框架二、近年来的新方法（2019年后）1. 相位动力学扩展2. 信息论与复杂度3. 基于图论与网络科学4. 动态系统与因果推断三、…...

编程日记 2025/9/19 13:23:34

【MongoDB + Spark】技术问题汇总与解决方案笔记

场景背景最近练手项目：Spark 结合 MongoDB 构建商品推荐系统的过程中，过程中出现多种环境配置与兼容性问题，主要涉及 MongoDB 连接、版本兼容性、Casbah 驱动使用问题等。汇总调试过程中遇到的常见错误及其解决方案，供参考复用。…...

编程日记 2025/9/19 17:15:02

给git配置SSH(github,gitee)

更多个人笔记：（仅供参考，非盈利） gitee： https://gitee.com/harryhack/it_note github： https://github.com/ZHLOVEYY/IT_note 本文基于mac，linux和win可以参考个人同时配置gitee和github的ss…...

编程日记 2025/9/22 22:34:49

Linux基础使用-笔记

1. 文件和目录操作查看当前目录：pwd 命令用于显示当前工作目录的完整路径。 pwd切换目录：cd 命令用于切换工作目录。 # 切换到指定目录 cd /home/user/Documents # 切换到上一级目录 cd .. # 切换到用户主目录 cd ~列出目录内容：ls 命令用…...

编程日记 2025/9/5 2:11:04

什么是Maven

Maven的概念 Maven是一个一键式的自动化的构建工具。Maven 是 Apache 软件基金会组织维护的一款自动化构建工具，专注服务于Java 平台的项目构建和依赖管理。Maven 这个单词的本意是：专家，内行。Maven 是目前最流行的自动化构建工具&#xff0…...

编程日记 2025/9/22 6:21:22

DNS主从同步及解析

DNS 域名解析原理域名系统的层次结构 ：DNS 采用分层树状结构，顶级域名（如.com、.org、.net 等）位于顶层，下面是二级域名、三级域名等。例如，在域名 “www.example.com” 中，“com” 是顶级域名…...

编程日记 2025/9/18 16:25:26

Git 的基本概念和使用方式

Git 是一种分布式版本控制系统，广泛用于跟踪文件的变化和协作开发项目。以下是 Git 的基本概念和使用方式：仓库（Repository）：Git 用来存储项目文件和历史记录的地方。可以是本地仓库（Local Repository）或远程仓库（Remote Repository）。工作区（Working Directory）：…...

编程日记 2025/9/8 2:15:15

【C++】二叉树进阶面试题

根据二叉树创建字符串重点是要注意括号省略问题，分为以下情况： 1.左字树为空，右子树不为空，左边括号保留 2.左右子树都为空，括号都不保留 3。左子树不为空，右子树为空，右边括号不保留如果根节…...

编程日记 2025/9/20 13:04:45

时序数据库IoTDB构建的能源电力解决方案

随着能源格局的快速变化与“双碳”战略的逐步践行，电力系统的绿色低碳转型已成为重要发展趋势。在这一背景下，数字化、智能化技术正逐步扩大在新型电力系统发电侧、电网侧、储能侧的应用，以推动传统电力发输配用向全面感知、双向互动、智能高…...

编程日记 2025/9/11 11:59:05

文章目录前言1. GitHub 核心功能(1) 代码托管（Git 仓库）存储代码版本控制代码浏览(2) 协作开发Pull RequestlssuesProjectsDiscussions(3) 自动化与 CI/CDGitHub ActionsGitHub PagesDependabot(4) 社区与开源ForkStarWatchSponsor2. GitHub 基本使用方法(1) 创建仓库（Repo…...

编程日记 2025/9/20 10:29:03

vxe-table封装表头

待补充使用说明，但是可以用一.效果二.封装MyTable.vue1.封装index.vue2.日期选择筛选3.输入筛选4.下拉筛选5.多选筛选6.远程多选筛选7.远程单选筛选三、页面使用1.具体页面使用2./utils/filter.js 注意：需要使用jsx、vxe-table、element-plus 一.效果 …...

编程日记 2025/9/19 23:36:15

力扣hot100 91-100记录

91-100 （动态规划） class Solution { public:int uniquePaths(int m, int n) {vector<vector<int>> f(m, vector<int>(n, 1));for(int i 1; i < m; i){for(int j 1; j < n; j){f[i][j] f[i-1][j] f[i][j-1];} }return f[…...

编程日记 2025/9/22 22:21:27

SpringMVC处理请求映射路径和接收参数

目录 springmvc处理请求映射路径案例：访问 OrderController类的pirntUser方法报错：java.lang.IllegalStateException：映射不明确核心错误信息 springmvc接收参数一 ，常见的字符串和数字类型的参数接收方式 1.1 请求路径的…...

编程日记 2025/9/11 13:40:30

ESP32上C语言实现JSON对象的创建和解析

在ESP32上使用C语言实现JSON对象的创建和解析，同样可以借助cJSON库。ESP-IDF（Espressif IoT Development Framework）本身已经集成了cJSON库，你可以直接使用。以下是详细的步骤和示例代码。 1. 创建一个新的ESP-IDF项目首先&…...

编程日记 2025/9/23 11:54:55

关于Qt对Html/CSS的支持

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、原生控件二、QtWebEngine总结前言最近遇到了一些问题需要使用Qt加载Html发现一些特性不能使用，估计很多人也和我一样遇到这种情况。需要说明…...

编程日记 2025/8/19 8:43:57

Python 读取 txt 文件详解 with ... open()

文章目录 1 概述1.1 注意事项1.2 模式说明1.3 文件准备 2 读文件2.1 读取整个文件2.2 逐行读取2.3 读取所有行到列表 3 写文件3.1 覆盖写入3.2 追加写入3.3 写入多行 4 实用技巧4.1 检查文件是否存在4.2 异常处理 1 概述 1.1 注意事项文件编码：建议指定编码&…...

编程日记 2025/9/15 17:48:01

[Mac] 使用homebrew安装miniconda

使用虚拟环境可以对不同项目的依赖进行隔离。可以使用venv或者conda来创建和使用虚拟环境。 venv是Python内置的虚拟环境管理模块，适合纯Python项目以及快速轻量级的开发和部署。conda具备更强大的版本管理能力，但是占用较大的磁盘空间。考虑到我基本不…...

编程日记 2025/9/22 1:12:46

如何获取适用于广告过滤增强的Chrome浏览器版本【广告净化】

不少人使用浏览器时，会遇到广告弹窗、视频前贴广告或页面跳转。这些情况会影响上网体验。想要改善，可以从选择合适版本的谷歌浏览器开始，并加上合理设置。先打开电脑上的浏览器，在搜索栏中输入“谷歌浏览器官方下载页面”。找到带…...

编程日记 2025/9/22 12:19:24

JVM（Java虚拟机）详解

目录 1 JVM执行流程 2 JVM运行时数据区（内存布局） 2.1 堆 2.2 栈 2.3 方法区 2.4 程序计数器 2.5 Java和运行时数据区相关的异常 3 JVM类加载（Class Loading） 3.1 加载Loading 3.2 连接Linking 3.2.1 验证Verification…...

编程日记 2025/9/20 13:22:01

Vue3 + TypeScript，使用provide提供只读的响应式数据的详细分析与解决方法

原始无类型写法（不报错） typescript const applySampleTableData ref<ApplySample[]>([]); const applySampleListSymbol Symbol("applySampleList"); provide(applySampleListSymbol, readonly(applySampleTableData)); 类型推断&a…...

编程日记 2025/9/7 16:55:05

深入理解 BLE PHY 模式：1M、2M 与 Coded 的演进与应用

随着蓝牙技术不断演进，BLE（Bluetooth Low Energy）在物联网、可穿戴设备、智能家居等领域的应用愈发广泛。BLE 中的 PHY（Physical Layer，物理层）是决定无线传输速率、覆盖范围和功耗的核心因素。本文将以浅显易懂的语言，结合示意图和代码示例，系统梳理 BLE 三种 PHY 模式…...

编程日记 2025/9/21 12:06:34