当前位置: 首页 > news >正文

深度强化学习有什么学习建议吗?

什么是强化学习?

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一 轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环 境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器 不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。

智能体和环境之间具体的交互方式如图 1-1 所示。在每一轮交互中,智能体感知到环境目 前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作 后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环 境状态,依次类推。

图 1-1 强化学习中智能体和环境之间的迭代式交互

这里,智能体有 3 种关键要素,即感知、决策和奖励。

● 感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下围棋 的智能体感知当前的棋盘情况;无人车感知周围道路的车辆、行人和红绿灯等情况;机 器狗通过摄像头感知面前的图像,通过脚底的力学传感器来感知地面的摩擦功率和倾斜 度等情况。

● 决策。智能体根据当前的状态计算出达到目标需要采取的动作的过程叫作决策。例如, 针对当前的棋盘决定下一颗落子的位置;针对当前的路况,无人车计算出方向盘的角度 和刹车、油门的力度;针对当前收集到的视觉和力觉信号,机器狗给出4 条腿的齿轮的 角速度。策略是智能体最终体现出的智能形式,是不同智能体之间的核心区别。

● 奖励。环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量 信号衡量智能体这一轮动作的好坏。例如, 围棋博弈是否胜利;无人车是否安全、平稳 且快速地行驶;机器狗是否在前进而没有摔倒。最大化累积奖励期望是智能体提升策略 的目标,也是衡量智能体策略好坏的关键指标。

从以上分析可以看出,面向决策任务的强化学习和面向预测任务的有监督学习在形式上是 有不少区别的。首先,决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立 任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。其次,因为决 策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最 大奖励反馈的动作,在长期来看并不一定是最优的。

学习强化学习之前需要具备的一些基础知识:

  • 强化学习是机器学习的一个分支,因此读者需要具备一定的机器学习基 础,例如具备基本的线性代数、概率论、数理统计等基础知识。当然只需要读者修过相关的大学课程即可,不必刻意回顾一些知识,原理部分可跟随本书的推导学习。
  • 学习强化学习初期是不涉及深度神经网络相关的知识的,这一部分通常称为传统强化学习部分。虽然这部分的算法在今天已经不常用,但是其中蕴含的一些思想和技巧是非常重要的,因此读者需要对这部分内容有 所了解。

学习强化学习的建议

强化学习(RL)基础:掌握马尔可夫决策过程(MDP)、值函数(Value Function)、策略(Policy)、贝尔曼方程等核心概念。

推荐学习路径:

经典RL算法(如Q-Learning、SARSA、DQN、Policy Gradient等)的原理与实现。

理解“探索-利用”(Exploration-Exploitation)的权衡。

深度学习(DL)基础

熟悉神经网络(尤其是全连接网络、卷积神经网络CNN、循环神经网络RNN)的原理与实现。

掌握PyTorch或TensorFlow等深度学习框架的使用。

书籍推荐

蘑菇书系列

1、Easy RL 强化学习教程(easyrl蘑菇书带你了解chatgpt背后的技术)

全书主要内容源于3门公开课,并在其基础上进行了一定的原创。比如,为了尽可能地降低阅读门槛,笔者对3门公开课的精华内容进行选取并优化,所涉及的公式都有详细的推导过程,对较难理解的知识点进行了重点讲解和强化,方便读者较为轻松地入门。此外,为了书籍的丰富性,笔者还补充了不少3门公开课之外的强化学习相关知识。全书共 13 章, 大体上可分为 2 个部分: 第 1 部分 包括第 1 ∼ 3 章,介绍强化学习基础知识以及传统强化学习算法;第 2 部分包括第 4 ∼ 13 章, 介绍深度强化学习算法以及常见问题的解决方法。第 2 部分各章 相对独立,读者可根据自己的兴趣和时间情况选择阅读。

本书在大部分章节的最后设置了原创的关键词、习题和面试题来提高和巩固读者对知识的清晰度和掌握程度。其中,关键词部分总结了对应章节的重点概念,方便读者高效地回忆并掌握核心内容;习题部分以问答的形式阐述了本章节中出现的知识点,帮助读者理清知识脉络;面试题部分来源于大厂的算法岗面试真题,通过还原最真实的面试场景和面试的问题,帮助读者开阔思路,为读者面试理想的岗位助力。

本书配有对应的Python代码实现,可以让读者通过动手实现各种经典的强化学习算法,充分掌握强化学习算法的原理。

2、Joy RL:强化学习实践教程

本书是继《Easy RL:强化学习教程》(俗称“蘑菇书”)之后,为强化学习的读者专门打造的一本深入实践的全新教程。本书的内容主要基于作者的理论知识与实践经验,并融入了一些原创内容, 例如针对策略梯度算法的两种不同的推导版本,以便让读者从不同的角度更好地理解相关知识。全书始终贯穿强化学习实践中的一些核心问题,比如优化值估计的实践技巧、解决探索与利用的平衡等问题。全书的内容编排合理,例如从传统强化学习到深度强化学习过渡的内容中,增加对深度学习基础的总结归纳内容,并对一些应用十分广泛的强化学习算法,如 DQN、DDPG以及 PPO 等算法进行强调,读者可有选择性地阅读。本书除了给出一些简单的配套代码之外,还提供一套“JoyRL”开源框架,以及更多复杂环境实验示例。

延伸阅读

1、深度学习详解

本书主要内容源于李宏毅老师 “机器学习” 公开课的部分内容,在其基础上进行了一定 的原创。 比如,为了尽可能地降低阅读门槛,笔者对公开课的精华内容进行选取并优化,对 所涉及的公式给出详细的推导过程,对较难理解的知识点进行了重点讲解和强化,方便读 者较为轻松地入门。此外,为了丰富内容,笔者还补充了不少除公开课之外的深度学习相关知识。

本书共 19 章,大体上可分为两个部分:第一部分包括第 1 ~ 11 章,介绍深度学习基础 知识以及经典深度学习算法;第二部分包括第 12 ~ 19 章,介绍深度学习算法更加深入的方 向. 第二部分各章相对独立,读者可根据自己的兴趣和时间选择性阅读。

2、深度强化学习实战

本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学习技术解决实际问题的能力。

本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。

本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。

3、动手学深度学习 PyTorch版

本书重新修订《动手学深度学习》的所有内容,并针对技术的发展,新增注意力机制、预训练等内容。本书包含15章,第一部分介绍深度学习的基础知识和预备知识,并由线性模型引出最简单的神经网络——多层感知机;第二部分阐述深度学习计算的关键组件、卷积神经网络、循环神经网络、注意力机制等大多数现代深度学习应用背后的基本工具;第三部分讨论深度学习中常用的优化算法和影响深度学习计算性能的重要因素,并分别列举深度学习在计算机视觉和自然语言处理中的重要应用。

本书同时覆盖深度学习的方法和实践,主要面向在校大学生、技术人员和研究人员。阅读本书需要读者了解基本的Python编程知识及预备知识中描述的线性代数、微分和概率等基础知识。

相关文章:

深度强化学习有什么学习建议吗?

什么是强化学习? 广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一 轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环 境发生相应的改变并且将相应…...

Flutter - UIKit开发相关指南 - 控制器,主题,表单

环境 Flutter 3.29 macOS Sequoia 15.4.1 Xcode 16.3 控制器(ViewControllers) 在UIKit中,通过ViewController控制数据在视图上展现,多个ViewController组合在一起构建复杂的用户界面。在Flutter中,因为所有都是Widget,所以ViewController相关的功能也由Widget来承担。 生命周…...

嵌入式软件开发常见warning之 warning: implicit declaration of function

文章目录 🧩 1. C 编译流程回顾(背景)📍 2. 出现 warning 的具体阶段:**编译阶段(Compilation)**🧬 2.1 词法分析(Lexical Analysis)🌲 2.2 语法分…...

AI赋能安全生产,推进数智化转型的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用…...

(六)毛子整洁架构(测试)

文章目录 项目地址一、 项目地址 教程作者:教程地址: 代码仓库地址: 所用到的框架和插件: dbt airflow一、...

Vue3 Echarts 3D饼图(3D环形图)实现讲解附带源码

文章目录 前言一、准备工作1. 所需工具2. 引入依赖方式一:CDN 快速引入方式二:npm 本地安装(推荐) 二、实现原理解析三、echarts-gl 3D插件 使用回顾grid3D 常用通用属性:series 常用通用属性:surface&…...

Java大师成长计划之第20天:Spring Framework基础

📢 友情提示: 本文由银河易创AI(https://ai.eaigx.com)平台gpt-4o-mini模型辅助创作完成,旨在提供灵感参考与技术分享,文中关键数据、代码与结论建议通过官方渠道验证。 在Java开发领域,Spring …...

WebSocket集成方案对比

​ WebSocket集成方案对比与实战 架构选型全景图 #mermaid-svg-BEuyOkkoP6cFygI0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-BEuyOkkoP6cFygI0 .error-icon{fill:#552222;}#mermaid-svg-BEuyOkkoP6cFygI0 .er…...

新能源汽车电池加热技术:传统膜加热 vs. 脉冲自加热

在新能源汽车的普及过程中,低温环境下的电池性能一直是影响用户体验的关键问题。当温度低于0C时,锂电池的内阻增大,充放电效率下降,续航缩短,甚至可能因低温充电导致电池损坏。 引言:电池低温性能衰减机理 …...

C++ 状态模式详解

状态模式(State Pattern)是一种行为设计模式,它允许一个对象在内部状态改变时改变其行为,使对象看起来像是改变了其类。 核心概念 设计原则 状态模式遵循以下设计原则: 单一职责原则:将状态相关行为分离…...

1. 使用 IntelliJ IDEA 创建 React 项目:创建 React 项目界面详解;配置 Yarn 为包管理器

1. 使用 IntelliJ IDEA 创建 React 项目:创建 React 项目界面详解;配置 Yarn 为包管理器 🧩 使用 IntelliJ IDEA 创建 React 项目(附 Yarn 配置与 Vite 建议)📷 创建 React 项目界面详解1️⃣ Name&#xf…...

【深度学习】目标检测算法大全

目录 一、R-CNN 1、R-CNN概述 2、R-CNN 模型总体流程 3、核心模块详解 (1)候选框生成(Selective Search) (2)深度特征提取与微调 2.1 特征提取 2.2 网络微调(Fine-tuning) …...

【node】6 包与npm

前言 目标 1 了解什么是包 2 怎么使用npm下载包 #mermaid-svg-Ur0d2uCdQeAQOJjW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Ur0d2uCdQeAQOJjW .error-icon{fill:#552222;}#mermaid-svg-Ur0d2uCdQeAQOJjW .erro…...

【C++进阶篇】多态

深入探索C多态:静态与动态绑定的奥秘 一. 多态1.1 定义1.2 多态定义及实现1.2.1 多态构成条件1.2.1.1 实现多态两个必要条件1.2.1.2 虚函数1.2.1.3 虚函数的重写/覆盖1.2.1.4 协变1.2.1.5 析构函数重写1.2.1.6 override和final关键字1.2.1.7 重载/重写/隐藏的对⽐ 1…...

计算机网络|| 路由器和交换机的配置

一、实验目的 1. 了解路由器和交换机的工作模式和使用方法; 2. 熟悉 Cisco 网络设备的基本配置命令; 3. 掌握 Cisco 路由器的基本配置方式及配置命令; 4. 掌握路由器和交换机的基本配置与管理方法。 二、实验环境 1. 运行 Windows 操作…...

图形化编程如何从工具迭代到生态重构?

一、技术架构的范式突破 在图形化编程领域,技术架构的创新正在重塑行业格局。iVX 作为开源领域的领军者该平台通过图形化逻辑设计,将传统文本编程需 30 行 Python 代码实现的 "按钮点击→条件判断→调用接口→弹窗反馈" 流程,简化…...

歌曲《忘尘谷》基于C语言的歌曲调性检测技术解析

引言 在音乐分析与数字信号处理领域,自动检测歌曲调性是一项基础且关键的任务。本文以C语言为核心,结合音频处理库(libsndfile)和快速傅里叶变换库(FFTW),探讨如何实现调性检测,并通…...

Spring Boot 使用Itext绘制并导出PDF

最终效果 其实可以加分页&#xff0c;但是没有那么精细的需求&#xff0c;所以我最后就没有加&#xff0c;有兴趣的可以尝试下。 项目依赖 <!-- Spring Boot 版本有点老 --> <spring-boot.version>2.3.12.RELEASE</spring-boot.version><!-- 依…...

医学影像处理与可视化:从预处理到 3D 重建的技术实践

🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C++, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C++、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle,mysql,postgresql等进行开发应用…...

用 openssl 测试 tls 连接

以 baidu 为例&#xff0c;命令行为&#xff1a; openssl s_client -tlsextdebug -connect baidu.com:443 得到的输出为&#xff1a; CONNECTED(00000003) TLS server extension "renegotiation info" (id65281), len1 0000 - 00 …...

Matlab 汽车制动纵向动力学模型和PID控制

1、内容简介 Matlab 228-汽车制动纵向动力学模型和PID控制 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略...

重塑JavaScript原生功底=>【构造函数篇】

概念&#xff1a;用于创建对象的函数称之为构造函数 作用&#xff1a;构造函数在 JavaScript 中是用来创建对象的最根本操作。 语法&#xff1a;当一个函数通过 new 关键字 来调用的话&#xff0c;那么这个函数就是一个构造函数。 场景&#xff1a;构造函数是专门用来创建对象…...

从0到1:Python机器学习实战全攻略(8/10)

摘要&#xff1a;通过本文的学习&#xff0c;我们深入探索了 Python 机器学习从入门到实战的精彩世界。从 Python 在机器学习领域的独特优势&#xff0c;到机器学习的核心概念&#xff0c;再到各种强大工具库的应用&#xff0c;以及实战项目的完整演练&#xff0c;我们逐步揭开…...

[计算机网络]网络层

文章目录 408考研大纲IPV4数据报格式协议: IPv4 地址DHCP协议IP组播 408考研大纲 IPV4数据报格式 协议: 1:ICMP IPv4 地址 特殊IP 网络号全1又称直接广播地址&#xff0c;32位全1又称受限广播地址 因为255.255.255.255只能在本网络内广播&#xff0c;路由器不许通过它&…...

华为行业认证是什么?如何考取华为行业认证?

据IDC预测&#xff0c;2027年全球数字化转型市场规模将突破3.4万亿美元&#xff0c;而中国将成为增长最快的市场之一。然而&#xff0c;85%的企业在转型中面临核心人才短缺的困境&#xff0c;尤其缺乏兼具技术能力与行业洞察的复合型人才&#xff01; 讯方技术作为华为授权培训…...

Kotlin与Qt跨平台框架深度解析:业务逻辑共享与多语言集成

简介 Kotlin Multiplatform和Qt作为两大主流跨平台开发框架,各自在技术生态和应用场景上展现出独特优势。Kotlin Multiplatform专注于业务逻辑的跨平台共享,通过Kotlin语言的统一特性实现高达80%的代码复用率,特别适合移动应用和Web服务的业务逻辑开发。而Qt则凭借其强大的…...

基于LNMP架构的个人博客系统部署

一、项目概述 本项目旨在通过两台服务器&#xff08;Server-Web和Server-NFS-DNS&#xff09;搭建一个基于LNMP&#xff08;Linux、Nginx、MySQL、PHP&#xff09;架构的个人博客系统。通过域名访问自建网站&#xff0c;同时实现资源文件的共享和DNS解析功能。 二、服务器配置…...

Python训练打卡Day21

常见的降维算法&#xff1a; # 先运行预处理阶段的代码 import pandas as pd import pandas as pd #用于数据处理和分析&#xff0c;可处理表格数据。 import numpy as np #用于数值计算&#xff0c;提供了高效的数组操作。 import matplotlib.pyplot as plt #用于绘…...

PostgreSQL 序列(Sequence) 与 Oracle 序列对比

PostgreSQL 序列(Sequence) 与 Oracle 序列对比 PostgreSQL 和 Oracle 都提供了序列(Sequence)功能&#xff0c;但在实现细节和使用方式上存在一些重要差异。以下是两者的详细对比&#xff1a; 一 基本语法对比 1.1 创建序列 PostgreSQL: CREATE [ { TEMPORARY | TEMP } |…...

直播:怎样用Agentic AI搭建企业AI应用?5.24日,拆解新一代“智能客服系统”案例

2025 DeepSeek掀起了中国企业的AI落地浪潮&#xff01; 随着应用的深入&#xff0c;AI的落地技术正在快速演化。 3月&#xff0c;Manus一夜爆火&#xff0c;让AI Agent更加引人关注。 从生成式AI&#xff0c;到Agentic AI&#xff08;代理式AI&#xff09;。 AI正在从只能生…...

《Asp.net Mvc 网站开发》复习试题

一.选择题(注:每题2分,共 54分,只能在下列表格中,填写每个题目相应的正确字母选项) 01: 02: 03: 04: 05: 06: 07: 08: 09: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: 24: 25: 26&#xff1a; :27&#xff1a; 1. Mvc让软件…...

算法题(145):货仓选址

审题&#xff1a; 本题需要我们找出距离之和的最小值 思路&#xff1a; 方法一&#xff1a;贪心 贪心策略&#xff1a;将货仓建立在所有商店的中间可以达到距离之和最小 因为每家商店都需要接收一车商品&#xff0c;所以这里的距离之和指的是从货仓到每一家商店的路线的距离之和…...

✅ TensorRT Python 安装精简流程(适用于 Ubuntu 20.04+)

安装 TensorRT Python 轮子的步骤 确保 pip 和 wheel 模块已更新并安装&#xff1a; 参考链接 python3 -m pip install --upgrade pip python3 -m pip install wheel 1. 确认环境要求 Python&#xff1a;版本 3.8 - 3.13 OS&#xff1a;Ubuntu 20.04 或 Windows 10 CPU&a…...

MYSQL 全量,增量备份与恢复

目录 一 数据备份的重要性 1 数据备份的重要性 2 数据库备份类型 2.1 从物理与逻辑的角度分类 2.2. 从数据库的备份策略角度分类从数据库的备份策略角度,数据库的备份可分为完全备份、差异备份和增量备份。 3 常见的备份方法 3.1 物理冷备份 物理冷备份时需要在数据库处…...

10. Spring AI PromptTemplate:从模板到高级技巧

1、前言 如果学到了这里,相信大部分人对Prompt并不陌生了。 在 Spring AI 的世界里,与强大的语言模型进行交互的基石便是 Prompt(提示语)。它不仅仅是你输入给 AI 的一段文本,更是你与智能对话的桥梁,是你唤醒模型潜能的关键指令。理解 Prompt 的本质、构建原则以及在 …...

基于OpenCV的人脸识别:Haar级联分类器

文章目录 引言一、环境准备二、代码实现1. 图像加载与预处理2. 加载Haar级联分类器3. 人脸检测核心参数详解4. 结果显示与标注 三、效果优化建议四、完整代码五、总结 引言 本文将带你一步步实现一个简单但实用的人脸检测程序&#xff0c;使用Python和OpenCV库。 一、环境准备…...

Git安装教程及常用命令

1. 安装 Git Bash 下载 Git 安装包 首先&#xff0c;访问 Git 官方网站 下载适用于 Windows 的 Git 安装包。 安装步骤 启动安装程序&#xff1a;双击下载的 .exe 文件&#xff0c;启动安装程序。选择安装选项&#xff1a; 安装路径&#xff1a;可以选择默认路径&#xff0…...

【PmHub后端篇】Skywalking:性能监控与分布式追踪的利器

在微服务架构日益普及的当下&#xff0c;对系统的性能监控和分布式追踪显得尤为重要。本文将详细介绍在 PmHub 项目中&#xff0c;如何使用 Skywalking 实现对系统的性能监控和分布式追踪&#xff0c;以及在这过程中的一些关键技术点和实践经验。 1 分布式链路追踪概述 在微服…...

ChromeDriver 技术生态与应用场景深度解析

ChromeDriver 技术生态与应用场景深度解析 随着 Web 自动化测试、运维和数据采集需求的不断增长&#xff0c;ChromeDriver 及其相关技术栈在各行业中扮演着举足轻重的角色。本文将从技术选型、语言适配、典型场景、技术延伸等维度&#xff0c;结合最新行业趋势与实践经验&…...

链表面试题6之回文结构

经过前几道题的铺垫&#xff0c;那么我们也是来到了链表的第六关。这也是一道非常经典的题目。 目录 逆置法 数组法 那么对于这道题目&#xff0c;我们要判断回文结构&#xff0c;实际上就是判断链表对不对称。这种类型的题目我们好像在哪里见过&#xff0c;对了&#xff0c…...

ASP.NET Core Identity框架使用指南

文章目录 前言一、核心功能二、核心组件三、使用1&#xff09;创建项目2&#xff09;安装必要 NuGet包3&#xff09;配置数据库连接字符串4&#xff09;用户与角色实体定义4&#xff09;配置数据库上下文5&#xff09; 注册服务6&#xff09;数据库迁移与初始化7&#xff09;用…...

Hugging Face推出了一款免费AI代理工具,它能像人类一样使用电脑

Hugging Face推出了一款免费AI代理工具&#xff0c;它能像人类一样使用电脑。 这款工具名为Open Computer Agent&#xff08;开放计算机代理&#xff09;&#xff0c;可模拟真实的电脑操作。 无需安装&#xff0c;在浏览器中即可运行。 以下是一些信息&#xff1a; - Open C…...

一.Gitee基本操作

一.初始化 1.git init初始化仓库 git init 用于在当前目录下初始化一个本地 Git 仓库&#xff0c;让这个目录开始被 Git 跟踪和管理。 生成 .git 元数据目录&#xff0c;从而可以开始进行提交、回退、分支管理等操作。 2.git config user.name/user.email配置本地仓库 # 设置…...

24、DeepSeek-V3论文笔记

DeepSeek-V3论文笔记 **一、概述****二、核心架构与创新技术**0.汇总&#xff1a;1. **基础架构**2. **创新策略** 1.DeepSeekMoE无辅助损失负载均衡DeepSeekMoE基础架构无辅助损失负载均衡互补序列级辅助损失 2.多令牌预测&#xff08;MTP&#xff09;1.概念2、原理2.1BPD2.2M…...

神经网络初步学习——感知机

一、前言 神经网络&#xff0c;顾名思义&#xff0c;它与我们大脑生物学里面讲到的神经元有关联。前辈们在研究早期人工智能的时候&#xff0c;就开始过我们的“交叉融合”&#xff0c;他们思考能不能把我们的人工智能的学习模式改造成我们人脑中神经元之间的学习方式——于是乎…...

在Text-to-SQL任务中应用过程奖励模型

论文标题 Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards 论文地址 https://arxiv.org/pdf/2505.04671 代码地址 https://github.com/ruc-datalab/RewardSQL 作者背景 中国人民大学&#xff0c;香港科技大学广州&#xff0c;阿…...

Python的安装使用

一、下载Python安装包 下载python安装包&#xff0c;可以直接访问官网地址&#xff1a;https://www.python.org/downloads/ 通过页面咱们直接下载最新版本的python安装包即可&#xff0c;python3.13.3。在页面的下方也可下载安装之前的版本&#xff0c;目前咱们按最新版本安装…...

mapreduce-wordcount程序2

WordCount案例分析 给定一个路径&#xff0c;统计这个路径下所有的文件中的每一个单词的出现次数。 其中&#xff0c;需要我们去实现代码的部分是&#xff1a;map函数和reduce函数。它们各自的作用是&#xff1a; map函数的入参是kv结构&#xff0c;k是偏移量&#xff0c;v是一…...

Java 内存模型(JMM)与内存屏障:原理、实践与性能权衡

Java 内存模型&#xff08;JMM&#xff09;与内存屏障&#xff1a;原理、实践与性能权衡 在多线程高并发时代&#xff0c;Java 内存模型&#xff08;JMM&#xff09; 及其背后的内存屏障机制&#xff0c;是保障并发程序正确性与性能的基石。本文将系统梳理 JMM 的核心原理、内…...

1.6 偏导数

&#xff08;铺垫&#xff09;全导数与偏导数看似相似&#xff0c;实则对应不同维度的变化观察。理解它们的差异需要从"变量自由度"切入&#xff1a; &#xff08;核心差异解剖&#xff09; 维度偏导数全导数变量关系其他变量被强制锁定所有变量都通过中间变量关联…...