当前位置：首页 > news >正文

5.15 学习日志

news 来源：原创 2025/8/6 2:20:23

1.SST（总平方和）、SSR（回归平方和）、SSE（残差平方和）之间的关系。

在使用线性回归模型时，经常提到的统计量MSE（Mean Squared Error、均方误差）：是 SSE 的平均值，也就是每个样本的平均误差平方。

R²（R square、决定系数） 是衡量回归模型预测效果的一个统计量，反映的是 模型解释了因变量变化的比例。

-------------------------------------------------------------------------------------------------------------------------------

2.python中和统计相关的库。

（1）sklearn是比较初级的用于传统机器学习的库，常见的用法包括下面的线性回归模型：

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 输入数据
x = [[1], [2], [3], [4]]
y = [2, 4, 6, 8]model = LinearRegression()
model.fit(x, y)
pred = model.predict([[5]])
print("预测结果：", pred)

还有以下其他的回归模型：

sklearn的代码套路为：用from--import从sklearn库里面导出相应统计模型，然后把这个模型设置给model，也就是令model=****，****为sklearn导入出来的，可以加上适当参数，然后把这个模型和数据进行fit，然后模型就跑好了，可以拿这个模型进行之后的操作，比如预测（predict）什么的。

(2) tensorflow和keras是常用的深度学习要用到的库，Keras 是 TensorFlow 的高层 API，Keras 是为人设计的，TensorFlow 是为机器设计的，那我们就先研究keras。

比如我之前学习的lstm模型，就是用的keras，比如下面：

from keras.models import Sequential        
from keras.layers import Dense, SimpleRNN  # 引入层相关,输出层与 RNN 层model = Sequential() # 创建实例
model.add(SimpleRNN(units=5, input_shape=(time_step, 1), activation='relu')) # RNN 层
model.add(Dense(units=1, activation='linear')) # 输出层，回归任务直接使用 linear 激活函数
model.compile(optimizer='adam', loss='mean_squared_error') # 回归使用mse评测
model.summary()

keras.models 是 Keras 中用于构建模型的模块，里面主要包括：

Sequential 是 Keras 中最常用的模型类型，适合像积木一样一层接一层地堆叠。

keras.layers 是神经网络的构建模块库，里面包含了各种层（Layer）类型，如：

keras的代码套路为用from--import加载出keras的models和layers，models用于构建模型，layers则是一些常用层。

先用keras从models导出的模型令为model，然后再在model上加上layers的层，相当于比sklearn多了一个加层的概念。

就像上面的代码一样，模型的结构为：输入 -> SimpleRNN层 -> Dense层 -> 输出。

这里还要多一步用compile编译模型，编译好就可以像sklearn一样带入数据进行fit了。

然后把fit好的模型拿去之后的操作，比如predict。

（3）statsmodels 是一个用于统计建模、推断和数据探索的 Python 库。它提供了大量的统计模型和检验工具，强调的是：

模型的可解释性（输出 p 值、置信区间等）
统计检验完整性（如 F 检验、t 检验、DW 检验等）
拟合结果的详细描述（如 R²、调整 R²、AIC、BIC）

以下是statmodels的常见用法

import statsmodels.api as sm
import numpy as np# 输入数据
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])# 添加常数项（截距）
x = sm.add_constant(x)# 拟合 OLS（普通最小二乘）模型
model = sm.OLS(y, x).fit()# 输出结果摘要
print(model.summary())# 其中model = sm.OLS(y, x).fit()可以看成：# ols_model = sm.OLS(y, x)   
# 创建模型对象（未训练），我要用这些 x 去拟合这些 y，用 OLS（最小二乘法）做线性回归。# model = ols_model.fit()   # 用样本数据拟合参数（训练模型）

这里sm.add_constant()提醒这个模型要提供截距项。

statsmodels适用于统计分析与回归建模，优点是精细统计结果、适合科研，缺点是不适合复杂深度模型。

值得注意的是，statsmodels的普通最小二乘模型和sklearn的线性回归模型作用一样，也就是说sklearn的线性回归也是用的最小二乘法，得到的模型一致，statsmodels会提供更多有用的统计量。

还有一点值得注意，区别于sklearn的model.fit(x,y)把数据放在fit（）里面，即sklearn 的风格是先创建模型（不带数据），然后调用 .fit(X, y) 训练

statsmodels 的风格是：在创建模型那一刻就把数据给进去，.fit() 只负责参数求解。

（4）numpy和pandas更像是为了前面三个库，为更高级的统计建模或者机器学习提供数据准备，可以用来预处理数据，得到整理好的数据，用于之后的操作。

------------------------------------------------------------------------------------------------------------------------------

3.cnn、rnn、lstm的区别和联系

CNN（Convolutional Neural Network，卷积神经网络）：适用于图像、语音识别、视频、局部模式识别（也可用于文本）

RNN（Recurrent Neural Network，循环神经网络）：适用于序列数据（时间序列、语音、文本、传感器数据等），当前的输出不仅取决于当前输入，还依赖于上一个时间点的状态，容易“遗忘”较远的信息（梯度消失），不适合很长的序列。

LSTM（Long Short-Term Memory，长短期记忆网络）：适用于长序列学习任务（如自然语言处理、语音识别、股价预测等），RNN 的改进版本，引入“门结构（gate）”来控制记忆的保留和遗忘。

RNN比普通的单层结构（由x到y）多出一个h（hidden state隐状态）。

LSTM 通过引入细胞状态和门控机制（遗忘门、输入门和输出门），实现了信息的线性传递，避免了多次非线性激活导致的梯度消失。

-----------------------------------------------------------------------------------------------------------------------

4.假设检验
假设检验是一种统计方法，用于根据样本数据判断一个假设是否成立。其流程包括：提出原假设（H₀）和备择假设（H₁）、设定显著性水平（α），然后通过样本数据计算统计量和p值。如果p值小于α，则拒绝原假设，认为存在显著差异；否则接受原假设。

常见的检验类型有Z检验、t检验、卡方检验等。假设检验广泛用于验证两组数据是否有显著差异，帮助做出基于数据的推断。

主要步骤
提出假设：确定原假设（H₀）和备择假设（H₁），如“没有差异”和“有差异”。
设定显著性水平（α）：通常设定为0.05或0.01，表示可容忍的最大错误概率。
计算检验统计量：通过样本数据计算统计量（如t值、z值）并得到p值。
作出决策：若p值小于设定的α，拒绝原假设，认为数据有显著差异；否则，接受原假设。

这体现出“疑罪从无“原则，除非你有显著的原因（统计量小于显著性水平）证明被告有罪（接受备择假设），不然就认定被告无罪（接受原假设）。

5.自然语言处理（NLP, Natural Language Processing）

NLP自然语言处理是让计算机读懂人类语言、并做出有用反应的技术，核心包括文本理解 + 信息提取 + 智能决策。

-----------------------------------------------------------------------------------------------------------------------

6 .爬虫

爬虫（Web Crawler 或 Spider）是一种自动化程序，用来模拟人访问网页并获取网页数据，比如文本、图片、视频、表格等。

URL（Universal Resource Locator）统一资源定位符

HTTP（Hypertext Transfer Protocol）超文本传输协议

网页通常由三部分组成（HTML骨架、CSS皮肤、JavaScript肌肉）

cookie（客户端）、session（服务器端）。

代理服务器和VPN

区分被墙网站和境外网站，境外网站不一定被墙，举例介绍：

下面是我用的梯子clash的介绍，一般有三个模式：

最常用的还是规则模式，作用和原理如下：

对于境外网站和被墙网站，还有一点说法，也就是“规则代理”的原理：

5.15 学习日志

1.SST（总平方和）、SSR（回归平方和）、SSE（残差平方和）之间的关系。在使用线性回归模型时，经常提到的统计量MSE（Mean Squared Error、均方误差）：是 SSE 的平均…...

编程日记 2025/8/6 2:20:23

重排序模型解读：gte-multilingual-reranker-base 首个GTE系列重排模型诞生

模型介绍 gte-multilingual-reranker-base 模型是 GTE 模型系列中的第一个 reranker 模型，由阿里巴巴团队开发。模型特征： Model Size: 306MMax Input Tokens: 8192 benchmark 关键属性： 高性能：与类似大小的 reranker 模型…...

编程日记 2025/8/3 18:04:44

计算机发展的历程

计算机系统的概述一, 计算机系统的定义计算机系统的概念计算机系统硬件软件硬件的概念计算机的实体, 如主机, 外设等计算机系统的物理基础决定了计算机系统的天花板瓶颈软件的概念由具有各类特殊功能的程序组成决定了把硬件的性能发挥到什么程度软件的分类…...

编程日记 2025/8/6 2:18:10

【通用智能体】Search Tools：Open Deep Research 项目实战指南

Open Deep Research 项目实战指南一、项目运行方式（一）运行环境要求（二）运行方式（三）传统本地运行（四）Docker 容器运行二、操作步骤（一）使用搜索功能&#…...

编程日记 2025/8/4 12:11:44

nodejs 文件的复制

在 Node.js 中，文件复制操作可以通过多种方式实现，具体取决于文件大小、性能需求以及是否需要保留文件元数据（如权限、时间戳等）。以下是几种常见的文件复制方法及其示例代码： 1. 使用 fs.copyFile（简单高…...

编程日记 2025/8/6 2:18:10

GO语言学习（三）

GO语言学习（三） GO语言的独特接口可以实现内容和面向对象组织的更加方便，我们从这里来详细的讲解接口，让大家感受一下interface的魅力 interface定义首先接口是一组方法签名的组合，我们通过接口来实现定义对象的一…...

编程日记 2025/8/2 22:20:02

高频面试题（含笔试高频算法整理）基本总结回顾61

干货分享，感谢您的阅读！ （暂存篇---后续会删除，完整版和持续更新见高频面试题基本总结回顾（含笔试高频算法整理）） 备注：引用请标注出处，同时存在的问题请在相关博客留言…...

编程日记 2025/8/6 1:17:08

C++:C++内存管理

C 内存分区 C 内存分为 5 个主要区域： 栈 (Stack)：存储局部变量、函数参数和返回地址。由编译器自动分配和释放，效率高但空间有限。堆 (Heap)：动态分配的内存区域，需手动管理（new/delete 或 malloc/free…...

编程日记 2025/8/4 1:29:54

文章年份会议/引用量IFObject tracking:A survery20067618Object Tracking Methods:A Review2019554Multiple object tracking: A literature review20201294Deep learning for multiple object tracking: a survey2019145Deep Learning for Visual Tracking:A Comprehensive S…...

编程日记 2025/7/25 17:55:59

JavaScript【6】事件

1.概述： 在 JavaScript 中，事件（Event）是浏览器或 DOM（文档对象模型）与 JavaScript 代码之间交互的一种机制。它代表了在浏览器环境中发生的特定行为或者动作，比如用户点击鼠标、敲击键盘、页面…...

编程日记 2025/7/30 7:56:07

Python训练打卡Day26

函数专题1：函数定义与参数知识点回顾： 函数的定义变量作用域：局部变量和全局变量函数的参数类型：位置参数、默认参数、不定参数传递参数的手段：关键词参数传递参数的顺序：同时出现三种参数类型时到目前为…...

编程日记 2025/8/3 9:41:44

通俗版解释CPU、核心、进程、线程、协程的定义及关系

通俗版解释（比喻法） 1. CPU 和核心 CPU 一个工厂（负责干活的总部）。核心工厂里的车间（比如工厂有4个车间，就能同时处理4个任务）。 2. 进程进程一家独立运营的公司（比如一家…...

编程日记 2025/8/4 20:52:33

微积分基本规则及示例解析

微积分中的基本规则是构成微积分理论和应用的基石。以下是一些微积分中的基本规则，我将用简单的例子来解释它们，以便小学生也能理解。 1. **极限规则**： - 常数的极限：\(\lim_{x \to a} c c\) - 例如，\(\lim…...

编程日记 2025/8/5 3:48:10

Baklib知识中台构建企业智能服务新引擎

知识中台构建智能服务新范式随着企业数字化转型进入深水区，传统知识管理模式的局限性日益显现——分散的文档系统、低效的信息检索以及割裂的业务场景，严重制约着组织效能的释放。在此背景下，Baklib提出的知识中台解决方案，通过…...

编程日记 2025/7/31 10:22:17

Python实例题：Python百行制作登陆系统

目录 Python实例题题目 python-login-systemPython 百行登录系统脚本代码解释用户数据库： 注册功能： 登录功能： 主程序： 运行思路注意事项 Python实例题题目 Python百行制作登陆系统 python-login-systemPython…...

编程日记 2025/8/4 1:50:57

Java求职面试：从核心技术到大数据与AI的场景应用

面试场景： 在某互联网大厂的面试间，一位严肃的面试官正准备对面前的求职者谢飞机进行技术面试。谢飞机虽然有些紧张，但他相信凭借自己的机智和幽默能够顺利通过。第一轮提问：核心语言与平台的基础问题面试官：“谢…...

编程日记 2025/8/5 23:36:25

系统架构设计（六）：面向对象设计

核心概念概念含义说明对象（Object）现实世界事物的抽象表示，包含属性（状态）和方法（行为）类（Class）一类对象的抽象模板继承（Inheritance）子类继承…...

编程日记 2025/8/5 15:45:51

国内AWS CloudFront与S3私有桶集成指南：安全访问静态内容

在现代web应用架构中，将静态内容存储在Amazon S3中并通过CloudFront分发是一种常见且高效的做法。本指南将详细介绍如何创建私有S3桶，配置CloudFront分配，并使用Origin Access Identity (OAI)来确保安全访问。步骤1：创建S3桶首先，我们需要创建一个名为"b-static&…...

编程日记 2025/7/29 11:21:47

MATLAB进行深度学习网络训练

文章目录前言环境配置一、环境部署二、数据准备三、训练配置与执行四、模型评估与优化五、高级技巧六、实战案例：COVID-19 肺部 CT 图像分类前言在 MATLAB 中进行深度学习网络训练主要分为数据准备、网络构建、训练配置和模型评估四个核心步骤。以下是详细教程&…...

编程日记 2025/8/1 6:57:43

jvm安全点(三)openjdk17 c++源码垃圾回收之安全点结束，唤醒线程

1. VMThread::inner_execute() - 触发安全点 cpp 复制 void VMThread::inner_execute(VM_Operation* op) { if (op->evaluate_at_safepoint()) { SafepointSynchronize::begin(); // 进入安全点，阻塞所有线程 // ...执行GC等操作... SafepointSynchronize::…...

编程日记 2025/8/4 0:16:58

局部放大maya的视图HUD文字大小的方法

一、问题描述： 有网友问：有办法局部放大maya的字体吗比如hud中currenttime打开之后画面右下角有个frame 想放大一下能做到吗？ 在 Maya 中，可以通过自定义 HUD（Heads-Up Display）元素的字体大小来局部放大特…...

编程日记 2025/8/5 8:09:04

Vue.js 教学第三章：模板语法精讲，插值与 v-bind 指令

Vue.js 模板语法精讲：插值与 v-bind 指令在 Vue.js 开发中，模板语法是构建动态用户界面的核心。本文将深入讲解两大基础模板语法：插值（{{ }}）和 v-bind 指令，通过大量实例帮助你掌握这些关键概念。一、插值语法：双花括号的魔法 1.1 基础文本插值双花括号是最简单的…...

编程日记 2025/8/2 18:58:08

系统架构设计师案例分析题——软件架构设计篇

重中之重，本题争取拿下25满分~ 目录一.核心知识 1.什么是架构风格 2.RUP的9个核心工作流 3.企业应用集成方式 4.软件质量属性 5.SySML系统建模语言9种图 6.云计算架构 7.中间件 8.构件、连接件、软件重用 9.层次型架构的缺点 10.架构开发方法ADM 11.微…...

编程日记 2025/8/2 8:38:23

系统架构设计（十一）：架构风格总结2

架构风格汇总架构风格核心特点应用场景分层架构（Layered）将系统划分为多个层次，每层只依赖于下一层企业应用、MIS 系统、三层架构客户端-服务器（C/S）分为服务端与客户端，服务集中，客户端请求数…...

编程日记 2025/7/30 11:25:29

泛微对接金蝶云星空实战案例技术分享

前言在企业信息化建设中，OA系统与ERP系统对接往往是一个复杂而关键的环节。OA系统通常具有高度的自定义性，其基础资料和单据可能与ERP系统存在字段不一致等问题。同时，OA系统涉及审批流程及流程发起方定义，增加了对接的复杂性。…...

编程日记 2025/7/30 8:54:52

Predict Podcast Listening Time-(回归+特征工程+xgb)

Predict Podcast Listening Time 题意： 给你没个播客的信息，让你预测观众的聆听时间。数据处理： 1.构造新特征收听效率进行分组 2.对数据异常处理 3.对时间情绪等进行数值编码 4.求某特征值求多项式特征 5.生成特征组合 6.交叉验证并enc…...

编程日记 2025/8/2 12:34:00

Java并发编程的挑战：从理论到实战

在现代软件开发中，随着多核处理器的普及和系统性能要求的提高，并发编程已经成为Java开发者必须掌握的核心技能之一。然而，Java并发编程不仅仅是“创建多个线程”那么简单，它涉及到线程安全、资源竞争、死锁、通信机制、性能优化等多个复杂问题。本文将围绕Java并发编程中…...

编程日记 2025/8/5 1:01:46

大麦（Hordeum vulgare）中 BAHD 超家族酰基转移酶-文献精读129

Systematic identification and expression profiles of the BAHD superfamily acyltransferases in barley (Hordeum vulgare) 系统鉴定与大麦（Hordeum vulgare）中 BAHD 超家族酰基转移酶的表达谱分析摘要 BAHD 超家族酰基转移酶在植物中催化和调控次…...

编程日记 2025/8/5 17:15:05

信任的进阶：LEI与vLEI协同推进跨境支付体系变革

在全球经济版图加速重构的背景下，跨境支付体系正经历着前所未有的变革。2022年全球跨境支付规模突破150万亿美元，但平均交易成本仍高达6.04%，支付延迟超过2.7天。这种低效率背后，隐藏着复杂的身份识别困境：超过40%的…...

编程日记 2025/8/4 3:42:18

当语言模型学会犯错和改正：搜索流(SoS)方法解析

引言语言模型的能力日新月异，但它们在执行复杂规划任务时仍面临着明显的局限。这是因为大多数训练数据只展示了最终的"正确答案"，而非解决问题的完整过程。想象一下，如果我们只能看到数学题的最终答案，而从不知道解题…...

编程日记 2025/8/1 10:55:42

Centos7.9同步外网yum源至内网

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo yum makecache yum repolist安装软件 yum install -y yum-utils createrepo # yum-utils包含re…...

编程日记 2025/8/5 22:45:15

1.SST（总平方和）、SSR（回归平方和）、SSE（残差平方和）之间的关系。

2.python中和统计相关的库。

3.cnn、rnn、lstm的区别和联系

5.自然语言处理（NLP, Natural Language Processing）

6 .爬虫

相关文章：