当前位置：首页 > news >正文

机器学习-数据集划分和特征工程

news 来源：原创 2025/8/5 16:19:41

一.数据集划分

API函数：

sklearn.model_selection.train_test_split(*arrays，**options)

参数：

- arrays：多个数组，可以是列表，numpy数组，也可以是dataframe数据框等

- options：（包含以下参数）

- shuffle = True 默认随机抽取

- random_state=x，随机数种子，x是哪个都行，就是固定随机抽取的规则，保证每次都一样

- train_size=x，就是训练集的比例，默认是0.75，和test_size两者选一个就行

- stratify,如果数据集是多分类，则需要指定，比如是二分类，则指定为y（分层划分，这个留到后面再讲）

可以传入多个数据集，返回train与test数据集

# 进行API导入
from sklearn.model_selection  import train_test_split# 随手创建两个数据集
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [10,20,30,40,50,60,70,80,90,100]# 调用train_test_split函数，将数据集分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42, shuffle=True)# 打印训练集和测试集
print(x_train, x_test, y_train, y_test)

[6, 1, 8, 3, 10, 5, 4, 7] [9, 2] [60, 10, 80, 30, 100, 50, 40, 70] [90, 20]

可以看到，两个数据集以完全相同的方式进行划分，在函数中都是用相同的下标进行抽取，使用的是相同的划分规则。

而在日常工作中，我们一般都会像上面一样传入两个数据集，一个就是特征数据集，一个就是标签数据集。我们以鸢尾花为例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_splitiris = load_iris()
# 获取特征
data = iris.data
# 获取标签
target = iris.target# 进行划分
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3, random_state=42)print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(105, 4) (45, 4) (105,) (45,)

这里取出来的每一整条特征数据都完美对应自己的标签，这也为后续的模型训练奠定了基础。

二.特征工程

2.1 概念

就是对特征进行相关的处理

一般使用pandas来进行数据清洗和数据处理、使用sklearn来进行特征工程

特征工程是将任意数据(如文本或图像)转换为可用于机器学习的数字特征,比如:字典特征提取(特征离散化)、文本特征提取、图像特征提取。

2.2 API

实例化转换器对象（transfer），转换器类有很多：

DictVectorize	字典特征提取
CountVectorizer	文本特征提取
TfidfVectorizer	TF-IDF文本特征词的重要程度特征提取
MinMaxScaler	归一化
StandardScaler	标准化
VarianceThreshold	底方差过滤降维
PCA	主成分分析降维

转换器对象调用 fit_transform() 进行特定转换, fit用于计算数据，transform进行最终转换。fit_transform()可以使用fit()和transform()代替：

data_new = transfer.fit_transform(data)

可写成

transfer.fit(data)data_new = transfer.transform(data)

2.3 DictVectorizer 字典列表特征提取

讲之前先了解一个概念，稀疏矩阵：

稀疏矩阵是指一个矩阵中大部分元素为零，只有少数元素是非零的矩阵。由于稀疏矩阵中零元素非常多，存储和处理稀疏矩阵时，通常会采用特殊的存储格式三元组表，以节省内存空间并提高计算效率。

比如：

(0,0) 10

(0,1) 20

(2,0) 90

(2,20) 8

(8,0) 70

表示除了列出的索引位置有值, 其余全是0

同样也有非稀疏矩阵（稠密矩阵），与稀疏矩阵相反。

API：

sklearn.feature_extraction.DictVectorizer(sparse=True)

参数：

sparse：默认以稀疏矩阵表示，为True时返回稀疏矩阵，为False时返回稠密矩阵。

这个API会返回一个字典列表特征提取器对象，再通过前面的fit_transform方法，就可以将字典列表转换为稀疏矩阵或稠密矩阵。

# 导入相关库
from sklearn.feature_extraction import DictVectorizer# 创建一个简单的字典列表数据
data = [{'city': '北京', 'temperature': 10},{'city': '上海', 'temperature': 20},{'city': '广州', 'temperature': 30},{'city': '广州', 'temperature': 29}]# 创建一个DictVectorizer对象
vec = DictVectorizer(sparse=False)# 转换字典列表数据为特征矩阵
data_new = vec.fit_transform(data)# 看看转换后的特征名称
print(vec.get_feature_names_out())# 打印特征矩阵
print(data_new)

['city=上海' 'city=北京' 'city=广州' 'temperature']
[[ 0. 1. 0. 10.]
[ 1. 0. 0. 20.]
[ 0. 0. 1. 30.]
[ 0. 0. 1. 29.]]

可以看到原先的数据集中含有中文特殊字符，在进行转化时转换器就把每个包含中文的键值对当作一个特征名保存。而打印出的特征矩阵中，其中每一行每个数字对应的位置就是特征名列表中的位置，为1则代表是该特征，为0则代表不是该特征。

再来看看三元组的表示：

# 创建一个DictVectorizer对象
vec = DictVectorizer(sparse=True)# 转换字典列表数据为特征矩阵
data_new = vec.fit_transform(data)# 看看转换后的特征名称
print(vec.get_feature_names_out())# 打印特征矩阵
print(data_new)

['city=上海' 'city=北京' 'city=广州' 'temperature']
<Compressed Sparse Row sparse matrix of dtype 'float64'
   with 8 stored elements and shape (4, 4)>
Coords   Values
(0, 1)   1.0
(0, 3)   10.0
(1, 0)   1.0
(1, 3)   20.0
(2, 2)   1.0
(2, 3)   30.0
(3, 2)   1.0
(3, 3)   29.0

三元组(稀疏矩阵)显示的就是除了0以外的所有数值的索引，也就可以根据索引可以还原之前的特征矩阵。

2.4 CountVectorizer 文本特征提取

API：

sklearn.feature_extraction.text.CountVectorizer()

参数：

- stop_words : 又叫黑名单，其中存储的是停用词即不会被提取的词，值类型为list

# 导入相关库
from sklearn.feature_extraction.text import CountVectorizer# 创建一个简单的英文句子
data = ["I love machine learning.", "I love coding.", "I love both"]# 创建一个CountVectorizer对象
cv = CountVectorizer(stop_words=["machine", "learning", "coding"])
# 转换句子为词频矩阵
data_new1 = cv.fit_transform(data)
# 查看特征名
print(cv.get_feature_names_out())
# 查看词频矩阵(三元组)
print(data_new1)
# 转化为特征矩阵
print(data_new1.toarray())

['both' 'love']
<Compressed Sparse Row sparse matrix of dtype 'int64'
   with 4 stored elements and shape (3, 2)>
Coords   Values
(0, 1)   1
(1, 1)   1
(2, 1)   1
(2, 0)   1
[[0 1]
[0 1]
[1 1]]

可以看到，其将每个英文单词提取出来作为特征，矩阵中的数字就是出现的次数(频率)。我们也可以不提取某些词，而且这个函数内部也隐式地去掉了一些特殊字符。

但，我们一般用的都是中文，而这又是特殊字符，能正常使用吗？

# 导入相关库
from sklearn.feature_extraction.text import CountVectorizer# 创建一个简单的中文句子
data = ["第一个句子","第二个句子"]# 创建一个CountVectorizer对象
cv = CountVectorizer()
# 转换句子为词频矩阵
data_new1 = cv.fit_transform(data)
# 查看特征名
print(cv.get_feature_names_out())
# 查看词频矩阵(三元组)
print(data_new1)
# 转化为特征矩阵
print(data_new1.toarray())

['第一个句子' '第二个句子']
<Compressed Sparse Row sparse matrix of dtype 'int64'
   with 2 stored elements and shape (2, 2)>
Coords   Values
(0, 0)   1
(1, 1)   1
[[1 0]
[0 1]]

很明显，这个地方有大问题，由于英文单词天生就用空格分隔，所以可以直接提取。但中文有自己的分词规则，我们需要用其他分词工具进行分词，比如jieba。

使用下面的命令进行下载：

pip install jieba

# 导入
from sklearn.feature_extraction.text import CountVectorizer
import jiebadata = "第一个句子"# 用jieba分词，返回一个可迭代对象
data = jieba.cut(data)
data = list(data)
print(data)# 再将分词结果转换为字符串
data = " ".join(data)
print(data)# 用CountVectorizer进行特征提取
vec = CountVectorizer()
data_new = vec.fit_transform([data])print(vec.get_feature_names_out())
print(data_new.toarray())

['第一个', '句子']
第一个句子
['句子' '第一个']
[[1 1]]

# 进行多个句子的提取
from sklearn.feature_extraction.text import CountVectorizer
import jiebadata = ["第一个句子","第二个句子"]# 写一个函数完成分词和转化字符串
def cut_words(str):return " ".join(list(jieba.cut(str)))# 给data里的句子分词
data = [cut_words(i) for i in data]# 用CountVectorizer进行特征提取
vec = CountVectorizer()
data_new = vec.fit_transform(data)# 打印特征提取后的结果
print(vec.get_feature_names_out())
print(data_new.toarray())

['句子' '第一个' '第二个']
[[1 1 0]
[1 0 1]]

2.5 TfidfVectorizer TF-IDF文本特征词的重要程度特征提取

词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性

逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度

API：

sklearn.feature_extraction.text.TfidfVectorizer()

参数：

- stop_words：表示词特征黑名单

使用示例：

# 导入相关库
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba# 自定义数据集
data = ["第一个句子","第二个句子"]
def cut_words(str):return " ".join(list(jieba.cut(str)))# 给data里的句子分词
data = [cut_words(i) for i in data]# 创建TF-IDF向量化器
tool = TfidfVectorizer()# 拟合并转换数据集
data_new = tool.fit_transform(data)# 输出结果
print(tool.get_feature_names_out())
print(data_new.toarray())

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Clocky7\AppData\Local\Temp\jieba.cache
Loading model cost 0.529 seconds.
Prefix dict has been built successfully.

['句子' '第一个' '第二个']
[[0.57973867 0.81480247 0. ]
[0.57973867 0. 0.81480247]]

可以看到，有几个句子（文档）就有几个列表，其中的数据表明对应词语在当前文档中的重要程度。

扩展：

在sklearn库中 TF-IDF算法做了一些细节的优化：

- TfidfVectorizer 中，TF 默认是：直接使用一个词在文档中出现的次数也就是CountVectorizer的结果

- TfidfVectorizer 中，IDF 的默认计算公式是：

- 而且机器学习中还会进行归一化（L2归一化）处理

下面是手动实现TF-IDF算法的代码：

# 手动实现tfidf向量(跟上面的api实现出一样的效果)
import numpy as  np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
import jiebadata = ["第一个句子","第二个句子"]
def cut_words(str):return " ".join(list(jieba.cut(str)))data = [cut_words(i) for i in data]def tfidf(x):cv = CountVectorizer()# 获取词频tf = cv.fit_transform(x).toarray()# 计算idfidf = np.log((len(tf)+1)/(np.sum(tf!=0,axis=0)+1))+1tfidf = tf*idf# 归一化tfidf = normalize(tfidf, norm='l2', axis=1)return tfidfdata_new = tfidf(data)
print(data_new)

[[0.57973867 0.81480247 0. ]
[0.57973867 0. 0.81480247]]

机器学习-数据集划分和特征工程

一.数据集划分 API函数： sklearn.model_selection.train_test_split(*arrays，**options) 参数： - arrays：多个数组，可以是列表，numpy数组，也可以是dataframe数据框等 - options：&…...

编程日记 2025/8/5 16:19:41

LDO与DCDC总结

目录 1. 工作原理 2. 性能对比 3. 选型关键因素 4. 典型应用总结 1. 工作原理 LDO LDO通过线性调节方式实现降压，输入电压需略高于输出电压（压差通常为0.2-2V），利用内部PMOS管或PNP三极管调整压差以稳定输出电压。其结构简单…...

编程日记 2025/8/1 5:18:46

5 种距离算法总结！！

大家好！我是我不是小upper～ 今天，咱们聚焦一个在机器学习领域极为关键、在实际项目中也高频使用的主题 ——距离算法。在机器学习的世界里，距离算法就像是一把 “度量尺”，专门用来衡量数据点之间的相似性或差异性。…...

编程日记 2025/8/1 5:18:44

【leetcode100】最长重复子数组

1、题目描述给两个整数数组 nums1 和 nums2 ，返回两个数组中公共的、长度最长的子数组的长度。示例 1： 输入：nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出：3 解释：长度最长的公共子数组是 [3,2,1] 。示例 2&…...

编程日记 2025/8/1 5:18:42

独立自主的网络浏览器——Ladybird

独立自主的网络浏览器——Ladybird 随着互联网技术的飞速发展，浏览器作为人们探索网络世界的窗口，其技术创新和安全措施至关重要。然而，市场上绝大多数浏览器都是基于现有的成熟引擎进行开发，如何创新突破，成为一个独…...

编程日记 2025/8/1 5:18:40

强化学习三大基本方法-DP、MC、TD

强化学习进阶本文主要讲解动态规划法（Dynamic Programming DP）蒙特卡洛法（Monte Carlo MC）时序差分法（Temporal Difference TD） 1. 动态规划法 1.1 动态规划概念动态规划核心思想： 其核心…...

编程日记 2025/8/1 5:18:38

【数据结构】1. 时间/空间复杂度

- 第 95 篇 - Date: 2025 - 05 - 09 Author: 郑龙浩/仟墨【数据结构】文章目录数据结构 - 1 -了解数据结构与算法1 什么是数据结构2 什么是算法3 数据结构的重要性？ 一时间复杂度_空间复杂度1 时间复杂度① 表示方法② 推导大 O 的规则:③ **代码示例 ** 2 空…...

编程日记 2025/8/1 5:18:36

k8s存储类型：emptyDir、hostPath、nfs、pvc及存储类storageclass的静态/动态创建pv

Kubernetes存储类型详解 Kubernetes（K8s）提供了多种存储类型，满足不同的存储需求。这些存储类型包括 emptyDir、hostPath、nfs、PersistentVolumeClaim（PVC）以及存储类（StorageClass）的静态和动…...

编程日记 2025/8/1 3:06:23

TRAE 配置blender MCP AI自动3D建模

BlenderMCP - Blender模型上下文协议集成 BlenderMCP通过模型上下文协议(MCP)将Blender连接到Claude AI，允许Claude直接与Blender交互并控制Blender。这种集成实现了即时辅助的3D建模、场景创建和操纵。 1.第一步下载 MCP插件(addon.py):Blender插件，在…...

编程日记 2025/8/1 3:06:21

不拆机查看电脑硬盘型号的常用方法

要比较两个硬件的参数，首先要知道的是硬件准确的型号。不过，如硬盘这类硬件，一般都藏在电脑“肚子里”，拆下看费时又费力。那么，不拆机电脑硬盘型号怎么看呢？接下来，我们就来分享几种方法。使…...

编程日记 2025/8/1 3:06:19

抖音 “碰一碰” 发视频：短视频社交的新玩法

在短视频社交的广阔天地里，抖音始终站在创新的前沿。2023 年，抖音重磅推出 “碰一碰” 功能，借助近距离通信技术，实现设备间视频的闪电分享，为短视频社交注入全新活力。本文将深入剖析这一功能背后的技术奥秘、丰富应用…...

编程日记 2025/8/1 3:06:17

learning ray之ray核心设计和架构

我们每天都在处理海量、多样且高速生成的数据，这对计算能力提出了前所未有的挑战。传统的单机计算模式在面对日益复杂的机器学习模型和大规模数据集时，往往显得力不从心。更重要的是，数据科学家们本应专注于模型训练、特征工程、超参数调优这…...

编程日记 2025/8/1 3:06:15

深入理解 JavaScript 对象与属性控制

ECMA-262将对象定义为一组属性的无序集合,严格来说,这意味着对象就是一组没有特定顺序的值,对象的每个属性或方法都由一个名称来标识,这个名称映射到一个值. 可以把js的对象想象成一张散列表,其中的内容就是一组名/值对,值可以是数据或者函数 1. 理解对象创建自定义对象的…...

编程日记 2025/8/1 3:06:13

深入理解 Linux 虚拟文件系统（VFS）

在 Linux 操作系统的世界里，虚拟文件系统（Virtual File System，VFS）扮演着极为关键的角色。它就像是一座桥梁，连接着各种不同类型的物理文件系统与操作系统以及应用程序，使得我们在使用 Linux 时能够以统一…...

编程日记 2025/8/1 3:06:11

AI云防护真的可以防攻击？你的服务器用群联AI云防护吗？

1. 传统防御方案的局限性静态规则缺陷：无法应对新型攻击模式（如HTTP慢速攻击）资源浪费：固定带宽采购导致非攻击期资源闲置 2. AI云防护技术实现动态流量调度算法： # 智能节点选择伪代码（参考群联防护…...

编程日记 2025/8/1 3:06:09

计算机视觉——MedSAM2医学影像一键实现3D与视频分割的高效解决方案

引言在乡村医院的傍晚高峰时段，扫描室内传来阵阵低沉的嗡鸣声，仿佛一台老旧冰箱的运转声。一位疲惫的医生正全神贯注地检查着当天的最后一位患者——一位不幸从拖拉机上摔下的农民，此刻正呼吸急促。CT 机器飞速旋转，生成了超过一…...

编程日记 2025/8/1 3:06:07

软件工程之软件项目管理深度解析

前文基础： 1.软件工程学概述：软件工程学概述-CSDN博客 2.软件过程深度解析：软件过程深度解析-CSDN博客 3.软件工程之需求分析涉及的图与工具：软件工程之需求分析涉及的图与工具-CSDN博客 4.软件工程之形式化说明技术深度解…...

编程日记 2025/8/1 3:06:05

40. 组合总和 II

题目给定一个候选人编号的集合 candidates 和一个目标数 target ，找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用一次。注意：解集不能包含重复的组合。示例 1: 输入: candidates [10,1…...

编程日记 2025/8/1 3:06:03

java-多态

一、多态的来历我们先来了解一个业务场景：请设计一个系统，描述主人喂养宠物的场景，首先在这个场景当中应该有”宠物对象“，“宠物对象”应该有一个吃的行为，另外还需要一个“主人对象”，主人应该有一个喂的…...

编程日记 2025/8/1 3:06:02

重构 cluster-db 选择器，新增限制字段 showDb 不影响原功能前提实现查询功能增量拓展

1.为DbSelect组件新添加showDb字段 :show-db"false"时只显示集群不显示数据库信息重构 cluster-db 选择器，新增限制字段 showDb 不影响原功能前提实现查询功能增量拓展,。保证组件**高可用性,减少冗余方法的编写,提高整体代码复用性和维护性**。 <!-…...

编程日记 2025/8/1 3:06:00

Modbus RTU 详解 + FreeMODBUS移植（附项目源码）

文章目录前言一、Modbus RTU1.1 通信方式1.2 模式特点1.3 数据模型1.4 常用功能码说明1.5 异常响应码1.6 通信帧格式1.6.1 示例一：读取保持寄存器（功能码 0x03）1.6.2 示例二：写单个线圈（功能码 0x05）1.6.3…...

编程日记 2025/8/1 3:05:58

新闻发稿筛选媒体核心标准：影响力、适配性与合规性

1. 评估媒体影响力权威性与公信力：优先选择央级媒体，其报道常被其他平台转载，传播链条长，加分权重高。传播数据：参考定海区融媒体中心的赋分办法，关注媒体的阅读量、视频播放量等指标，如阅读…...

编程日记 2025/8/1 3:05:56

豆包：基于多模态交互的智能心理咨询机器人系统设计与效果评估——情感计算框架下的对话机制创新

豆包：基于多模态交互的智能心理咨询机器人系统设计与效果评估——情感计算框架下的对话机制创新摘要随着人工智能在心理健康领域的应用深化，本文提出一种融合情感计算与动态对话管理的智能心理咨询机器人系统架构。通过构建“用户状态-情感响应-策略生成”三层模型，结合…...

编程日记 2025/8/1 3:05:54

坐席业绩可视化分析工具

这个交互式的坐席业绩分析工具具有以下特点： 数据导入功能：支持上传 CSV 文件，自动解析并展示数据多维度分析：可按日 / 周 / 月分析业绩数据，支持切换不同业绩指标（接通时长 / 外呼次数 / 接通次数&#x…...

编程日记 2025/8/1 3:05:52

MATLAB制作柱状图与条图：数据可视化的基础利器

一、什么是柱状图与条图？ 柱状图和条图都是用来表示分类数据的常见图表形式，它们的核心目的是通过矩形的长度来比较各类别的数值大小。条图其实就是“横着的柱状图”，它们的本质是一样的：用矩形的长度表示数值大小，不同…...

编程日记 2025/8/1 3:05:50

com.fasterxml.jackson.dataformat.xml.XmlMapper把对象转换xml格式，属性放到标签＜＞里边

之前从没用过xml和对象相互转换，最近项目接了政府相关的。需要用xml格式数据进行相互转换。有些小问题，困扰了我一下下。 1.有些属性需要放到标签里边，有的需要放到标签子集。 2.xml需要加<?xml version"1.0" encoding"…...

编程日记 2025/8/1 3:05:48

在js中大量接口调用并发批量请求处理器

并发批量请求处理器 ✨ 设计目标该类用于批量异步请求处理，支持： 自定义并发数请求节拍控制（延时）失败重试机制进度回调通知 🔧 构造函数参数 new BulkRequestHandler({dataList, // 要处理的数据列表r…...

编程日记 2025/8/1 3:05:47

Azure资源创建与部署指南

本文将指导您如何在Azure平台上创建和配置必要的资源，以部署基于OpenAI的应用程序。资源组创建资源组是管理和组织Azure资源的逻辑容器。在Azure门户顶端的查询框中输入"Resource groups"（英文环境）或"资源组"（中文环境）在搜索结果中点击"资…...

编程日记 2025/8/1 3:05:45

图解gpt之神经概率语言模型与循环神经网络

上节课我们聊了词向量表示，像Word2Vec这样的模型，它确实能捕捉到词语之间的语义关系，但问题在于，它本质上还是在孤立地看待每个词。英文的“Apple”，可以指苹果公司，也可以指水果。这种一词多义的特性&…...

编程日记 2025/8/1 3:05:43

jenkins启动 service jenkins start 重启 service jenkins restart 停止 service jenkins stop jenkins安装命令切换到自己的下载目录直接用命令下载 wget http://pkg.jenkins-ci.org/redhat-stable/jenkins-2.190.3-1.1.noarch.rpm 下载直接安装 rpm -ivh jenkins-2.190.3-…...

编程日记 2025/8/1 0:09:03

android 修改单GPS，单北斗，单伽利略等

从hal层入手，代码如下： 各个类型如下： typedef enum {MTK_CONFIG_GPS_GLONASS 0,MTK_CONFIG_GPS_BEIDOU,MTK_CONFIG_GPS_GLONASS_BEIDOU,MTK_CONFIG_GPS_ONLY,MTK_CONFIG_BEIDOU_ONLY,MTK_CONFIG_GLONASS_ONLY,MTK_CONFIG_GPS_GLONASS_BEIDO…...

编程日记 2025/8/1 0:09:01

CNG汽车加气站操作工岗位职责

CNG（压缩天然气）汽车加气站操作工是负责天然气加气设备操作、维护及安全管理的重要岗位。以下是该岗位的职责、技能要求、安全注意事项及职业发展方向的详细说明： *主要职责加气操作按照规程为车辆加注CNG，检查车辆气瓶合格证…...

编程日记 2025/8/1 0:08:59

纯Java实现反向传播算法：零依赖神经网络实战

在深度学习框架泛滥的今天，理解算法底层实现变得愈发重要。反向传播(Backpropagation)作为神经网络训练的基石算法，其实现往往被各种框架封装。本文将突破常规，仅用Java标准库实现完整BP算法，帮助开发者： 1) 深入理解…...

编程日记 2025/8/1 0:08:57

springboot3 + mybatis-plus3 创建web项目实现表增删改查

Idea创建项目环境配置说明在现代化的企业级应用开发中，合适的开发环境配置能够极大提升开发效率和应用性能。本文介绍的环境配置为： 操作系统：Windows 11JDK：JDK 21Maven：Maven 3.9.xIDE：IntelliJ IDEA…...

编程日记 2025/8/1 0:08:54

多模型协同预测在风机故障预测的应用（demo）

数据加载和预处理的真实性： 下面的代码中，DummyDataset 和数据加载部分仍然是高度简化和占位的。为了让这个训练循环真正有效，您必须用您自己的数据加载逻辑替换它。这意味着您需要创建一个 torch.utils.data.Dataset 的子类，它能…...

编程日记 2025/8/1 0:08:52

韩媒聚焦Lazarus攻击手段升级，CertiK联创顾荣辉详解应对之道

近日，韩国知名科技媒体《韩国IT时报》（Korea IT Times）刊文引述了CertiK联合创始人兼CEO顾荣辉教授的专业见解，聚焦黑客组织Lazarus在Web3.0领域攻击手段的持续升级，分析这一威胁的严峻性，并探讨了提升行业…...

编程日记 2025/8/1 0:08:49

5.9-selcct_poll_epoll 和 reactor 的模拟实现

5.9-select_poll_epoll 本文演示 select 等 io 多路复用函数的应用方法，函数具体介绍可以参考我过去写的博客。先绑定监听的文件描述符 int sockfd socket(AF_INET, SOCK_STREAM, 0); struct sockaddr_in serveraddr; memset(&serveraddr, 0, sizeof(struc…...

编程日记 2025/8/1 0:08:47

图上思维：基于知识图的大型语言模型的深层可靠推理

摘要尽管大型语言模型（LLM）在各种任务中取得了巨大的成功，但它们经常与幻觉问题作斗争，特别是在需要深入和负责任的推理的场景中。这些问题可以通过在LLM推理中引入外部知识图（KG）来部分解决。在本文中&am…...

编程日记 2025/8/1 0:08:45

37-智慧医疗服务平台(在线接诊/问诊)

系统功能特点： 技术栈: springBootVueMysql 功能点: 医生端用户端管理员端医生端: 科室信息管理、在线挂号管理、预约体检管理、体检报告管理、药品信息管理、处方信息管理、缴费信息管理、病历信息管理、智能导诊管理、在线接诊患者功能 (和患者1V1沟通) 用户…...

编程日记 2025/8/1 0:08:43

【新品发布】VXI可重构信号处理系统模块系列

VXI可重构信号处理系统模块概述 VXI可重构信号处理系统模块包括了 GPU 模块，CPU 模块，射频模块、IO 模块、DSP模块、高速存储模块、交换模块，采集处理模块、回放处理模块等，全套组件为单体3U VPX架构，可自由组合到多槽…...

编程日记 2025/8/1 0:08:40

React 第三十八节 Router 中useRoutes 的使用详解及注意事项

前言 useRoutes 是 React Router v6 引入的一个钩子函数，允许通过 JavaScript 对象（而非传统的 JSX 语法）定义路由配置。这种方式更适合复杂路由结构，且代码更简洁易维护。一、基础使用 1.1、useRoutes路由配置对象 useRoute…...

编程日记 2025/8/1 0:08:39

Redhat 系统详解

Red Hat 系统深度解析：从企业级架构到核心组件一、Red Hat 概述：企业级 Linux 的标杆 Red Hat 是全球领先的开源解决方案供应商，其核心产品 Red Hat Enterprise Linux（RHEL） 是企业级 Linux 的黄金标准。RHEL 以稳…...

编程日记 2025/8/1 0:08:36

docker常用命令总结

常用命令含义docker info查看docker 服务的信息-------------------------镜像篇docker pull XXX从官网上拉取名为XXX的镜像docker login -u name登录自己的dockerhub账号docker push XXX将XXX镜像上传到自己的dockerhub账户中（XXX的命名必须是用户名/镜像名&#x…...

编程日记 2025/8/1 3:05:41

【el-admin】el-admin关联数据字典

数据字典使用一、新增数据字典1、新增【图书状态】和【图书类型】数据字典2、编辑字典值二、代码生成配置1、表单设置2、关联字典3、验证关联数据字典三、查询操作1、模糊查询2、按类别查询（下拉框） 四、数据校验一、新增数据字典 1、新增【图书状态…...

编程日记 2025/8/1 3:05:39

component ：is是什么？

问： component ：is是什么？ 是组件？ 那我们是不是就不需要自己创建组件了？还是什么意思？component ：is和什么功能是类似的，同时和类似功能相比对什么时候用component ：is…...

编程日记 2025/8/1 3:05:37

适老化洗浴辅具产业：在技术迭代与需求升级中重塑银发经济新生态

随着中国人口老龄化程度的不断加深，老年群体对于适老化产品的需求日益增长。适老化洗浴辅具作为保障老年人洗浴安全与舒适的关键产品，其发展状况备受关注。深入剖析中国适老化洗浴辅具的发展现状，并探寻助力产业发展的有效路径&#xff0…...

编程日记 2025/8/1 3:05:35

『Python学习笔记』ubuntu解决matplotlit中文乱码的问题！

ubuntu解决matplotlit中文乱码的问题！ 文章目录 simhei.ttf字体下载链接：http://xiazaiziti.com/210356.html将字体放到合适的地方 sudo cp SimHei.ttf /usr/share/fonts/(base) zkfzkf:~$ fc-list | grep -i "SimHei" /usr/local/share/font…...

编程日记 2025/8/1 3:05:33