当前位置：首页 > news >正文

Word2Vec模型学习和Word2Vec提取相似文本体验

news 来源：原创 2025/8/28 17:54:43

文章目录

说明
Word2Vec模型
- 核心思想
- 两种经典模型
- 关键技术和算法流程
- 优点和局限
- 应用场景
Word2Vec提取相似文本
- 完整源码
- 执行结果

说明

本文适用于初学者，体验Pytorch框架在自然语言处理中的使用。简单了解学习Word2Vec模型，体验其使用。

Word2Vec模型

Word2Vec 是一种广泛使用的 词嵌入（Word Embedding） 技术，由 Google 团队（Tomas Mikolov 等）于 2013 年提出。它通过将词语映射到低维稠密向量空间，捕捉词语之间的语义和语法关系，使得相似含义或用法的词在向量空间中距离更近。
Word2Vec模型使用一层神经网络将one-hot（独热编码）形式的词向量映射到分布式形式的词向量，使用了层次Softmax、负采样（Negative Sampling）等技巧进行训练速度上的优化。
Word2Vec模型的主要用途有两点：一是用于其他复杂的神经网络模型的初始化（预处理）；二是把词与词之间的相似度用作某个模型的特征（分析）。

核心思想

Word2Vec 基于 “分布假说”（Distributional Hypothesis）： “具有相似上下文的词语，其语义也相似。” 模型通过分析大量文本数据，学习词语的分布式表示（即向量）。

两种经典模型

CBOW（Continuous Bag-of-Words）
- 目标：通过上下文词语（窗口内的周围词）预测当前词。
- 特点：适合小型数据集或高频词，训练速度较快。
- 示例：
  句子："The cat sits on the mat"
  输入：["the", "cat", "on", "the"]（上下文） → 输出预测："sits"
Skip-gram
- 目标：通过当前词预测上下文词语。
- 特点：适合大型数据集或低频词，能更好捕捉复杂模式。
- 示例：
  输入："sits" → 输出预测：["the", "cat", "on", "the"]

关键技术和算法流程

负采样（Negative Sampling）：通过采样负例（非上下文词）加速训练，替代传统的 softmax 计算。
层次 Softmax（Hierarchical Softmax）：使用哈夫曼树减少计算复杂度，提升效率。
滑动窗口（Window Size）：控制上下文范围（通常 5~10 个词），影响语义捕捉的广度。

word2Vec实质上是一种降维操作，即将one-hot形式的词向量转换为Word2Vec形式。算法流程：

one-hot形式的词向量输入单层神经网络中，其中输入层的神经元节点个数应该和one-hot形式的词向量维数相对应。
通过神经网络中的映射层中的激活函数计算目标单词与其他词汇的关联概率，在计算时使用了负采样的方式来提高其训练速度和正确率
通过使用随机梯度下降（SGD）优化算法计算损失。
通过反向传播算法对神经元的各个权重和偏置进行更新。

优点和局限

高效：比传统矩阵分解（如 LSA）更轻量。
可解释性：向量空间中的距离反映语义/语法相似性。
泛化能力：适用于多种下游任务（如文本分类、机器翻译）。

一词多义：无法处理多义词（如 "bank" 可能指河岸或银行）。
静态向量：每个词只有单一表示，无法根据上下文动态调整（后续模型如 BERT 解决了这一问题）。
依赖数据质量：需要大量语料才能训练出有效的向量。

应用场景

文本相似度计算
推荐系统（用户/物品的嵌入表示）
机器翻译的前置处理
命名实体识别（NER）、情感分析等 NLP 任务

Word2Vec提取相似文本

完整源码

import collections
import math
import random
import sys
import timeimport torch.utils.data as Data
import torch
from torch import nn
# Word2Vec提取相似文本
# 以只读方式打开文件 读取单词 存储在列表中
with open('HarryPotter.txt','r') as f:lines = f.readlines()raw_dataset=[st.split() for st in lines]"""
tk for st in raw_dataset for tk in st 等价于
result = []
for st in raw_dataset:        # 遍历每一条文本（每个子列表）for tk in st:             # 遍历文本中的每一个词（token）result.append(tk)     # 将词加入结果列表
"""
# tk是token的缩写
counter = collections.Counter([tk for st in raw_dataset for tk in st])
# 过滤低频词 只保留在数据集中至少出现5次的词
counter = dict(filter(lambda x: x[1] >= 5, counter.items()))
#  生成从索引到词的映射表 idx_to_token
"""
counter.items() 返回的是词频字典的所有键值对（词 + 出现次数）。
tk for tk, _ in counter.items() 遍历这些键值对，只取词（忽略频率），生成一个列表。
结果：idx_to_token 是一个列表，索引是词在列表中的位置，值是对应的词。
"""
idx_to_token = [tk for tk, _ in counter.items()]
# 生成从词到索引的映射表 token_to_idx
"""
使用 enumerate 遍历 idx_to_token 列表，得到每个词及其对应的索引。
构建一个字典，键是词（token），值是该词对应的索引（index）。
"""
token_to_idx = {tk: idx for idx, tk in enumerate(idx_to_token)}
# 将原始文本转换为索引表示 dataset raw_dataset中的单词在这一步被转换为对应的idx
"""
外层循环遍历每条原始文本 st（如句子或段落）。
内层循环遍历每个词 tk，如果这个词存在于 token_to_idx 中，则将其转换为对应的索引。
最终结果是一个二维列表，其中每个子列表是一条文本对应的词索引序列。
"""
dataset = [[token_to_idx[tk] for tk in st if tk in token_to_idx]for st in raw_dataset]
# 统计所有保留词的总数量 num_tokens
num_tokens = sum([len(st) for st in dataset])'''
二次采样操作
降频操作: 越高频率的词一般意义不大，根据公式高频词越容易被过滤。既不希望超高频被完全过滤，又希望减少高频词对训练的影响。
'''
def discard(idx):return random.uniform(0, 1) < 1 - math.sqrt(1e-4 / counter[idx_to_token[idx]] * num_tokens)
'''
提取中心词和背景词 将与中心词距离不超过背景窗口大小的词作为背景词
get_centers_and_contexts 函数提取所有的中心词和背景词
每次在整数1和max_window_size之间随机均匀采样一个整数作为背景窗口大小
'''
def get_centers_and_contexts(dataset, max_window_size):"""从给定的数据集中获取中心和上下文:param dataset: 数据集:param max_window_size: 最大背景窗口:return: 一个包含中心词和上下文的元组(centers, contexts)"""# 中心词和背景词列表centers, contexts = [], []# 遍历数据集中的每个字符串stfor st in dataset:# 跳过长度小于2的句子if len(st) < 2:continue# 将符合要求的单词添加到中心词列表中centers += st# 对于每个中心词for center_i in range(len(st)):# 随机选择一个背景窗口大小window_size = random.randint(1, max_window_size)# 生成一个包含中心词索引和周围索引的列表'''center_i：当前中心词在句子 st 中的索引位置。window_size：随机选择的窗口大小（范围为 1 到 max_window_size）。len(st)：当前句子中词的总数量。1. center_i - window_size 计算窗口的起始索引（左边界），不能小于 0，所以用 max(0, ...) 来限制。2. center_i + 1 + window_size 计算窗口的结束索引（右边界），注意：加 1 是因为 Python 的 range(start, end) 是左闭右开区间；所以 center_i + 1 表示从中心词开始，至少包括它本身；再加上 window_size 就能取到右边最多 window_size 个词；使用 min(..., len(st)) 防止超出句子长度。3. range(...) + list(...) 把这个索引范围转换成一个整数列表，即所有可能的上下文词的位置。'''indices = list(range(max(0, center_i - window_size), min(len(st), center_i + 1 + window_size)))#  将中心词索引从列表中移除indices.remove(center_i)contexts.append([st[idx] for idx in indices])# 返回中心和上下文列表return centers, contexts# 假设最大背景窗口大小为5 提取中心词和背景词
all_centers, all_contexts = get_centers_and_contexts(dataset, 5)"""
负采样近似加快程序运行时间
对于一对中心词和背景词 随机采样5个噪声词
噪声词采样率P(w)设为w词频与总词频之比的0.75次方
"""
def get_negatives(all_contexts, sampling_weights, K):"""用于获取负样本:param all_contexts: 所有上下文的列表:param sampling_weights: 采样权重的列表:param K: 所需的负样本数量:return: all_negatives 包含负样本的列表"""all_negatives, neg_candidates, i = [], [], 0# 生成一个候选噪声词的列表，其中每个噪声词的采样权重与原始词的采样权重相同population = list(range(len(sampling_weights)))for contexts in all_contexts:# 初始化一个空列表用于存储负样本negatives = []# 当负样本数量小于上下文数量与k的乘积时，继续循环while len(negatives) < len(contexts) * K:# 如果i等于候选噪声词列表的长度，则重新生成候选噪声词列表if i == len(neg_candidates):i, neg_candidates = 0, random.choices(population, sampling_weights, k=int(1e5))# 获取下一个负样本和更新ineg, i = neg_candidates[i], i + 1# 如果负样本不在上下文中，则添加到负样本列表中if neg not in set(contexts):negatives.append(neg)# 将当前上下文的负样本添加到all_negatives列表中all_negatives.append(negatives)return all_negatives
# 计算采样权重 使用计数器中每个元素的0.75次方
sampling_weights = [counter[w] ** 0.75 for w in idx_to_token]
# 获取负样本
all_negatives = get_negatives(all_contexts, sampling_weights, 5)# 小批量读取函数batchify
"""
小批量输入data是一个列表 其中每个元素分别为中心词center、背景词context和噪声词negative
"""
def batchify(data):max_len = max(len(c) + len(n) for _, c, n in data)centers, contexts_negatives, masks, labels = [], [], [], []for center, context, negative in data:cur_len = len(context) + len(negative)centers += [center]contexts_negatives += [context + negative + [0] * (max_len - cur_len)]masks += [[1] * cur_len + [0] * (max_len - cur_len)]labels += [[1] * len(context) + [0] * (max_len - len(context))]batch = (torch.tensor(centers).view(-1, 1), torch.tensor(contexts_negatives),torch.tensor(masks), torch.tensor(labels))return batchclass MyDataset(torch.utils.data.Dataset):def __init__(self, centers, contexts, negatives):assert len(centers) == len(contexts) == len(negatives)self.centers = centersself.contexts = contextsself.negatives = negativesdef __getitem__(self, index):return (self.centers[index], self.contexts[index], self.negatives[index])def __len__(self):return len(self.centers)# 定义批次大小 并根据操作系统设置线程数
batch_size = 256
num_workers = 0 if sys.platform.startswith('win32') else -1
# 创建数据集
dataset = MyDataset(all_centers, all_contexts, all_negatives)
# 创建数据加载器
data_iter = Data.DataLoader(dataset, batch_size, shuffle=True,collate_fn=batchify,num_workers=num_workers)
# 遍历数据集
for batch in data_iter:for name, data in zip(['centers', 'contexts_negatives', 'masks', 'labels'], batch):print(name, 'shape:', data.shape)break# 搭建网络模型
#采用交叉熵损失函数
class SigmoidBinaryCrossEntropyLoss(nn.Module):def __init__(self):super(SigmoidBinaryCrossEntropyLoss, self).__init__()def forward(self, inputs, targets, mask=None):inputs, targets, mask = inputs.float(), targets.float(), mask.float()res = nn.functional.binary_cross_entropy_with_logits(inputs, targets, reduction="none", weight=mask)res = res.sum(dim=1) / mask.float().sum(dim=1)return resloss = SigmoidBinaryCrossEntropyLoss()# 定义sigmd函数
def sigmd(x):return - math.log(1 / (1 + math.exp(-x)))# 设置嵌入向量的大小
embed_size = 200
# 创建一个神经网络
"""
嵌入层 将输入的索引映射到嵌入向量 嵌入向量的维度为embed_size
nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size)
nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size)
"""
net = nn.Sequential(nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size),nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size))"""
center 中心词
contexts_and_negatives 上下文词和负样本 
embed_v 将输入映射到嵌入向量的函数
embed_u 将输入映射到嵌入向量的函数
"""
def skip_gram(center, contexts_and_negatives, embed_v, embed_u):v = embed_v(center)u = embed_u(contexts_and_negatives)pred = torch.bmm(v, u.permute(0, 2, 1))return pred"""
训练网络模型 
"""
def train(net, lr, num_epochs):device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')print("train on", device)net = net.to(device)optimizer = torch.optim.Adam(net.parameters(), lr=lr)for epoch in range(num_epochs):start, l_sum, n = time.time(), 0.0, 0for batch in data_iter:center, context_negative, mask, label = [d.to(device) for d in batch]pred = skip_gram(center, context_negative, net[0], net[1])l = loss(pred.view(label.shape), label, mask).mean()optimizer.zero_grad()l.backward()optimizer.step()l_sum += l.cpu().item()n += 1print('epoch %d, loss %.2f, time %.2fs'% (epoch + 1, l_sum / n, time.time() - start))train(net, 0.01, 5)# 定义函数用于获取给定查询令牌相似的令牌
def get_similar_tokens(query_token, k, embed):W = embed.weight.datax = W[token_to_idx[query_token]]cos = torch.matmul(W, x) / (torch.sum(W * W, dim=1) * torch.sum(x * x) + 1e-9).sqrt()_, topk = torch.topk(cos, k=k + 1)topk = topk.cpu().numpy()for i in topk[1:]:print('余弦相似度 = %.3f: %s' % (cos[i], (idx_to_token[i])))# 调用函数获取与'Dursley'最相似的5个令牌
get_similar_tokens('Dursley', 5, net[0])

执行结果

centers shape: torch.Size([256, 1])
contexts_negatives shape: torch.Size([256, 60])
masks shape: torch.Size([256, 60])
labels shape: torch.Size([256, 60])
train on cuda
epoch 1, loss 3.27, time 236.44s
epoch 2, loss 1.17, time 237.80s
epoch 3, loss 0.70, time 236.57s
epoch 4, loss 0.53, time 241.82s
epoch 5, loss 0.45, time 241.26s
余弦相似度 = 0.290: was
余弦相似度 = 0.285: one.
余弦相似度 = 0.282: tight
余弦相似度 = 0.278: moment,
余弦相似度 = 0.271: loudly,

Word2Vec模型学习和Word2Vec提取相似文本体验

文章目录说明Word2Vec模型核心思想两种经典模型关键技术和算法流程优点和局限应用场景 Word2Vec提取相似文本完整源码执行结果说明本文适用于初学者，体验Pytorch框架在自然语言处理中的使用。简单了解学习Word2Vec模型，体验其使用。 Word2Vec模型 …...

编程日记 2025/8/28 17:54:43

[测试_3] 生命周期 | Bug级别 | 测试流程 | 思考

目录一、软件测试的生命周期（重点） 1、软件测试 & 软件开发生命周期 （1）需求分析 （2）测试计划 （3）测试设计与开发 （4）测试执行 （5&am…...

编程日记 2025/8/28 8:31:56

epoll_wait未触发的小Bug

上次看了一下epoll监听的原理，在Android Jni里使用epoll，来监听Gpio口的变化事件，具体代码如下： 打开 GPIO 文件描述符，因为该文件是内核虚拟出来的，不是实际文件，所以无法使用FileObserver来监…...

编程日记 2025/8/28 17:52:13

Unity异步加载image的材质后，未正确显示的问题

简述： 此问题涉及到Unity的UI刷新机制问题描述： 如图所示，想要实现在打开新的界面时候，通过修改材质的方式，修改image的显示内容。明明已经给image添加上材质了，可还是一片空白？ 先看看代…...

编程日记 2025/8/28 17:51:22

Python----循环神经网络（Word2Vec）

一、Word2Vec Word2Vec是word to vector的简称，字面上理解就是把文字向量化，也就是词嵌入的一种方式。它的核心就是建立一个简单的神经网络实现词嵌入。其模型仅仅包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要…...

编程日记 2025/8/28 17:48:46

Oracle Enqueue Names Enqueue（排队锁）是Oracle数据库中用于协调多进程并发访问共享资源的锁机制。 This appendix lists Oracle enqueues. Enqueues are shared memory structures (locks) that serialize access to database resources. They can be…...

编程日记 2025/8/28 17:48:47

微服务中API网关作用（统一入口、路由转发、协议转换、认证授权、请求聚合、负载均衡、熔断限流、监控日志）

文章目录在微服务架构中，API网关主要有以下作用1. 统一入口：作为所有客户端请求的单一入口点，隐藏后端服务的复杂性2. 路由转发：将客户端请求准确路由到适当的微服务（如图中的服务A、B、C）3. 协议转换&…...

编程日记 2025/8/28 17:49:31

Linux `cat` 命令深度解析与高阶应用指南

Linux `cat` 命令深度解析与高阶应用指南一、核心功能解析1. 基本作用2. 与类似命令对比二、选项系统详解1. 常用选项矩阵2. 组合使用技巧三、高阶应用场景1. 数据流处理2. 系统维护操作3. 开发调试应用四、安全与权限管理1. 访问控制策略2. 二进制文件处理五、性能优化策略1.…...

编程日记 2025/8/28 17:52:11

融云 uni-app IMKit 上线，1 天集成，多端畅行

融云 uni-app IMKit 正式上线，支持一套代码同时运行在 iOS、Android、H5、小程序主流四端，集成仅需 1 天，并可确保多平台的一致性体验。融云 uni-app IMKit 在 Vue 3 的高性能加持下开发实现，使用 Vue 3 Composition API&#x…...

编程日记 2025/8/28 17:46:48

VLA模型：自动驾驶与机器人行业的革命性跃迁，端到端智能如何重塑未来？

当AI开始操控方向盘和机械臂，人类正在见证一场静默的产业革命。 2023年7月，谷歌DeepMind抛出一枚技术核弹——全球首个视觉语言动作模型（VLA）RT-2横空出世。这个能将“把咖啡递给穿红衣服的阿姨”这类自然语言指令直接转化为机器人…...

编程日记 2025/8/21 12:32:41

IP地址详解

IP地址详解（技术向）一、核心定义 IP地址（Internet Protocol Address）是网络层逻辑地址，用于在网络中唯一标识设备。本质上是 32位（IPv4）或128位（IPv6）二进制数。本机的地址为127.0.0.1，主机名：localhost192.168.0.0-192.168.255.255为私有地址，属于非注册地址，…...

编程日记 2025/8/28 11:37:21

C++网络编程入门学习（四）-- GDB 调试学习笔记

GDB 调试学习笔记 GDB 调试学习笔记调试准备启动和退出gdbgdb中启动程序退出gdb查看代码断点调试命令继续运行gdb手动打印信息自动打印信息单步调试step 可简写 snext 可简写成 nfinish 可简写成 finuntil 可简写成 u 设置变量值 GDB 调试学习笔记学习地址&#xff1a…...

编程日记 2025/8/22 17:00:30

C#面：Server.UrlEncode、HttpUtility.UrlDecode的区别

在C#编程中，Server.UrlEncode 和 HttpUtility.UrlDecode 是两个常用的方法，用于处理URL编码和解码操作。理解它们的区别对于确保数据在Web应用程序中的正确传输和解析至关重要。 Server.UrlEncode 和 HttpUtility.UrlDecode的区别 Server.UrlEncode 和…...

编程日记 2025/8/28 17:48:46

kafka配置SASL_PLAINTEXT简单认证

Kafka ZooKeeper 开启 SASL_PLAINTEXT 认证（PLAIN机制）最全实战教程 💡 本教程将手把手教你如何为 Kafka 配置基于 SASL_PLAINTEXT PLAIN 的用户名密码认证机制，包含 Kafka 与 ZooKeeper 的全部配置，适合入门。 &…...

编程日记 2025/8/28 17:48:01

Flink SQL 计算实时指标同比的实现方法

在 Flink SQL 中计算实时指标的同比（Year-on-Year），核心是通过时间窗口划分周期（如日、月、周），并关联当前周期与去年同期的指标值。以下是结合流数据处理特性的具体实现方法，包含数据准备、窗口聚合、历史数据关联等关键步骤。一、同比的定义与场景同比指当前周期指…...

编程日记 2025/8/28 13:27:06

Vue Router动态路由与导航守卫实战

在 Vue Router 中，动态路由与导航守卫的结合使用能够实现复杂的路由控制逻辑，例如权限验证、动态路由加载、数据预取等功能。以下是一个结合实战的详细说明： 一、动态路由基础动态路由通过路径参数（:）实现动态匹配&a…...

编程日记 2025/8/28 1:22:34

数据库健康监测器（BHM）实战：如何通过 HTML 报告识别潜在问题

在数据库运维中，健康监测是保障系统稳定性与性能的关键环节。通过 HTML 报告，开发者可以直观查看数据库的运行状态、资源使用情况与潜在风险。本文将围绕数据库健康监测器（Database Health Monitor, BHM）的核心功能展开分析，结合 Prometheus + Grafana + MySQL Export…...

编程日记 2025/8/28 17:51:25

Oracle基础知识(二)

目录 1.聚合函数 2.COUNT(1)&COUNT(*)&COUNT(字段)区别（面试常问） 3.分组聚合——group by 4.去重：DISTINCT 、GROUP BY 5.聚合函数的过滤HAVING 6.oracle中having与where的区别 (面试常问) 7.ROUND与TRUNC函数 8.ROLLUP上卷…...

编程日记 2025/8/26 17:37:46

轻量化MEC终端特点

MEC（多接入边缘计算）解决方案通过将计算能力下沉至网络边缘，结合5G网络特性，已在多个行业实现低延迟、高可靠、高安全的应用部署。以下从技术架构、核心优势及典型场景三方面进行总结： 一、技术架构分层设计‌ MEC架…...

编程日记 2025/8/21 18:43:05

Git 提交大文件 this exceeds GitHub‘s file size limit of 100.00 MB

报错核心： File …/encoder-epoch-99-avg-1.int8.onnx is 173.47 MB File …/encoder-epoch-99-avg-1.onnx is 314.79 MB this exceeds GitHub’s file size limit of 100.00 MB 正确做法：使用 Git LFS 上传大文件 GitHub 对单个文件最大限制是 100MB&…...

编程日记 2025/8/27 11:37:31

前后端的双精度浮点数精度不一致问题解决方案，自定义Spring的消息转换器处理JSON转换

在 Java 中，Long 是一个 64 位的长整型，通常用于表示很大的整数。在后端，Long 类型的数据没有问题，因为 Java 本身使用的是 64 位的整数，可以表示的范围非常大。但是，在前端 JavaScript 中，Lo…...

编程日记 2025/8/22 20:13:05

C语言—Linux环境下CMake设置库（动态/静态）

1. Yesterday Once More 由于昨日我们在VSCode设置了如何使用CMake构建与编译c语言项目，如有疑问，请看以下链接，今日根据昨天的配置来进一步完成项目的构建。 c语言- 如何构建CMake项目（Linux/VSCode）-CSDN博客 2. 动态…...

编程日记 2025/8/28 17:49:41

C语言---内存函数

memcpy函数的使用及模拟实现 memcpy的功能和strcpy类似，都是用来拷贝数据的。与strcpy不同的是，memcpy的适用性更广并且是以字节为单位来拷贝的。 void * memcpy ( void * destination, const void * source, size_t num ) memcpy函数的作用就是拷贝从so…...

编程日记 2025/8/28 17:50:15

vue项目启动报错（node版本与Webpack）

一、问题因为项目需要将node版本从v14.17.0升级到v20.9.1了，然后启动项目报错报错有些多，直接省略部分 building 2/2 modules 0 activeError: error:0308010C:digital envelope routines::unsupported at new Hash (node:internal/crypto/hash:79:19) …...

编程日记 2025/8/28 17:46:52

Vite + Vue 工程中，为什么需要关注 `postcss.config.ts`？

📜 前言：当传统 CSS 遇见现代工程在 Vue 项目开发中，CSS 管理一直是一个容易被忽视但极其重要的环节。传统的 CSS 编写方式（如手动处理浏览器兼容性、全局样式污染）已无法适应现代前端工程的需求。而 PostCSS 作为 C…...

编程日记 2025/8/28 17:46:48

LeetCode热题100：Java哈希表中等难度题目精解

49. 字母异位词分组题目描述给定一个字符串数组，要求将字母异位词组合在一起。可以按任意顺序返回结果列表。字母异位词是由重新排列源单词的所有字母得到的一个新单词。示例示例 1: 输入: strs ["eat", "tea", "tan", &…...

编程日记 2025/8/28 17:54:42

设计模式1 ——单例模式

定义在 C 里，单例模式是一种常用的设计模式，其目的是保证一个类仅存在一个实例，并且为该实例提供一个全局访问点。实现 1 饿汉式 class Singleton { private:static Singleton instance;Singleton() default;~Singleton() default;Si…...

编程日记 2025/8/26 14:31:26

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（26）：のは・のが・のを

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（26）：のは　・　のが　・　のを 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）復習：（２）のは　・　のが　・　のを3、单词（1）日语（2）日语片假名单词4、相近词练习5、单词辨析记录6、总结1、前言（1）情况说明…...

编程日记 2025/8/28 0:21:42

第18天-NumPy + Pandas + Matplotlib多维度直方图

示例1：带样式的柱状图 python 复制下载 import numpy as np import pandas as pd import matplotlib.pyplot as plt# 生成数据 df = pd.DataFrame(np.random.randint(10, 100, size=(8, 4)),columns=[Spring, Summer, Autumn, Winter],index=[2015, 2016, 2017, 2018, 20…...

编程日记 2025/8/26 11:22:11

Qt初识.

认识 QLabel 类，能够在界面上显示字符串. 通过 setText 来设置的。参数 QString (Qt 中把 C 里的很多容器类，进行了重新封装。历史原因) 内存泄露 / 文件资源泄露对象树. Qt 中通过对象树，来统一的释放界面的控件对象. Qt 还是推荐使用 new 的…...

编程日记 2025/8/27 18:36:48

linux系统查看硬盘序列号

Linux系统查看硬盘信息指南方法一：hdparm工具 sudo hdparm -i /dev/sda输出示例：在返回信息中查找"SerialNo"字段为序列号，"Model"字段为硬盘型号注意：必须使用root权限，普通用户需在命令前加s…...

编程日记 2025/8/20 21:01:22

用户栈的高效解析逻辑

一、背景在之前的博客内核逻辑里抓取用户栈的几种方法-CSDN博客里，介绍了使用内核逻辑进行用户栈的函数地址的抓取逻辑，但是并没有涉及如何解析出函数符号的逻辑。就如perf工具一样，它也是分为两个步骤，一个步骤是内核态抓取…...

编程日记 2025/8/28 13:21:39

【713. 乘积小于 K 的子数组】

Leetcode算法练习笔记记录 713. 乘积小于 K 的子数组 713. 乘积小于 K 的子数组此题和 209题什么区别，没有什么区别，关键时理解滑动窗口的作用。 public int numSubarrayProductLessThanK(int[] nums, int k) {if (k < 1){return 0;}int left 0;in…...

编程日记 2025/8/28 3:10:26

springboot 1.x2.x依赖spring版本

springboot 1.x&2.x依赖spring版本 Spring Boot 1.x 系列版本主要依赖于 Spring Framework 4.x。具体对应关系如下： Spring Boot 1.0.x → Spring Framework 4.0.xSpring Boot 1.1.x → Spring Framework 4.0.xSpring Boot 1.2.x → Spring Framework 4.1.xSp…...

编程日记 2025/8/20 1:26:28

TYUT-企业级开发教程-第9章

考点不多，不会考大题异步任务异步任务通常用于耗时较长或者不需要立即得到执行结果的业务，在 Spring 中，可以使用 Async 注解实现异步任务，被Async 注解标注的方法称之为异步方法，异步方法将在执行的时候&#xff…...

编程日记 2025/8/24 19:23:27

独占内存访问指令LDXR/STXR

一、原子操作的介绍在计算机领域里，如果要在多线程的情况下要保持数据的同步，需要引入称作Load-Link（LL）和Store-Conditional（SC）的操作，通常简称为LL/SC。 LL操作返回一个内存地址上当前存储…...

编程日记 2025/8/20 2:47:20

FlashAttention：传统自注意力（ Self-Attention）优化加速实现

摘要 FlashAttention 是一套专为 GPU 优化的精确自注意力（Self-Attention）实现，通过“输入/输出感知”（IO-awareness）和块化（Tiling）策略，利用片上 SRAM 缓存大幅降低对高带宽显存&…...

编程日记 2025/8/23 12:22:12

DSP定时器的计算

以下是 0 到 F 的十六进制数对应的四位二进制表示的对照表： 十六进制二进制00000100012001030011401005010160110701118100091001A1010B1011C1100D1101E1110F1111 定时器周期： 我们先将 0x1742 转换成二进制形式： 0x1742 0001 0111 0100 …...

编程日记 2025/8/26 5:04:55

2025.05.21华为暑期实习机考真题解析第二题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 02. 灾区物资调度路径规划问题描述在一次严重的自然灾害后，LYA负责协调救援物资的配送工作。救援区域包含多个受灾乡镇和一个物资集结点，各个地点之间的道路状况各异，有些甚至…...

编程日记 2025/8/26 16:01:31

ATT Global赞助非小号全球行，引领RWA创新浪潮

领先的Web3广告生态系统构建者Advertising Time Trace (ATT Global) 今日宣布，将作为特别赞助商，鼎力支持即将于2025年5月26日在吉隆坡盛大举行的非小号全球行之“You Deserve to be Loved” WALL X特别慈善活动。此次盛会由知名Web3平台非小号与WALL X、…...

编程日记 2025/8/28 4:10:41

在 stm32 中 volatile unsigned signed 分别有什么作用，分别在什么场景下使用？

在STM32开发中， plaintext 复制 volatile 、 plaintext 复制 unsigned 和 plaintext 复制 signed 是三个关键的关键字，它们的用途和场景如下： 1. plaintext 复制 volatile 关键字作用： 禁止编译器优化&#xff…...

编程日记 2025/8/23 2:15:15

Pandoc3.7新特性：存在合并单元格的 HTML 表格会被保留为嵌入的 HTML 表格

问题描述在 Pandoc 3.6 中，当将包含合并单元格的 HTML 表格 (<table>) 转换为 Markdown 格式时，表格会被直接转换为 Markdown 表格格式。然而，在 Pandoc 3.7 中，同样的操作结果发生了变化：合并单元格的 HTML 表…...

编程日记 2025/8/21 18:05:01

WPS深度适配鸿蒙电脑折叠形态，国产替代下的未来何在？

首先，从产业升级与国产替代的角度来看，这是中国信息技术产业由“可用”向“好用”跃迁的重要信号。长期以来，中国的办公软件市场高度依赖微软Office等国外产品，操作系统也主要被Windows、macOS等垄断。而随着鸿蒙系统的成熟以及WP…...

编程日记 2025/8/24 14:55:07

[java]数组

数组 Scanner innew Scanner(System.in); int[] numbersnew int[100]; int x; int cnt0; xin.nextInt(); while(x!-1){numbers[cnt]x;sumx;xin.nextInt(); } if(cnt>0){System.out.println(sum/cnt); }所有的元素具有相同的数据类型创建后不能改变大小定义数组元素个数…...

编程日记 2025/8/19 19:26:05

torch.matmul() VS torch.einsum()

torch.matmul():标准的矩阵乘法向量-向量（点积） a torch.randn(3) # [3] b torch.randn(3) # [3] c torch.matmul(a, b) # 点积，标量输出矩阵-向量 A torch.randn(3, 4) # [3, 4] x torch.randn(4) # [4] y torch.matmul(A, x…...

编程日记 2025/8/18 21:25:08

leetcode 92. Reverse Linked List II

题目描述 92. Reverse Linked List II 是第206题的进阶版206. Reverse Linked List 思路很简单，但一次性通过还是有点难度的。 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(n…...

编程日记 2025/8/24 19:11:47

VUE3使用provice、inject实现组件间的方法调用

问题：A组件》B组件》C组件 C可以调用A的方法吗？ A组件：提供一个refreshTable方法 provide(refreshTable,(e:params)>{ ElMessage(底层组件请求刷新表格e.staff_ide.shijian) params e renderTableData() }) C组件： 注入refres…...

编程日记 2025/8/28 7:11:07